Vertex AI admite una lista seleccionada de modelos abiertos como modelos administrados. Estos modelos abiertos se pueden usar con Vertex AI como un modelo como servicio (MaaS) y se ofrecen como una API administrada. Cuando usas un modelo abierto administrado, continúas enviando tus solicitudes a los extremos de Vertex AI. Los modelos abiertos administrados no tienen servidores, por lo que no es necesario aprovisionar ni administrar la infraestructura.
Los modelos abiertos administrados se pueden descubrir con Model Garden. También puedes implementar modelos con Model Garden. Para obtener más información, consulta Explora los modelos de IA en Model Garden.
Antes de que puedas usar modelos abiertos, debes otorgar acceso de usuario a los modelos abiertos.
Modelos abiertos
Los siguientes modelos abiertos se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):
| Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
|---|---|---|---|
| DeepSeek-OCR | Lenguaje, Vision | Un modelo integral de reconocimiento óptico de caracteres (OCR) que analiza y comprende documentos complejos. Se destaca en tareas de OCR desafiantes. | Tarjeta de modelo |
| DeepSeek R1 (0528) | Idioma | La versión más reciente del modelo DeepSeek R1 de DeepSeek. | Tarjeta de modelo |
| DeepSeek-V3.1 | Idioma | El modelo híbrido de DeepSeek que admite el modo de pensamiento y el modo sin pensamiento. | Tarjeta de modelo |
| DeepSeek-V3.2 | Idioma | El modelo de DeepSeek que armoniza la alta eficiencia computacional con un razonamiento superior y un rendimiento de agente. | Tarjeta de modelo |
| Gemma 4 26B A4B IT | Idioma | La familia de modelos abiertos de Google creada por Google DeepMind. | Tarjeta de modelo |
| GLM 4.7 | Lenguaje, Código | El modelo de GLM diseñado para la programación básica o el vibe coding, el uso de herramientas y el razonamiento complejo. | Tarjeta de modelo |
| GLM 5 | Lenguaje, Código | El modelo de GLM que se enfoca en la ingeniería de sistemas complejos y las tareas de agentes de largo plazo. | Tarjeta de modelo |
| gpt-oss 120B | Idioma | Un modelo de 120B que ofrece un alto rendimiento en tareas de razonamiento. | Tarjeta de modelo |
| gpt-oss 20B | Idioma | Un modelo de 20B optimizado para la eficiencia y la implementación en hardware de consumo y perimetral. | Tarjeta de modelo |
| Kimi K2 Thinking | Idioma | Un modelo de agente de pensamiento de código abierto que razona paso a paso y usa herramientas para resolver problemas complejos. | Tarjeta de modelo |
| Llama 3.3 | Idioma | Llama 3.3 es un modelo de solo texto ajustado por instrucciones de 70B que proporciona un rendimiento mejorado en relación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto. Además, para algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B. | Tarjeta de modelo |
| Llama 4 Maverick 17B-128E | Lenguaje, Vision | El modelo de Llama 4 más grande y potente que tiene capacidades de programación, razonamiento y procesamiento de imágenes. Llama 4 Maverick 17B-128E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y la fusión temprana. | Tarjeta de modelo |
| Llama 4 Scout 17B-16E | Lenguaje, Vision | Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Llama 4 Scout 17B-16E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y la fusión temprana. | Tarjeta de modelo |
| MiniMax M2 | Lenguaje, Código | Diseñado para tareas de agentes y relacionadas con el código con sólidas capacidades de planificación y ejecución de tareas complejas de llamada a herramientas. | Tarjeta de modelo |
| Qwen3 235B | Idioma | Un modelo de pesos abiertos con una capacidad de "pensamiento híbrido" para cambiar entre el razonamiento metódico y la conversación rápida. | Tarjeta de modelo |
| Qwen3 Coder | Lenguaje, Código | Un modelo de pesos abiertos desarrollado para tareas avanzadas de desarrollo de software. | Tarjeta de modelo |
| Qwen3-Next-80B Instruct | Lenguaje, Código | Un modelo de la familia de modelos Qwen3-Next, especializado para seguir comandos específicos. | Tarjeta de modelo |
| Qwen3-Next-80B Thinking | Lenguaje, Código | Un modelo de la familia de modelos Qwen3-Next, especializado para la resolución de problemas complejos y el razonamiento profundo. | Tarjeta de modelo |
Los siguientes modelos de embedding abiertos se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):
| Nombre del modelo | Descripción | Dimensiones de la salida | Longitud máxima de la secuencia | Lenguajes de texto admitidos | Guía de inicio rápido |
|---|---|---|---|---|---|
| multilingual-e5-small | Parte de la familia E5 de modelos de embedding de texto. La variante pequeña contiene 12 capas. | Hasta 384 | 512 tokens | Idiomas compatibles | Tarjeta de modelo |
| multilingual-e5-large | Parte de la familia E5 de modelos de embedding de texto. La variante grande contiene 24 capas. | Hasta 1024 | 512 tokens | Idiomas compatibles | Tarjeta de modelo |
Cumplimiento normativo de modelos abiertos
Las certificaciones de IA generativa en Vertex AI siguen aplicándose cuando los modelos abiertos se usan como una API administrada con Vertex AI. Si necesitas detalles sobre los modelos en sí, puedes encontrar información adicional en la tarjeta de modelo respectiva o comunicarte con el publicador del modelo correspondiente.
Tus datos se almacenan en reposo dentro de la región o multirregión seleccionada para los modelos abiertos en Vertex AI, pero la regionalización del procesamiento de datos puede variar. Para obtener una lista detallada de los compromisos de procesamiento de datos de los modelos abiertos, consulta Residencia de datos para modelos abiertos.
Las instrucciones del cliente y las respuestas del modelo no se comparten con terceros cuando se usa la API de Vertex AI, incluidos los modelos abiertos. Google solo procesa los datos del cliente según las instrucciones del cliente, lo que se describe con más detalle en nuestro Anexo de Tratamiento de Datos de Cloud.
El almacenamiento de contexto en caché
El almacenamiento de contexto en caché ayuda a reducir el costo y la latencia de las solicitudes a modelos abiertos que contienen contenido repetido. Esto se habilita solo cuando se usa el tráfico de pago por uso y no admite otros tipos de tráfico, como el rendimiento aprovisionado y el lote.El tipo de almacenamiento en caché admitido es el almacenamiento en caché implícito, que es el almacenamiento en caché automático que está habilitado en todos los Google Cloud proyectos de forma predeterminada y proporciona un 90% de descuento en los tokens almacenados en caché en comparación con los tokens de entrada estándar cuando se producen aciertos de caché. Con este tipo de almacenamiento en caché, no defines ni llamas a las cachés de forma explícita. En cambio, nuestro backend extrae de estas cachés una vez que se detecta el contexto repetido.
Modelos compatibles
- qwen3-coder-480b-a35b-instruct-maas
- kimi-k2-thinking-maas
- minimax-m2-maas
- gpt-oss-20b-maas
- deepseek-v3.1-maas
- deepseek-v3.2-maas
El cachedContentTokenCount
campo en los metadatos de tu respuesta indica la cantidad de tokens en la parte almacenada en caché
de tu entrada. Las solicitudes de almacenamiento en caché deben contener un mínimo de 4,096 tokens (este mínimo está sujeto a cambios durante la versión preliminar).
Cuando está habilitado, los ahorros de costos de acierto de caché implícitos se te transfieren automáticamente. Los aciertos de caché no están garantizados y dependen de las solicitudes enviadas y otros factores. Para aumentar las posibilidades de un acierto de caché implícito, prueba lo siguiente:
- Coloca contenido grande y común al comienzo de tu instrucción.
- Envía solicitudes con un prefijo similar en un período breve.
¿Qué sigue?
- Antes de usar modelos abiertos, otorga acceso de usuario a los modelos abiertos.
- Aprende a llamar a las APIs de modelos abiertos.