Modelos abiertos de Vertex AI para MaaS

Vertex AI admite una lista seleccionada de modelos abiertos como modelos administrados. Estos modelos abiertos se pueden usar con Vertex AI como un modelo como servicio (MaaS) y se ofrecen como una API administrada. Cuando usas un modelo abierto administrado, continúas enviando tus solicitudes a los extremos de Vertex AI. Los modelos abiertos administrados no tienen servidores, por lo que no es necesario aprovisionar ni administrar la infraestructura.

Los modelos abiertos administrados se pueden descubrir con Model Garden. También puedes implementar modelos con Model Garden. Para obtener más información, consulta Explora los modelos de IA en Model Garden.

Antes de que puedas usar modelos abiertos, debes otorgar acceso de usuario a los modelos abiertos.

Modelos abiertos

Los siguientes modelos abiertos se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):

Nombre del modelo Modalidad Descripción Guía de inicio rápido
DeepSeek-OCR Lenguaje, Vision Un modelo integral de reconocimiento óptico de caracteres (OCR) que analiza y comprende documentos complejos. Se destaca en tareas de OCR desafiantes. Tarjeta de modelo
DeepSeek R1 (0528) Idioma La versión más reciente del modelo DeepSeek R1 de DeepSeek. Tarjeta de modelo
DeepSeek-V3.1 Idioma El modelo híbrido de DeepSeek que admite el modo de pensamiento y el modo sin pensamiento. Tarjeta de modelo
DeepSeek-V3.2 Idioma El modelo de DeepSeek que armoniza la alta eficiencia computacional con un razonamiento superior y un rendimiento de agente. Tarjeta de modelo
Gemma 4 26B A4B IT Idioma La familia de modelos abiertos de Google creada por Google DeepMind. Tarjeta de modelo
GLM 4.7 Lenguaje, Código El modelo de GLM diseñado para la programación básica o el vibe coding, el uso de herramientas y el razonamiento complejo. Tarjeta de modelo
GLM 5 Lenguaje, Código El modelo de GLM que se enfoca en la ingeniería de sistemas complejos y las tareas de agentes de largo plazo. Tarjeta de modelo
gpt-oss 120B Idioma Un modelo de 120B que ofrece un alto rendimiento en tareas de razonamiento. Tarjeta de modelo
gpt-oss 20B Idioma Un modelo de 20B optimizado para la eficiencia y la implementación en hardware de consumo y perimetral. Tarjeta de modelo
Kimi K2 Thinking Idioma Un modelo de agente de pensamiento de código abierto que razona paso a paso y usa herramientas para resolver problemas complejos. Tarjeta de modelo
Llama 3.3 Idioma Llama 3.3 es un modelo de solo texto ajustado por instrucciones de 70B que proporciona un rendimiento mejorado en relación con Llama 3.1 70B y Llama 3.2 90B cuando se usa para aplicaciones de solo texto. Además, para algunas aplicaciones, Llama 3.3 70B se acerca al rendimiento de Llama 3.1 405B. Tarjeta de modelo
Llama 4 Maverick 17B-128E Lenguaje, Vision El modelo de Llama 4 más grande y potente que tiene capacidades de programación, razonamiento y procesamiento de imágenes. Llama 4 Maverick 17B-128E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y la fusión temprana. Tarjeta de modelo
Llama 4 Scout 17B-16E Lenguaje, Vision Llama 4 Scout 17B-16E ofrece resultados de vanguardia para su clase de tamaño, superando a las generaciones anteriores de Llama y a otros modelos abiertos y propietarios en varias comparativas. Llama 4 Scout 17B-16E es un modelo multimodal que usa la arquitectura de mezcla de expertos (MoE) y la fusión temprana. Tarjeta de modelo
MiniMax M2 Lenguaje, Código Diseñado para tareas de agentes y relacionadas con el código con sólidas capacidades de planificación y ejecución de tareas complejas de llamada a herramientas. Tarjeta de modelo
Qwen3 235B Idioma Un modelo de pesos abiertos con una capacidad de "pensamiento híbrido" para cambiar entre el razonamiento metódico y la conversación rápida. Tarjeta de modelo
Qwen3 Coder Lenguaje, Código Un modelo de pesos abiertos desarrollado para tareas avanzadas de desarrollo de software. Tarjeta de modelo
Qwen3-Next-80B Instruct Lenguaje, Código Un modelo de la familia de modelos Qwen3-Next, especializado para seguir comandos específicos. Tarjeta de modelo
Qwen3-Next-80B Thinking Lenguaje, Código Un modelo de la familia de modelos Qwen3-Next, especializado para la resolución de problemas complejos y el razonamiento profundo. Tarjeta de modelo

Los siguientes modelos de embedding abiertos se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):

Nombre del modelo Descripción Dimensiones de la salida Longitud máxima de la secuencia Lenguajes de texto admitidos Guía de inicio rápido
multilingual-e5-small Parte de la familia E5 de modelos de embedding de texto. La variante pequeña contiene 12 capas. Hasta 384 512 tokens Idiomas compatibles Tarjeta de modelo
multilingual-e5-large Parte de la familia E5 de modelos de embedding de texto. La variante grande contiene 24 capas. Hasta 1024 512 tokens Idiomas compatibles Tarjeta de modelo

Cumplimiento normativo de modelos abiertos

Las certificaciones de IA generativa en Vertex AI siguen aplicándose cuando los modelos abiertos se usan como una API administrada con Vertex AI. Si necesitas detalles sobre los modelos en sí, puedes encontrar información adicional en la tarjeta de modelo respectiva o comunicarte con el publicador del modelo correspondiente.

Tus datos se almacenan en reposo dentro de la región o multirregión seleccionada para los modelos abiertos en Vertex AI, pero la regionalización del procesamiento de datos puede variar. Para obtener una lista detallada de los compromisos de procesamiento de datos de los modelos abiertos, consulta Residencia de datos para modelos abiertos.

Las instrucciones del cliente y las respuestas del modelo no se comparten con terceros cuando se usa la API de Vertex AI, incluidos los modelos abiertos. Google solo procesa los datos del cliente según las instrucciones del cliente, lo que se describe con más detalle en nuestro Anexo de Tratamiento de Datos de Cloud.

El almacenamiento de contexto en caché

El almacenamiento de contexto en caché ayuda a reducir el costo y la latencia de las solicitudes a modelos abiertos que contienen contenido repetido. Esto se habilita solo cuando se usa el tráfico de pago por uso y no admite otros tipos de tráfico, como el rendimiento aprovisionado y el lote.

El tipo de almacenamiento en caché admitido es el almacenamiento en caché implícito, que es el almacenamiento en caché automático que está habilitado en todos los Google Cloud proyectos de forma predeterminada y proporciona un 90% de descuento en los tokens almacenados en caché en comparación con los tokens de entrada estándar cuando se producen aciertos de caché. Con este tipo de almacenamiento en caché, no defines ni llamas a las cachés de forma explícita. En cambio, nuestro backend extrae de estas cachés una vez que se detecta el contexto repetido.

Modelos compatibles

  • qwen3-coder-480b-a35b-instruct-maas
  • kimi-k2-thinking-maas
  • minimax-m2-maas
  • gpt-oss-20b-maas
  • deepseek-v3.1-maas
  • deepseek-v3.2-maas

El cachedContentTokenCount campo en los metadatos de tu respuesta indica la cantidad de tokens en la parte almacenada en caché de tu entrada. Las solicitudes de almacenamiento en caché deben contener un mínimo de 4,096 tokens (este mínimo está sujeto a cambios durante la versión preliminar).

Cuando está habilitado, los ahorros de costos de acierto de caché implícitos se te transfieren automáticamente. Los aciertos de caché no están garantizados y dependen de las solicitudes enviadas y otros factores. Para aumentar las posibilidades de un acierto de caché implícito, prueba lo siguiente:

  • Coloca contenido grande y común al comienzo de tu instrucción.
  • Envía solicitudes con un prefijo similar en un período breve.

¿Qué sigue?