Modelos de socios de Vertex AI para MaaS

Vertex AI admite una lista seleccionada de modelos desarrollados por socios de Google. Los modelos de socio se pueden usar con Vertex AI como un modelo como servicio (MaaS) y se ofrecen como una API administrada. Cuando usas un modelo de socio, continúas enviando tus solicitudes a los extremos de Vertex AI. Los modelos de socios no tienen servidores, por lo que no es necesario aprovisionar ni administrar la infraestructura.

Los modelos de socios se pueden descubrir con Model Garden. También puedes implementar modelos con Model Garden. Para obtener más información, consulta Explora los modelos de IA en Model Garden. Si bien la información sobre cada modelo de socio disponible se puede encontrar en la tarjeta de modelo en Model Garden, solo en esta guía se documentan los modelos de terceros que funcionan como MaaS con Vertex AI.

Los modelos Claude y Mistral de Anthropic son ejemplos de modelos administrados de terceros que están disponibles para usarse en Vertex AI.

Modelos de socios

Los siguientes modelos de socios se ofrecen como APIs administradas en Model Garden de Vertex AI (MaaS):

Nombre del modelo	Modalidad	Descripción	Guía de inicio rápido
Claude Sonnet 4.6	Lenguaje, Vision	Claude Sonnet 4.6 ofrece inteligencia de vanguardia a gran escala y está diseñado para la programación, los agentes y los flujos de trabajo empresariales.	Tarjeta de modelo
Claude Opus 4.6	Lenguaje, Vision	La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.6, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales.	Tarjeta de modelo
Claude Opus 4.5	Lenguaje, Vision	La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.5, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales.	Tarjeta de modelo
Claude Sonnet 4.5	Lenguaje, Vision	Es el modelo de tamaño mediano de Anthropic para potenciar agentes del mundo real, con capacidades en programación, uso de computadoras, ciberseguridad y trabajo con archivos de oficina, como hojas de cálculo.	Tarjeta de modelo
Claude Opus 4.1	Lenguaje, Vision	Es líder en la industria de la programación. Ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. Ideal para potenciar productos y funciones de agentes de vanguardia.	Tarjeta de modelo
Claude Haiku 4.5	Lenguaje, Vision	Claude Haiku 4.5 ofrece un rendimiento casi de vanguardia para una amplia variedad de casos de uso y se destaca como uno de los mejores modelos de codificación del mundo, con la velocidad y el costo adecuados para potenciar los productos gratuitos y las experiencias de usuario de gran volumen.	Tarjeta de modelo
Claude Opus 4	Lenguaje, Vision	Claude Opus 4 ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que amplía significativamente lo que pueden resolver los agentes de IA.	Tarjeta de modelo
Claude Sonnet 4	Lenguaje, Vision	El modelo de tamaño mediano de Anthropic con inteligencia superior para usos de gran volumen, como programación, investigación exhaustiva y agentes.	Tarjeta de modelo
Claude 3.5 Sonnet v2 de Anthropic	Lenguaje, Vision	Claude 3.5 Sonnet actualizado es un modelo de última generación para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor.	Tarjeta de modelo
Claude 3 Haiku de Anthropic	Idioma	El modelo de visión y texto más rápido de Anthropic para respuestas casi instantáneas a consultas básicas, diseñado para experiencias de IA fluidas que imitan las interacciones humanas.	Tarjeta de modelo
Claude 3.5 Sonnet de Anthropic	Idioma	Claude 3.5 Sonnet supera el rendimiento de Claude 3 Opus de Anthropic en una amplia variedad de evaluaciones de Anthropic, gracias a la velocidad y el costo del modelo de nivel intermedio de Anthropic, Claude 3 Sonnet.	Tarjeta de modelo
Jamba 1.5 Large (versión preliminar)	Idioma	Jamba 1.5 Large de AI21 Labs está diseñado para ofrecer respuestas de calidad superior, un alto rendimiento y precios competitivos en comparación con otros modelos de su clase de tamaño.	Tarjeta de modelo
Jamba 1.5 Mini (versión preliminar)	Idioma	Jamba 1.5 Mini de AI21 Labs está bien equilibrado en cuanto a calidad, capacidad de procesamiento y bajo costo.	Tarjeta de modelo
Mistral Medium 3	Idioma	Mistral Medium 3 es un modelo versátil diseñado para una amplia variedad de tareas, como programación, razonamiento matemático, comprensión de documentos extensos, resumen y diálogo.	Tarjeta de modelo
OCR de Mistral (25/05)	Lenguaje, Vision	Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para la comprensión de documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones.	Tarjeta de modelo
Mistral Small 3.1 (25/03)	Idioma	Mistral Small 3.1 (25/3) es la versión más reciente del modelo Small de Mistral, que incluye capacidades multimodales y una longitud de contexto extendida.	Tarjeta de modelo
Codestral 2	Idioma, código	Codestral 2 es el modelo especializado en generación de código de Mistral creado específicamente para la finalización de relleno en el medio (FIM) de alta precisión que ayuda a los desarrolladores a escribir e interactuar con el código a través de un extremo de API compartido de instrucciones y finalización.	Tarjeta de modelo

Precios de los modelos de socios de Vertex AI con garantía de capacidad

Google ofrece capacidad de procesamiento aprovisionada para algunos modelos de socios que reservan la capacidad de procesamiento de tus modelos por una tarifa fija. Tú decides la capacidad de procesamiento y en qué regiones reservar esa capacidad. Debido a que las solicitudes de capacidad de procesamiento aprovisionada tienen prioridad sobre las solicitudes estándar de pago por uso, la capacidad de procesamiento aprovisionada proporciona una mayor disponibilidad. Cuando el sistema está sobrecargado, tus solicitudes aún se pueden completar, siempre que la productividad se mantenga por debajo de la capacidad de productividad reservada. Para obtener más información o suscribirte al servicio, comunícate con Ventas.

Extremos regionales y globales

En el caso de los extremos regionales, las solicitudes se atienden desde la región que especificaste. En los casos en los que tengas requisitos de residencia de datos o si un modelo no admite el extremo global, usa los extremos regionales.

Cuando usas el extremo global, Google puede procesar y entregar tus solicitudes desde cualquier región compatible con el modelo que usas, lo que podría generar una mayor latencia en algunos casos. El extremo global ayuda a mejorar la disponibilidad general y a reducir los errores.

Existe una diferencia de precios entre los extremos regionales y los globales. Las cuotas de los extremos globales y las capacidades de los modelos compatibles pueden diferir de las de los extremos regionales. Para obtener más información, consulta la página del modelo de terceros relacionado.

Especifica el extremo global

Para usar el extremo global, configura la región como global.

Por ejemplo, la URL de solicitud para un comando curl usa el siguiente formato: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

En el SDK de Vertex AI, un extremo regional es el valor predeterminado. Configura la región como GLOBAL para usar el extremo global.

Modelos compatibles

El extremo global está disponible para los siguientes modelos:

Restringe el uso del extremo de API global

Para ayudar a aplicar de manera forzosa el uso de extremos regionales, usa la restricción de políticas de la organización constraints/gcp.restrictEndpointUsage y bloquea las solicitudes al extremo de API global. Para obtener más información, consulta Cómo restringir el uso de extremos.

Otorga acceso de usuario a los modelos de socios

Para que puedas habilitar modelos de socios y realizar una solicitud inmediata, un administrador de Google Clouddebe establecer los permisos necesarios y verificar que la política de la organización permita el uso de las APIs requeridas.

Establece los permisos necesarios para usar modelos de socios

Se requieren los siguientes roles y permisos para usar los modelos de socios:

Debes tener el rol de Identity and Access Management (IAM) de administrador de autorizaciones de adquisición de consumidores. Cualquier persona a la que se le haya otorgado este rol puede habilitar modelos de socios en Model Garden.
Debes tener el permiso aiplatform.endpoints.predict. Este permiso se incluye en el rol de IAM de usuario de Vertex AI. Para obtener más información, consulta Usuario de Vertex AI y Control de acceso.

Console

Para otorgar los roles de IAM de Administrador de autorizaciones de adquisición de consumidores a un usuario, ve a la página IAM.

Ir a IAM
En la columna Principal, busca la principal del usuario para el que deseas habilitar el acceso a los modelos de socios y, luego, haz clic en Editar principal en esa fila.
En el panel Editar permisos, haz clic en Agregar otra función.
En Selecciona un rol, selecciona Administrador de autorizaciones de adquisición de consumidores.
En el panel Editar permisos, haz clic en Agregar otro rol.
En Selecciona un rol, selecciona Usuario de Vertex AI.
Haz clic en Guardar.

gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell
Otorga el rol de administrador de derechos de adquisición de consumidores que se requiere para habilitar modelos de socios en Model Garden.
```
gcloud projects add-iam-policy-binding  PROJECT_ID \
--member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
```
Otorga el rol de usuario de Vertex AI que incluye el permiso aiplatform.endpoints.predict, que es necesario para realizar solicitudes inmediatas:
```
gcloud projects add-iam-policy-binding  PROJECT_ID \
--member=PRINCIPAL --role=roles/aiplatform.user
```
Reemplaza PRINCIPAL por el identificador de la principal. El identificador tiene la forma user|group|serviceAccount:email o domain:domain, por ejemplo: user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com odomain:example.domain.com.

El resultado es una lista de vinculaciones de políticas que incluye lo siguiente:
```
-   members:
  -   user:PRINCIPAL
  role: roles/roles/consumerprocurement.entitlementManager
```
Para obtener más información, consulta Otorga un solo rol y gcloud projects add-iam-policy-binding.

Establece la política de la organización para el acceso al modelo de socio

Para habilitar los modelos de socios, la política de la organización debe permitir la siguiente API: API de Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com

Si tu organización configura una política de la organización para restringir el uso del servicio, un administrador de la organización debe verificar que cloudcommerceconsumerprocurement.googleapis.com esté permitido a través de la configuración de la política de la organización.

Además, si tienes una política de la organización que restringe el uso de modelos en Model Garden, la política debe permitir el acceso a los modelos de socios. Para obtener más información, consulta Cómo controlar el acceso al modelo.

Cumplimiento de las reglamentaciones del modelo de socio

Las certificaciones de la IA generativa en Vertex AI siguen vigentes cuando se usan modelos de socios como una API administrada con Vertex AI. Si necesitas detalles sobre los modelos, puedes encontrar información adicional en la tarjeta del modelo correspondiente o comunicarte con el editor del modelo respectivo.

Tus datos se almacenan en reposo dentro de la región o multirregión seleccionada para los modelos de socios en Vertex AI, pero la regionalización del procesamiento de datos puede variar. Para obtener una lista detallada de los compromisos de procesamiento de datos de los modelos de socios, consulta Residencia de datos para modelos de socios.

Las instrucciones del cliente y las respuestas del modelo no se comparten con terceros cuando se usa la API de Vertex AI, incluidos los modelos de socios. Google solo trata los Datos del Cliente según las instrucciones del Cliente, lo que se describe con más detalle en nuestro Anexo de Tratamiento de Datos de Cloud.