Vertex AI admite una lista seleccionada de modelos desarrollados por socios de Google. Los modelos de socio se pueden usar con Vertex AI como un modelo como servicio (MaaS) y se ofrecen como una API administrada. Cuando usas un modelo de socio, continúas enviando tus solicitudes a los extremos de Vertex AI. Los modelos de socios no tienen servidores, por lo que no es necesario aprovisionar ni administrar la infraestructura.
Los modelos de socios se pueden descubrir con Model Garden. También puedes implementar modelos con Model Garden. Para obtener más información, consulta Explora los modelos de IA en Model Garden. Si bien la información sobre cada modelo de socio disponible se puede encontrar en la tarjeta de modelo en Model Garden, solo en esta guía se documentan los modelos de terceros que funcionan como MaaS con Vertex AI.
Los modelos Claude y Mistral de Anthropic son ejemplos de modelos administrados de terceros que están disponibles para usarse en Vertex AI.
Modelos de socios
Los siguientes modelos de socios se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):
| Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
|---|---|---|---|
| Grok 4.20 (Reasoning) (versión preliminar) | Idioma | Grok 4.20 (Reasoning) es el modelo insignia de xAI, que cuenta con una tasa de alucinaciones baja líder en la industria. Se destaca en tareas de comprensión de documentos y llamadas de herramientas de agentes de largo plazo. | Tarjeta de modelo |
| Grok 4.20 (Non-Reasoning) (versión preliminar) | Idioma | Grok 4.20 (Non-Reasoning) es el modelo insignia sin razonamiento de xAI, que cuenta con una tasa de alucinaciones baja líder en la industria. Se destaca en casos de uso sensibles a la latencia, como la asistencia al cliente y la categorización. | Tarjeta de modelo |
| Grok 4.1 Fast (Reasoning) (versión preliminar) | Idioma | Grok 4.1 Fast (Razonamiento) es el modelo más rentable de xAI, que cuenta con sólidas capacidades de llamada de herramientas y una síntesis eficiente de la base de conocimiento. Se destaca en tareas de búsqueda que involucran datos web y herramientas internas de la base de conocimientos. | Tarjeta de modelo |
| Grok 4.1 Fast (Non-Reasoning) (versión preliminar) | Idioma | Grok 4.1 Fast (Non-Reasoning) es el modelo sin pensamiento más rentable de xAI, optimizado para un rendimiento de baja latencia. Se destaca en tareas de gran volumen, como el resumen y la categorización. | Tarjeta de modelo |
| Claude Opus 4.7 | Lenguaje, Vision | La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.7, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales. | Tarjeta de modelo |
| Claude Sonnet 4.6 | Lenguaje, Vision | Claude Sonnet 4.6 ofrece inteligencia de vanguardia a gran escala y está diseñado para la programación, el uso de agentes y los flujos de trabajo empresariales. | Tarjeta de modelo |
| Claude Opus 4.6 | Lenguaje, Vision | La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.6, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales. | Tarjeta de modelo |
| Claude Opus 4.5 | Lenguaje, Vision | La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.5, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales. | Tarjeta de modelo |
| Claude Sonnet 4.5 | Lenguaje, Vision | El modelo de tamaño mediano de Anthropic para potenciar agentes del mundo real, con capacidades en programación, uso de computadoras, ciberseguridad y trabajo con archivos de uso en la oficina, como hojas de cálculo. | Tarjeta de modelo |
| Claude Opus 4.1 | Lenguaje, Vision | Un líder de la industria en programación. Ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. Ideal para potenciar productos y funciones de agentes de vanguardia. | Tarjeta de modelo |
| Claude Haiku 4.5 | Lenguaje, Vision | Claude Haiku 4.5 ofrece un rendimiento casi de vanguardia para una amplia variedad de casos de uso y se destaca como uno de los mejores modelos de programación del mundo, con la velocidad y el costo adecuados para potenciar productos gratuitos y experiencias de usuario de gran volumen. | Tarjeta de modelo |
| Claude Opus 4 | Lenguaje, Vision | Claude Opus 4 ofrece rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. | Tarjeta de modelo |
| Claude Sonnet 4 | Lenguaje, Vision | El modelo de tamaño mediano de Anthropic con inteligencia superior para usos de gran volumen, como programación, investigación exhaustiva, y agentes. | Tarjeta de modelo |
| Claude 3.5 Sonnet v2 de Anthropic | Lenguaje, Vision | Claude 3.5 Sonnet actualizado es un modelo de última generación para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor. | Tarjeta de modelo |
| Claude 3.5 Sonnet de Anthropic | Idioma | Claude 3.5 Sonnet supera el rendimiento de Claude 3 Opus de Anthropic en una amplia variedad de evaluaciones de Anthropic, gracias a la velocidad y el costo del modelo de nivel intermedio de Anthropic, Claude 3 Sonnet. | Tarjeta de modelo |
| Jamba 1.5 Large (versión preliminar) | Idioma | Jamba 1.5 Large de AI21 Labs está diseñado para ofrecer respuestas de calidad superior, una alta capacidad de procesamiento y precios competitivos en comparación con otros modelos de su clase de tamaño. | Tarjeta de modelo |
| Jamba 1.5 Mini (versión preliminar) | Idioma | Jamba 1.5 Mini de AI21 Labs está bien equilibrado en cuanto a calidad, capacidad de procesamiento y bajo costo. | Tarjeta de modelo |
| Mistral Medium 3 | Idioma | Mistral Medium 3 es un modelo versátil diseñado para una amplia variedad de tareas, como programación, razonamiento matemático, comprensión de documentos largos , resumen y diálogo. | Tarjeta de modelo |
| Mistral OCR (25.05) | Lenguaje, Vision | Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para la comprensión de documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones. | Tarjeta de modelo |
| Mistral Small 3.1 (25.03) | Idioma | Mistral Small 3.1 (25.03) es la versión más reciente del modelo Small de Mistral, que cuenta con capacidades multimodales y una longitud de contexto extendida. | Tarjeta de modelo |
| Codestral 2 | Lenguaje, Código | Codestral 2 es el modelo especializado de generación de código de Mistral creado específicamente para la finalización de relleno en el medio (FIM) de alta precisión que ayuda a los desarrolladores a escribir código y a interactuar con él a través de un extremo de API de instrucción y finalización compartidos. | Tarjeta de modelo |
Evalúa modelos de socios con el servicio de evaluación de IA generativa
El servicio de evaluación de IA generativa admite la evaluación de modelos de socios, como los modelos de Anthropic y Llama. La evaluación de modelos de socios se admite a través de Model Garden, por lo que debes habilitar el modelo antes de ejecutar evaluaciones en un modelo de socio.
Para obtener más información, consulta Realiza una evaluación con la consola.
Precios de los modelos de socios de Vertex AI con garantía de capacidad
Google ofrece capacidad de procesamiento aprovisionada para algunos modelos de socios que reservan la capacidad de procesamiento de tus modelos por una tarifa fija. Tú decides la capacidad de procesamiento y en qué regiones reservar esa capacidad. Debido a que las solicitudes de capacidad de procesamiento aprovisionada tienen prioridad sobre las solicitudes estándar de pago por uso, la capacidad de procesamiento aprovisionada proporciona una mayor disponibilidad. Cuando el sistema está sobrecargado, tus solicitudes aún se pueden completar, siempre que la capacidad de procesamiento se mantenga por debajo de la capacidad de procesamiento reservada. Para obtener más información o suscribirte al servicio, comunícate con Ventas.
Extremos regionales, globales y multirregionales
Para los extremos regionales, las solicitudes se entregan desde la región especificada. En los casos en los que tengas requisitos de residencia de datos o si un modelo no admite el extremo global, usa los extremos regionales.
Cuando usas el extremo global, Google puede procesar y entregar tus solicitudes desde cualquier región compatible con el modelo que usas, lo que puede generar una mayor latencia en algunos casos. El extremo global ayuda a mejorar la disponibilidad general y a reducir los errores.
Los extremos multirregionales permiten el acceso de alta disponibilidad a los modelos de socios y, al mismo tiempo, mantienen la residencia de datos dentro de una geografía más amplia, como Estados Unidos.
Hay una diferencia de precio según el tipo de extremo que selecciones. Para obtener más información sobre las cuotas y las capacidades, consulta la página del modelo de terceros relacionado.
Extremo global
Para usar el extremo global, configura la región como global.
Por ejemplo, la URL de solicitud para un comando curl usa el siguiente formato:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Para el SDK de Vertex AI, un extremo regional es el valor predeterminado. Configura la región como GLOBAL para usar el extremo global.
Modelos compatibles con el extremo global
El extremo global está disponible para los siguientes modelos:
- Claude Opus 4.7
- Claude Opus 4.6
- Claude Sonnet 4.6
- Claude Opus 4.5
- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4.5
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude Haiku 4.5
- Grok 4.1 Fast
- Grok 4.20
Restringe el uso del extremo de API global
Para ayudar a aplicar de manera forzosa el uso de extremos regionales, usa la restricción de políticas de la organización constraints/gcp.restrictEndpointUsage y bloquea las solicitudes al extremo de API global. Para obtener más información, consulta
Cómo restringir el uso de extremos.
Extremo multirregional (versión preliminar)
Nota: El extremo multirregional se encuentra en versión preliminar y está cubierto por las Condiciones de las ofertas de la fase previa a la DG de las Condiciones del Servicio de Google Cloud Platform. No está destinado para el uso en entornos de producción, no está regido por ningún ANS, obligación de asistencia ni política de baja, y pueden estar sujetos a cambios incompatibles con versiones anteriores.
Los extremos multirregionales permiten el acceso de alta disponibilidad a los modelos de socios y, al mismo tiempo, mantienen la residencia de datos dentro de una geografía más amplia, como Estados Unidos o la Unión Europea.
Selecciona la pestaña correspondiente para la multirregión que deseas usar:
EE.UU.
Para usar el extremo multirregional de EE.UU., configura la URL del extremo como aiplatform.us.rep.googleapis.com.
La URL de solicitud para un comando curl usa el siguiente formato:
https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME
UE
Para usar el extremo multirregional de la UE, configura la URL del extremo como aiplatform.eu.rep.googleapis.com.
La URL de solicitud para un comando curl usa el siguiente formato:
https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME
Para obtener más información sobre el formato MODEL_NAME, consulta la documentación de Anthropic.
Modelos compatibles con el extremo multirregional:
Se admiten los siguientes modelos. Usa el ID del modelo completo, incluida la fecha de la versión, cuando corresponda.
| Modelo | ID del modelo de la API de Vertex AI |
|---|---|
claude-opus-4-7 |
claude-opus-4-7 |
Próximamente
Los siguientes modelos serán compatibles en el futuro:
| Modelo | ID del modelo de la API de Vertex AI |
|---|---|
claude-haiku-4-5 |
claude-haiku-4-5@20251001 |
claude-sonnet-4 |
claude-sonnet-4@20250514 |
claude-sonnet-4-5 |
claude-sonnet-4-5@20250929 |
claude-sonnet-4-6 |
claude-sonnet-4-6 |
claude-opus-4-5 |
claude-opus-4-5@20251101 |
claude-opus-4-6 |
claude-opus-4-6 |
Ejemplo de solicitud:
A continuación, se muestra cómo puedes llamar al extremo multirregional con curl:
export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7
# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"
# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"
export MODEL_ID="claude-opus-4-7"
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json" \
"https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
-d '{
"max_tokens": 300,
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Why is the sky blue?"
}
]
}
],
"anthropic_version": "vertex-2023-10-16"
}'
Cuotas multirregionales:
Se aplican cuotas multirregionales dedicadas. Puedes ver y solicitar aumentos para estos valores de cuota predeterminados en la Google Cloud consola.
Ejemplos de cuota de EE.UU.:
UsOnlinePredictionInputTokensPerMinutePerBaseModelUsOnlinePredictionOutputTokensPerMinutePerBaseModelUsOnlinePredictionRequestsPerMinPerProjectPerBaseModelUsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Ejemplos de cuota de la UE:
EuOnlinePredictionInputTokensPerMinutePerBaseModelEuOnlinePredictionOutputTokensPerMinutePerBaseModelEuOnlinePredictionRequestsPerMinPerProjectPerBaseModelEuOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Otorga acceso de usuario a los modelos de socios
Para que puedas habilitar modelos de socios y realizar una solicitud inmediata, un Google Cloud administrador debe establecer los permisos necesarios y verificar que la política de la organización permita el uso de las APIs requeridas.
Establece los permisos necesarios para usar modelos de socios
Se requieren los siguientes roles y permisos para usar los modelos de socios:
Debes tener el rol de Identity and Access Management (IAM) de administrador de autorizaciones de adquisición de consumidores. Cualquier persona a la que se le haya otorgado este rol puede habilitar modelos de socios en Model Garden.
Debes tener el permiso
aiplatform.endpoints.predict. Este permiso se incluye en el rol de IAM de usuario de Vertex AI. Para obtener más información, consulta Usuario de Vertex AI y Control de acceso.
Console
Para otorgar los roles de IAM de Administrador de autorizaciones de adquisición de consumidores a un usuario, ve a la página IAM.
En la columna Principal, busca la principal del usuario para el que deseas habilitar el acceso a los modelos de socios y, luego, haz clic en Editar principal en esa fila.
En el panel Editar permisos, haz clic en Agregar otra función.
En Selecciona un rol, selecciona Administrador de autorizaciones de adquisición de consumidores.
En el panel Editar permisos, haz clic en Agregar otro rol.
En Selecciona un rol, selecciona Usuario de Vertex AI.
Haz clic en Guardar.
gcloud
-
En la Google Cloud consola, activa Cloud Shell.
Otorga el rol de administrador de derechos de adquisición de consumidores que se requiere para habilitar modelos de socios en Model Garden.
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManagerOtorga el rol de usuario de Vertex AI que incluye el permiso
aiplatform.endpoints.predict, que es necesario para realizar solicitudes inmediatas:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.userReemplaza
PRINCIPALpor el identificador de la principal. El identificador tiene la formauser|group|serviceAccount:emailodomain:domain, por ejemplo:user:cloudysanfrancisco@gmail.com,group:admins@example.com,serviceAccount:test123@example.domain.comodomain:example.domain.com.El resultado es una lista de vinculaciones de políticas que incluye lo siguiente:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManagerPara obtener más información, consulta Otorga un solo rol y
gcloud projects add-iam-policy-binding.
Establece la política de la organización para el acceso al modelo de socio
Para habilitar los modelos de socios, la política de la organización debe permitir la siguiente API: API de Cloud Commerce Consumer Procurement: cloudcommerceconsumerprocurement.googleapis.com
Si tu organización configura una política de la organización para
restringir el uso del servicio,
un administrador de la organización debe verificar que
cloudcommerceconsumerprocurement.googleapis.com esté permitido a través de
la configuración de la política de la organización.
Además, si tienes una política de la organización que restringe el uso de modelos en Model Garden, la política debe permitir el acceso a los modelos de socios. Para obtener más información, consulta Cómo controlar el acceso al modelo.
Cumplimiento de reglamentaciones del modelo de socio
Las certificaciones de IA generativa en Vertex AI se siguen aplicando cuando los modelos de socios se usan como una API administrada con Vertex AI. Si necesitas detalles sobre los modelos en sí, puedes encontrar información adicional en la tarjeta de modelo respectiva o comunicarte con el publicador del modelo correspondiente.
Tus datos se almacenan en reposo dentro de la región o multirregión seleccionada para los modelos de socios en Vertex AI, pero la regionalización del procesamiento de datos puede variar. Para obtener una lista detallada de los compromisos de procesamiento de datos de los modelos de socios, consulta Residencia de datos para modelos de socios.
Las instrucciones del cliente y las respuestas del modelo no se comparten con terceros cuando se usa la API de Vertex AI, incluidos los modelos de socios. Google solo procesa los Datos del Cliente según las instrucciones del Cliente, lo que se describe con más detalle en nuestro Anexo de Tratamiento de Datos de Cloud.