Vertex AI admite una lista seleccionada de modelos desarrollados por socios de Google. Los modelos de socio se pueden usar con Vertex AI como un modelo como servicio (MaaS) y se ofrecen como una API administrada. Cuando usas un modelo de socio, continúas enviando tus solicitudes a los extremos de Vertex AI. Los modelos de socios no tienen servidores, por lo que no es necesario aprovisionar ni administrar la infraestructura.
Los modelos de socios se pueden descubrir con Model Garden. También puedes implementar modelos con Model Garden. Para obtener más información, consulta Explora los modelos de IA en Model Garden. Si bien la información sobre cada modelo de socio disponible se puede encontrar en la tarjeta de modelo en Model Garden, solo en esta guía se documentan los modelos de terceros que funcionan como MaaS con Vertex AI.
Los modelos Claude y Mistral de Anthropic son ejemplos de modelos administrados de terceros que están disponibles para usarse en Vertex AI.
Modelos de socios
Los siguientes modelos de socios se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):
Nombre del modelo | Modalidad | Descripción | Guía de inicio rápido |
---|---|---|---|
Claude Sonnet 4.5 | Lenguaje, Vision | Es el modelo de tamaño mediano de Anthropic para potenciar agentes del mundo real, con capacidades en programación, uso de computadoras, ciberseguridad y trabajo con archivos de Office, como hojas de cálculo. | Tarjeta de modelo |
Claude Opus 4.1 | Lenguaje, Vision | Es líder en la industria de la programación. Ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. Ideal para potenciar productos y funciones de agentes avanzados. | Tarjeta de modelo |
Claude Haiku 4.5 | Lenguaje, Vision | Claude Haiku 4.5 ofrece un rendimiento casi de vanguardia para una amplia variedad de casos de uso y se destaca como uno de los mejores modelos de programación del mundo, con la velocidad y el costo adecuados para potenciar los productos gratuitos y las experiencias de usuario de gran volumen. | Tarjeta de modelo |
Claude Opus 4 | Lenguaje, Vision | Claude Opus 4 ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. | Tarjeta de modelo |
Claude Sonnet 4 | Lenguaje, Vision | Modelo de tamaño mediano de Anthropic con inteligencia superior para usos de gran volumen, como programación, investigación exhaustiva y agentes. | Tarjeta de modelo |
Claude 3.7 Sonnet de Anthropic | Lenguaje, Vision | Es el modelo líder en la industria para la codificación y el funcionamiento de agentes de IA, y el primer modelo de Claude que ofrece un pensamiento extendido. | Tarjeta de modelo |
Claude 3.5 Sonnet v2 de Anthropic | Lenguaje, Vision | Claude 3.5 Sonnet actualizado es un modelo de última generación para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor. | Tarjeta de modelo |
Claude 3.5 Haiku de Anthropic | Lenguaje, Vision | Claude 3.5 Haiku, la próxima generación del modelo más rápido y rentable de Anthropic, es ideal para casos de uso en los que la velocidad y la rentabilidad son importantes. | Tarjeta de modelo |
Claude 3 Haiku de Anthropic | Idioma | El modelo de visión y texto más rápido de Anthropic para respuestas casi instantáneas a consultas básicas, diseñado para experiencias de IA fluidas que imitan las interacciones humanas. | Tarjeta de modelo |
Claude 3.5 Sonnet de Anthropic | Idioma | Claude 3.5 Sonnet supera el rendimiento de Claude 3 Opus de Anthropic en una amplia variedad de evaluaciones de Anthropic, gracias a la velocidad y el costo del modelo de nivel intermedio de Anthropic, Claude 3 Sonnet. | Tarjeta de modelo |
Jamba 1.5 Large (versión preliminar) | Idioma | Jamba 1.5 Large de AI21 Labs está diseñado para ofrecer respuestas de calidad superior, un alto rendimiento y precios competitivos en comparación con otros modelos de su clase de tamaño. | Tarjeta de modelo |
Jamba 1.5 Mini (versión preliminar) | Idioma | Jamba 1.5 Mini de AI21 Labs está bien equilibrado en cuanto a calidad, rendimiento y bajo costo. | Tarjeta de modelo |
Mistral Medium 3 | Idioma | Mistral Medium 3 es un modelo versátil diseñado para una amplia variedad de tareas, como programación, razonamiento matemático, comprensión de documentos extensos, resumen y diálogo. | Tarjeta de modelo |
OCR de Mistral (25/05) | Lenguaje, Vision | Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para la comprensión de documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones. | Tarjeta de modelo |
Mistral Small 3.1 (25/03) | Idioma | Mistral Small 3.1 (25/3) es la versión más reciente del modelo Small de Mistral, que incluye capacidades multimodales y una longitud de contexto extendida. | Tarjeta de modelo |
Mistral Large (24.11) | Idioma | Mistral Large (24.11) es la próxima versión del modelo Mistral Large (24.07), que ahora cuenta con capacidades mejoradas de razonamiento y llamadas a funciones. | Tarjeta de modelo |
Codestral 2 | Idioma, código | Codestral 2 es el modelo especializado en generación de código de Mistral creado específicamente para la finalización de relleno en el medio (FIM) de alta precisión que ayuda a los desarrolladores a escribir e interactuar con el código a través de un extremo de API compartido de instrucciones y finalización. | Tarjeta de modelo |
Codestral (25.01) | Código | Un modelo de vanguardia diseñado para la generación de código, incluida la función de completar el código en el medio y la finalización de código. | Tarjeta de modelo |
Precios de los modelos de socios de Vertex AI con garantía de capacidad
Google ofrece capacidad de procesamiento aprovisionada para algunos modelos de socios que reservan la capacidad de procesamiento de tus modelos por una tarifa fija. Tú decides la capacidad de procesamiento y en qué regiones reservar esa capacidad. Debido a que las solicitudes de capacidad de procesamiento aprovisionada tienen prioridad sobre las solicitudes estándar de pago por uso, la capacidad de procesamiento aprovisionada proporciona una mayor disponibilidad. Cuando el sistema está sobrecargado, tus solicitudes aún se pueden completar, siempre que la productividad se mantenga por debajo de la capacidad de productividad reservada. Para obtener más información o suscribirte al servicio, comunícate con Ventas.
Extremos regionales y globales
En el caso de los extremos regionales, las solicitudes se entregan desde la región que especificaste. En los casos en los que tengas requisitos de residencia de datos o si un modelo no admite el extremo global, usa los extremos regionales.
Cuando usas el extremo global, Google puede procesar y entregar tus solicitudes desde cualquier región compatible con el modelo que usas, lo que puede generar una mayor latencia en algunos casos. El extremo global ayuda a mejorar la disponibilidad general y a reducir los errores.
No hay diferencia de precios con los extremos regionales cuando usas el extremo global. Sin embargo, las cuotas del extremo global y las capacidades del modelo admitido pueden diferir de las de los extremos regionales. Para obtener más información, consulta la página del modelo de terceros relacionado.
Especifica el extremo global
Para usar el extremo global, configura la región como global
.
Por ejemplo, la URL de solicitud para un comando curl usa el siguiente formato:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
En el SDK de Vertex AI, un extremo regional es el valor predeterminado. Configura la región como GLOBAL
para usar el extremo global.
Modelos compatibles
El extremo global está disponible para los siguientes modelos:
- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4.5
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude Haiku 4.5
Restringe el uso del extremo de API global
Para ayudar a aplicar el uso de extremos regionales, usa la restricción de política de la organización constraints/gcp.restrictEndpointUsage
para bloquear las solicitudes al extremo de API global. Para obtener más información, consulta Cómo restringir el uso de extremos.
Otorga acceso de usuario a los modelos de socios
Para que puedas habilitar modelos de socios y realizar una solicitud inmediata, un administrador de Google Clouddebe establecer los permisos necesarios y verificar que la política de la organización permita el uso de las APIs requeridas.
Establece los permisos necesarios para usar modelos de socios
Se requieren los siguientes roles y permisos para usar los modelos de socios:
Debes tener el rol de Identity and Access Management (IAM) de administrador de autorizaciones de adquisición de consumidores. Cualquier persona a la que se le haya otorgado este rol puede habilitar modelos de socios en Model Garden.
Debes tener el permiso
aiplatform.endpoints.predict
. Este permiso se incluye en el rol de IAM de usuario de Vertex AI. Para obtener más información, consulta Usuario de Vertex AI y Control de acceso.
Console
Para otorgar los roles de IAM de Administrador de autorizaciones de adquisición de consumidores a un usuario, ve a la página IAM.
En la columna Principal, busca la principal del usuario para el que deseas habilitar el acceso a los modelos de socios y, luego, haz clic en Editar principal en esa fila.
En el panel Editar permisos, haz clic en
Agregar otra función.En Selecciona un rol, selecciona Administrador de autorizaciones de adquisición de consumidores.
En el panel Editar permisos, haz clic en
Agregar otro rol.En Selecciona un rol, selecciona Usuario de Vertex AI.
Haz clic en Guardar.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Otorga el rol de administrador de derechos de adquisición de consumidores que se requiere para habilitar modelos de socios en Model Garden.
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Otorga el rol de usuario de Vertex AI que incluye el permiso
aiplatform.endpoints.predict
, que es necesario para realizar solicitudes inmediatas:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Reemplaza
PRINCIPAL
por el identificador de la principal. El identificador tiene la formauser|group|serviceAccount:email
odomain:domain
, por ejemplo:user:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
odomain:example.domain.com
.El resultado es una lista de vinculaciones de políticas que incluye lo siguiente:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Para obtener más información, consulta Otorga un solo rol y
gcloud projects add-iam-policy-binding
.
Establece la política de la organización para el acceso al modelo de socio
Para habilitar los modelos de socios, la política de la organización debe permitir la siguiente API: API de Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com
Si tu organización configura una política de la organización para
restringir el uso del servicio,
un administrador de la organización debe verificar que
cloudcommerceconsumerprocurement.googleapis.com
esté permitido a través de la
configuración de la política de la organización.
Además, si tienes una política de la organización que restringe el uso de modelos en Model Garden, la política debe permitir el acceso a los modelos de socios. Para obtener más información, consulta Cómo controlar el acceso al modelo.
Cumplimiento de las reglamentaciones del modelo de socio
Las certificaciones de IA generativa en Vertex AI siguen siendo válidas cuando se usan modelos de socios como una API administrada con Vertex AI. Si necesitas detalles sobre los modelos, puedes encontrar información adicional en la tarjeta del modelo correspondiente o comunicarte con el editor del modelo respectivo.
Tus datos se almacenan en reposo dentro de la región o multirregión seleccionada para los modelos de socios en Vertex AI, pero la regionalización del procesamiento de datos puede variar. Para obtener una lista detallada de los compromisos de procesamiento de datos de los modelos de socios, consulta Residencia de datos para modelos de socios.
Las instrucciones del cliente y las respuestas del modelo no se comparten con terceros cuando se usa la API de Vertex AI, incluidos los modelos de socios. Google solo trata los Datos del Cliente según las instrucciones del Cliente, lo que se describe con más detalle en nuestro Anexo de Tratamiento de Datos de Cloud.