Modelos de socios de Vertex AI para MaaS

Vertex AI admite una lista seleccionada de modelos desarrollados por socios de Google. Los modelos de socio se pueden usar con Vertex AI como un modelo como servicio (MaaS) y se ofrecen como una API administrada. Cuando usas un modelo de socio, continúas enviando tus solicitudes a los extremos de Vertex AI. Los modelos de socios no tienen servidores, por lo que no es necesario aprovisionar ni administrar la infraestructura.

Los modelos de socios se pueden descubrir con Model Garden. También puedes implementar modelos con Model Garden. Para obtener más información, consulta Explora los modelos de IA en Model Garden. Si bien la información sobre cada modelo de socio disponible se puede encontrar en la tarjeta de modelo en Model Garden, solo en esta guía se documentan los modelos de terceros que funcionan como MaaS con Vertex AI.

Los modelos Claude y Mistral de Anthropic son ejemplos de modelos administrados de terceros que están disponibles para usarse en Vertex AI.

Modelos de socios

Los siguientes modelos de socios se ofrecen como APIs administradas en Vertex AI Model Garden (MaaS):

Nombre del modelo Modalidad Descripción Guía de inicio rápido
Grok 4.20 (Reasoning) (versión preliminar) Idioma Grok 4.20 (Reasoning) es el modelo insignia de xAI, que cuenta con una tasa de alucinaciones baja líder en la industria. Se destaca en tareas de comprensión de documentos y llamadas de herramientas de agentes de largo plazo. Tarjeta de modelo
Grok 4.20 (Non-Reasoning) (versión preliminar) Idioma Grok 4.20 (Non-Reasoning) es el modelo insignia sin razonamiento de xAI, que cuenta con una tasa de alucinaciones baja líder en la industria. Se destaca en casos de uso sensibles a la latencia, como la asistencia al cliente y la categorización. Tarjeta de modelo
Grok 4.1 Fast (Reasoning) (versión preliminar) Idioma Grok 4.1 Fast (Razonamiento) es el modelo más rentable de xAI, que cuenta con sólidas capacidades de llamada de herramientas y una síntesis eficiente de la base de conocimiento. Se destaca en tareas de búsqueda que involucran datos web y herramientas internas de la base de conocimientos. Tarjeta de modelo
Grok 4.1 Fast (Non-Reasoning) (versión preliminar) Idioma Grok 4.1 Fast (Non-Reasoning) es el modelo sin pensamiento más rentable de xAI, optimizado para un rendimiento de baja latencia. Se destaca en tareas de gran volumen, como el resumen y la categorización. Tarjeta de modelo
Claude Opus 4.7 Lenguaje, Vision La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.7, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales. Tarjeta de modelo
Claude Sonnet 4.6 Lenguaje, Vision Claude Sonnet 4.6 ofrece inteligencia de vanguardia a gran escala y está diseñado para la programación, el uso de agentes y los flujos de trabajo empresariales. Tarjeta de modelo
Claude Opus 4.6 Lenguaje, Vision La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.6, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales. Tarjeta de modelo
Claude Opus 4.5 Lenguaje, Vision La nueva generación del modelo más inteligente de Anthropic, Claude Opus 4.5, es líder en la industria en programación, agentes, uso de computadoras y flujos de trabajo empresariales. Tarjeta de modelo
Claude Sonnet 4.5 Lenguaje, Vision El modelo de tamaño mediano de Anthropic para potenciar agentes del mundo real, con capacidades en programación, uso de computadoras, ciberseguridad y trabajo con archivos de uso en la oficina, como hojas de cálculo. Tarjeta de modelo
Claude Opus 4.1 Lenguaje, Vision Un líder de la industria en programación. Ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. Ideal para potenciar productos y funciones de agentes de vanguardia. Tarjeta de modelo
Claude Haiku 4.5 Lenguaje, Vision Claude Haiku 4.5 ofrece un rendimiento casi de vanguardia para una amplia variedad de casos de uso y se destaca como uno de los mejores modelos de programación del mundo, con la velocidad y el costo adecuados para potenciar productos gratuitos y experiencias de usuario de gran volumen. Tarjeta de modelo
Claude Opus 4 Lenguaje, Vision Claude Opus 4 ofrece rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, lo que expande significativamente lo que pueden resolver los agentes de IA. Tarjeta de modelo
Claude Sonnet 4 Lenguaje, Vision El modelo de tamaño mediano de Anthropic con inteligencia superior para usos de gran volumen, como programación, investigación exhaustiva, y agentes. Tarjeta de modelo
Claude 3.5 Sonnet v2 de Anthropic Lenguaje, Vision Claude 3.5 Sonnet actualizado es un modelo de última generación para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet ofrece estos avances al mismo precio y velocidad que su predecesor. Tarjeta de modelo
Claude 3.5 Sonnet de Anthropic Idioma Claude 3.5 Sonnet supera el rendimiento de Claude 3 Opus de Anthropic en una amplia variedad de evaluaciones de Anthropic, gracias a la velocidad y el costo del modelo de nivel intermedio de Anthropic, Claude 3 Sonnet. Tarjeta de modelo
Jamba 1.5 Large (versión preliminar) Idioma Jamba 1.5 Large de AI21 Labs está diseñado para ofrecer respuestas de calidad superior, una alta capacidad de procesamiento y precios competitivos en comparación con otros modelos de su clase de tamaño. Tarjeta de modelo
Jamba 1.5 Mini (versión preliminar) Idioma Jamba 1.5 Mini de AI21 Labs está bien equilibrado en cuanto a calidad, capacidad de procesamiento y bajo costo. Tarjeta de modelo
Mistral Medium 3 Idioma Mistral Medium 3 es un modelo versátil diseñado para una amplia variedad de tareas, como programación, razonamiento matemático, comprensión de documentos largos , resumen y diálogo. Tarjeta de modelo
Mistral OCR (25.05) Lenguaje, Vision Mistral OCR (25.05) es una API de reconocimiento óptico de caracteres para la comprensión de documentos. El modelo comprende cada elemento de los documentos, como contenido multimedia, texto, tablas y ecuaciones. Tarjeta de modelo
Mistral Small 3.1 (25.03) Idioma Mistral Small 3.1 (25.03) es la versión más reciente del modelo Small de Mistral, que cuenta con capacidades multimodales y una longitud de contexto extendida. Tarjeta de modelo
Codestral 2 Lenguaje, Código Codestral 2 es el modelo especializado de generación de código de Mistral creado específicamente para la finalización de relleno en el medio (FIM) de alta precisión que ayuda a los desarrolladores a escribir código y a interactuar con él a través de un extremo de API de instrucción y finalización compartidos. Tarjeta de modelo

Evalúa modelos de socios con el servicio de evaluación de IA generativa

El servicio de evaluación de IA generativa admite la evaluación de modelos de socios, como los modelos de Anthropic y Llama. La evaluación de modelos de socios se admite a través de Model Garden, por lo que debes habilitar el modelo antes de ejecutar evaluaciones en un modelo de socio.

Para obtener más información, consulta Realiza una evaluación con la consola.

Precios de los modelos de socios de Vertex AI con garantía de capacidad

Google ofrece capacidad de procesamiento aprovisionada para algunos modelos de socios que reservan la capacidad de procesamiento de tus modelos por una tarifa fija. Tú decides la capacidad de procesamiento y en qué regiones reservar esa capacidad. Debido a que las solicitudes de capacidad de procesamiento aprovisionada tienen prioridad sobre las solicitudes estándar de pago por uso, la capacidad de procesamiento aprovisionada proporciona una mayor disponibilidad. Cuando el sistema está sobrecargado, tus solicitudes aún se pueden completar, siempre que la capacidad de procesamiento se mantenga por debajo de la capacidad de procesamiento reservada. Para obtener más información o suscribirte al servicio, comunícate con Ventas.

Extremos regionales, globales y multirregionales

Para los extremos regionales, las solicitudes se entregan desde la región especificada. En los casos en los que tengas requisitos de residencia de datos o si un modelo no admite el extremo global, usa los extremos regionales.

Cuando usas el extremo global, Google puede procesar y entregar tus solicitudes desde cualquier región compatible con el modelo que usas, lo que puede generar una mayor latencia en algunos casos. El extremo global ayuda a mejorar la disponibilidad general y a reducir los errores.

Los extremos multirregionales permiten el acceso de alta disponibilidad a los modelos de socios y, al mismo tiempo, mantienen la residencia de datos dentro de una geografía más amplia, como Estados Unidos.

Hay una diferencia de precio según el tipo de extremo que selecciones. Para obtener más información sobre las cuotas y las capacidades, consulta la página del modelo de terceros relacionado.

Extremo global

Para usar el extremo global, configura la región como global.

Por ejemplo, la URL de solicitud para un comando curl usa el siguiente formato: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Para el SDK de Vertex AI, un extremo regional es el valor predeterminado. Configura la región como GLOBAL para usar el extremo global.

Modelos compatibles con el extremo global

El extremo global está disponible para los siguientes modelos:

Restringe el uso del extremo de API global

Para ayudar a aplicar de manera forzosa el uso de extremos regionales, usa la restricción de políticas de la organización constraints/gcp.restrictEndpointUsage y bloquea las solicitudes al extremo de API global. Para obtener más información, consulta Cómo restringir el uso de extremos.

Extremo multirregional (versión preliminar)

Nota: El extremo multirregional se encuentra en versión preliminar y está cubierto por las Condiciones de las ofertas de la fase previa a la DG de las Condiciones del Servicio de Google Cloud Platform. No está destinado para el uso en entornos de producción, no está regido por ningún ANS, obligación de asistencia ni política de baja, y pueden estar sujetos a cambios incompatibles con versiones anteriores.

Los extremos multirregionales permiten el acceso de alta disponibilidad a los modelos de socios y, al mismo tiempo, mantienen la residencia de datos dentro de una geografía más amplia, como Estados Unidos o la Unión Europea.

Selecciona la pestaña correspondiente para la multirregión que deseas usar:

EE.UU.

Para usar el extremo multirregional de EE.UU., configura la URL del extremo como aiplatform.us.rep.googleapis.com.

La URL de solicitud para un comando curl usa el siguiente formato: https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME

UE

Para usar el extremo multirregional de la UE, configura la URL del extremo como aiplatform.eu.rep.googleapis.com.

La URL de solicitud para un comando curl usa el siguiente formato: https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME

Para obtener más información sobre el formato MODEL_NAME, consulta la documentación de Anthropic.

Modelos compatibles con el extremo multirregional:

Se admiten los siguientes modelos. Usa el ID del modelo completo, incluida la fecha de la versión, cuando corresponda.

Modelo ID del modelo de la API de Vertex AI
claude-opus-4-7 claude-opus-4-7

Próximamente

Los siguientes modelos serán compatibles en el futuro:

Modelo ID del modelo de la API de Vertex AI
claude-haiku-4-5 claude-haiku-4-5@20251001
claude-sonnet-4 claude-sonnet-4@20250514
claude-sonnet-4-5 claude-sonnet-4-5@20250929
claude-sonnet-4-6 claude-sonnet-4-6
claude-opus-4-5 claude-opus-4-5@20251101
claude-opus-4-6 claude-opus-4-6

Ejemplo de solicitud:

A continuación, se muestra cómo puedes llamar al extremo multirregional con curl:

export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7

# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"

# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"

export MODEL_ID="claude-opus-4-7"

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
  -d '{
    "max_tokens": 300,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Why is the sky blue?"
          }
        ]
      }
    ],
    "anthropic_version": "vertex-2023-10-16"
  }'

Cuotas multirregionales:

Se aplican cuotas multirregionales dedicadas. Puedes ver y solicitar aumentos para estos valores de cuota predeterminados en la Google Cloud consola.

  • Ejemplos de cuota de EE.UU.:

    • UsOnlinePredictionInputTokensPerMinutePerBaseModel
    • UsOnlinePredictionOutputTokensPerMinutePerBaseModel
    • UsOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • UsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
  • Ejemplos de cuota de la UE:

    • EuOnlinePredictionInputTokensPerMinutePerBaseModel
    • EuOnlinePredictionOutputTokensPerMinutePerBaseModel
    • EuOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • EuOnlinePredictionWebSearchRequestsPerProjectPerPublisher

Otorga acceso de usuario a los modelos de socios

Para que puedas habilitar modelos de socios y realizar una solicitud inmediata, un Google Cloud administrador debe establecer los permisos necesarios y verificar que la política de la organización permita el uso de las APIs requeridas.

Establece los permisos necesarios para usar modelos de socios

Se requieren los siguientes roles y permisos para usar los modelos de socios:

  • Debes tener el rol de Identity and Access Management (IAM) de administrador de autorizaciones de adquisición de consumidores. Cualquier persona a la que se le haya otorgado este rol puede habilitar modelos de socios en Model Garden.

  • Debes tener el permiso aiplatform.endpoints.predict. Este permiso se incluye en el rol de IAM de usuario de Vertex AI. Para obtener más información, consulta Usuario de Vertex AI y Control de acceso.

Console

  1. Para otorgar los roles de IAM de Administrador de autorizaciones de adquisición de consumidores a un usuario, ve a la página IAM.

    Ir a IAM

  2. En la columna Principal, busca la principal del usuario para el que deseas habilitar el acceso a los modelos de socios y, luego, haz clic en Editar principal en esa fila.

  3. En el panel Editar permisos, haz clic en Agregar otra función.

  4. En Selecciona un rol, selecciona Administrador de autorizaciones de adquisición de consumidores.

  5. En el panel Editar permisos, haz clic en Agregar otro rol.

  6. En Selecciona un rol, selecciona Usuario de Vertex AI.

  7. Haz clic en Guardar.

gcloud

  1. En la Google Cloud consola, activa Cloud Shell.

    Activa Cloud Shell

  2. Otorga el rol de administrador de derechos de adquisición de consumidores que se requiere para habilitar modelos de socios en Model Garden.

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. Otorga el rol de usuario de Vertex AI que incluye el permiso aiplatform.endpoints.predict, que es necesario para realizar solicitudes inmediatas:

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    Reemplaza PRINCIPAL por el identificador de la principal. El identificador tiene la forma user|group|serviceAccount:email o domain:domain, por ejemplo: user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com odomain:example.domain.com.

    El resultado es una lista de vinculaciones de políticas que incluye lo siguiente:

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    Para obtener más información, consulta Otorga un solo rol y gcloud projects add-iam-policy-binding.

Establece la política de la organización para el acceso al modelo de socio

Para habilitar los modelos de socios, la política de la organización debe permitir la siguiente API: API de Cloud Commerce Consumer Procurement: cloudcommerceconsumerprocurement.googleapis.com

Si tu organización configura una política de la organización para restringir el uso del servicio, un administrador de la organización debe verificar que cloudcommerceconsumerprocurement.googleapis.com esté permitido a través de la configuración de la política de la organización.

Además, si tienes una política de la organización que restringe el uso de modelos en Model Garden, la política debe permitir el acceso a los modelos de socios. Para obtener más información, consulta Cómo controlar el acceso al modelo.

Cumplimiento de reglamentaciones del modelo de socio

Las certificaciones de IA generativa en Vertex AI se siguen aplicando cuando los modelos de socios se usan como una API administrada con Vertex AI. Si necesitas detalles sobre los modelos en sí, puedes encontrar información adicional en la tarjeta de modelo respectiva o comunicarte con el publicador del modelo correspondiente.

Tus datos se almacenan en reposo dentro de la región o multirregión seleccionada para los modelos de socios en Vertex AI, pero la regionalización del procesamiento de datos puede variar. Para obtener una lista detallada de los compromisos de procesamiento de datos de los modelos de socios, consulta Residencia de datos para modelos de socios.

Las instrucciones del cliente y las respuestas del modelo no se comparten con terceros cuando se usa la API de Vertex AI, incluidos los modelos de socios. Google solo procesa los Datos del Cliente según las instrucciones del Cliente, lo que se describe con más detalle en nuestro Anexo de Tratamiento de Datos de Cloud.