Modelos de parceiros de plataforma da Gemini Enterprise Agent Platform para MaaS

A Gemini Enterprise Agent Platform oferece suporte a uma lista selecionada de modelos desenvolvidos por parceiros do Google. Os modelos de parceiros podem ser usados com Gemini Enterprise Agent Platform como modelo como serviço (MaaS, na sigla em inglês) e são oferecidos como uma API gerenciada. Ao usar um modelo de parceiro, você continua enviando solicitações para endpoints da plataforma de agentes do Gemini Enterprise. Os modelos de parceiros não têm servidor, então não é necessário provisionar nem gerenciar infraestrutura.

Os modelos de parceiros podem ser descobertos usando o Model Garden. Também é possível implantar modelos usando o Model Garden. Para mais informações, consulte Conhecer modelos de IA no Model Garden. As informações sobre cada modelo de parceiro disponível podem ser encontradas no card de modelo do Model Garden, mas apenas os modelos de terceiros que funcionam como um MaaS com a Gemini Enterprise Agent Platform estão documentados neste guia.

Os modelos Claude da Anthropic e Mistral são exemplos de modelos gerenciados por terceiros disponíveis para uso na Gemini Enterprise Agent Platform.

Modelos de parceiros

Os seguintes modelos de parceiros são oferecidos como APIs gerenciadas no Model Garden da plataforma de agentes do Gemini Enterprise (MaaS):

Nome do modelo Modalidade Descrição Guia de início rápido
Grok 4.3 (pré-lançamento) Idioma O modelo de alto desempenho da xAI. Card de modelo
Grok 4.20 (raciocínio) (pré-lançamento) Idioma O Grok 4.20 (raciocínio) é um modelo de alto desempenho da xAI, com a menor taxa de alucinação do setor. Excelente em tarefas de compreensão de documentos e chamadas de ferramentas de agentes de longo prazo. Card de modelo
Grok 4.20 (sem raciocínio) (pré-lançamento) Idioma O Grok 4.20 (sem raciocínio) é um modelo de alto desempenho da xAI sem pensamento crítico, com a menor taxa de alucinação do setor. Excelente em casos de uso sensíveis à latência, como suporte ao cliente e categorização. Card de modelo
Grok 4.1 Fast (raciocínio) (pré-lançamento) Idioma O Grok 4.1 Fast (raciocínio) é o modelo mais econômico da xAI, com recursos avançados de chamada de ferramentas e síntese eficiente da base de conhecimento. Excelente em tarefas de pesquisa que envolvem dados da Web e ferramentas internas da base de conhecimento. Card de modelo
Grok 4.1 Fast (sem raciocínio) (pré-lançamento) Idioma O Grok 4.1 Fast (sem raciocínio) é o modelo mais econômico da xAI sem pensamento crítico, otimizado para desempenho de baixa latência. Excelente em tarefas de alto volume, como resumo e categorização. Card de modelo
Claude Opus 4.8 Linguagem, visão O Claude Opus 4.8 é um modelo Opus de alta inteligência criado para programação e agentes, com raciocínio mais profundo para fluxos de trabalho empresariais. Card de modelo
Claude Opus 4.7 Linguagem, visão O Claude Opus 4.7 é um modelo de alta inteligência da Anthropic e líder do setor em programação, agentes, uso de computador e fluxos de trabalho empresariais. Card de modelo
Claude Sonnet 4.6 Linguagem, visão O Claude Sonnet 4.6 oferece inteligência de ponta em larga escala, projetado para programação, agentes e fluxos de trabalho empresariais. Card de modelo
Claude Opus 4.6 Linguagem, visão O Claude Opus 4.6 é um modelo de alta inteligência da Anthropic e líder do setor em programação, agentes, uso de computador e fluxos de trabalho empresariais. Card de modelo
Claude Opus 4.5 Linguagem, visão O Claude Opus 4.5 é um modelo de alta inteligência da Anthropic e líder do setor em programação, agentes, uso de computador e fluxos de trabalho empresariais. Card de modelo
Claude Sonnet 4.5 Linguagem, visão O modelo médio da Anthropic para agentes do mundo real, com recursos de programação, uso de computador, segurança cibernética e trabalho com arquivos de escritório, como planilhas. Card de modelo
Claude Opus 4.1 Linguagem, visão Líder do setor em programação. Oferece desempenho sustentado em tarefas de longa duração que exigem esforço focado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. Ideal para produtos e recursos de agentes de ponta. Card de modelo
Claude Haiku 4.5 Linguagem, visão O Claude Haiku 4.5 oferece desempenho quase de ponta para uma ampla variedade de casos de uso e se destaca como um dos melhores modelos de programação do mundo, com a velocidade e o custo certos para oferecer produtos sem custo financeiro e experiências de usuário de alto volume. Card de modelo
Claude Opus 4 Linguagem, visão O Claude Opus 4 oferece desempenho sustentado em tarefas de longa duração que exigem esforço focado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. Card de modelo
Claude Sonnet 4 Linguagem, visão O modelo médio da Anthropic com inteligência superior inteligência para usos de alto volume, como programação, pesquisas detalhadas, e agentes. Card de modelo
Claude 3.5 Sonnet v2 da Anthropic Linguagem, visão O Claude 3.5 Sonnet é um modelo de alto desempenho para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet oferece esses avanços pelo mesmo preço e velocidade que o antecessor. Card de modelo
Claude 3.5 Sonnet da Anthropic Idioma O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic em uma ampla variedade de avaliações da Anthropic com a velocidade e o custo do modelo de nível médio da Anthropic, o Claude 3 Sonnet. Card de modelo
Jamba 1.5 Large (pré-lançamento) Idioma O Jamba 1.5 Large da AI21 Labs tem respostas de qualidade superior, capacidade de processamento e preços competitivos em comparação com outros modelos da mesma classe de tamanho. Card de modelo
Jamba 1.5 Mini (pré-lançamento) Idioma O Jamba 1.5 Mini da AI21 Labs tem equilíbrio entre qualidade, capacidade de processamento e custo. Card de modelo
Mistral Medium 3 Idioma O Mistral Medium 3 é um modelo versátil projetado para uma ampla variedade de tarefas, incluindo programação, raciocínio matemático, compreensão de documentos longos documentos, resumo e diálogo. Card de modelo
Mistral OCR (25.05) Linguagem, visão O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O modelo compreende cada elemento de documentos, como mídia, texto, tabelas e equações. Card de modelo
Mistral Small 3.1 (25.03) Idioma O Mistral Small 3.1 (25.03) é uma versão do modelo Small da Mistral, com recursos multimodais e comprimento de contexto estendido. Card de modelo
Codestral 2 Linguagem, código O Codestral 2 é o modelo especializado de geração de código da Mistral criado especificamente para preenchimento de alta precisão (FIM, na sigla em inglês) que ajuda os desenvolvedores a escrever e interagir com código usando uma instrução compartilhada e um endpoint de API de conclusão. Card de modelo

Avaliar modelos de parceiros usando o serviço de avaliação de IA generativa

O serviço de avaliação de IA generativa oferece suporte à avaliação de modelos de parceiros, como os modelos Anthropic e Llama. A avaliação de modelos de parceiros é oferecida pelo Model Garden. Portanto, é necessário ativar o modelo antes de executar avaliações em um modelo de parceiro.

Para mais informações, consulte Realizar a avaliação usando o console.

Preços do modelo de parceiro de plataforma do Gemini Enterprise Agent Platform com garantia de capacidade

O Google oferece capacidade de processamento provisionada para modelos de parceiros que reservam capacidade de processamento para modelos por uma taxa fixa. Você decide a capacidade de processamento e em quais regiões reservar essa capacidade. Como as solicitações de capacidade de processamento provisionada são priorizadas em relação às solicitações padrão de pagamento por uso, a capacidade de processamento provisionada fornece maior disponibilidade. Quando o sistema está sobrecarregado, as solicitações podem ser concluídas desde que a capacidade de processamento permaneça abaixo da sua capacidade reservada. Para mais informações ou para se inscrever no serviço, entre em contato com a equipe de vendas.

Endpoints regionais, globais e multirregionais

Para endpoints regionais, as solicitações são atendidas na região especificada. Nos casos em que você tem requisitos de residência de dados ou se um modelo não oferece suporte ao endpoint global, use os endpoints regionais.

Ao usar o endpoint global, o Google pode processar e disponibilizar suas solicitações de qualquer região com suporte do modelo que você está usando, o que pode resultar em maior latência em alguns casos. O endpoint global ajuda a melhorar a disponibilidade geral e a reduzir erros.

Os endpoints multirregionais permitem acesso de alta disponibilidade a modelos de parceiros, mantendo a residência de dados em uma geografia mais ampla, como os Estados Unidos.

Há uma diferença de preço dependendo do tipo de endpoint selecionado. Para mais informações sobre cotas e recursos, consulte a página do modelo de terceiros relacionado.

Endpoint global

Para usar o endpoint global, defina a região como global.

Por exemplo, o URL da solicitação para um comando curl usa o seguinte formato: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Para o Agent Platform SDK, um endpoint regional é o padrão. Defina a região como GLOBAL para usar o endpoint global.

Modelos com suporte para o endpoint global

O endpoint global está disponível para os seguintes modelos:

Restringir o uso endpoint de API globais

Para ajudar na aplicação do uso de endpoints regionais, utilize a restrição de política da organização constraints/gcp.restrictEndpointUsage para bloquear solicitações ao endpoint de API global. Para mais informações, consulte Restringir o uso de endpoints.

Endpoint multirregional

Os endpoints multirregionais permitem acesso de alta disponibilidade a modelos de parceiros, mantendo a residência de dados em uma geografia mais ampla, como os Estados Unidos ou a União Europeia.

Selecione a guia apropriada para a multirregião que você quer usar:

EUA

Para usar o endpoint multirregional dos EUA, defina o URL do endpoint como aiplatform.us.rep.googleapis.com.

O URL da solicitação para um comando curl usa o seguinte formato: https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME

UE

Para usar o endpoint multirregional da UE, defina o URL do endpoint como aiplatform.eu.rep.googleapis.com.

O URL da solicitação para um comando curl usa o seguinte formato: https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME

Para mais informações sobre o formato MODEL_NAME, consulte a documentação da Anthropic.

Modelos com suporte para o endpoint multirregional :

Os seguintes modelos são compatíveis. Use o ID completo do modelo, incluindo a data da versão, quando aplicável.

Modelo ID do modelo da API
claude-opus-4-8 claude-opus-4-8
claude-opus-4-7 claude-opus-4-7

Exemplo de solicitação :

Confira como chamar o endpoint multirregional usando curl:

export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7

# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"

# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"

export MODEL_ID="claude-opus-4-7"

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
  -d '{
    "max_tokens": 300,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Why is the sky blue?"
          }
        ]
      }
    ],
    "anthropic_version": "vertex-2023-10-16"
  }'

Cotas multirregionais :

As cotas multirregionais dedicadas são aplicadas. É possível conferir e solicitar aumentos desses valores de cota padrão no Google Cloud console.

  • Exemplos de cotas dos EUA :

    • UsOnlinePredictionInputTokensPerMinutePerBaseModel
    • UsOnlinePredictionOutputTokensPerMinutePerBaseModel
    • UsOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • UsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
  • Exemplos de cotas da UE :

    • EuOnlinePredictionInputTokensPerMinutePerBaseModel
    • EuOnlinePredictionOutputTokensPerMinutePerBaseModel
    • EuOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • EuOnlinePredictionWebSearchRequestsPerProjectPerPublisher

Conceder acesso de usuário a modelos de parceiros

Para ativar os modelos de parceiro e fazer uma solicitação de comando, um Google Cloud administrador precisa definir as permissões necessárias e verificar se a política da organização permite o uso das APIs necessárias.

Definir as permissões necessárias para usar modelos de parceiros

Os seguintes papéis e permissões são necessários para usar modelos de parceiros:

  • É necessário ter o papel de Gerente de direito de compra do consumidor do Identity and Access Management (IAM). Qualquer pessoa que tenha esse papel pode ativar modelos de parceiros no Model Garden.

  • Você precisa ter a permissão aiplatform.endpoints.predict. Essa permissão está incluída no papel de IAM de usuário do Agent Platform. Para mais informações, consulte Gemini Enterprise Agent Platform User e Controle de acesso.

Console

  1. Para conceder os papéis de IAM do Gerente de direito de compra do consumidor a um usuário, acesse a página IAM.

    Acesse o IAM

  2. Na coluna Principal, encontre a principal do usuário cujo acesso aos modelos do Anthropic Claude você quer ativar e clique em . Edite a principal nessa linha.

  3. No painel Editar acesso, clique em Adicionar outro papel.

  4. Em Selecionar uma função, escolha Gerente de direito de compra do consumidor.

  5. No painel Acesso de edição, clique em Adicionar outro papel.

  6. Em Selecionar uma função, escolha Usuário da Agent Platform.

  7. Clique em Salvar.

gcloud

  1. No Google Cloud console, ative o Cloud Shell.

    Ativar o Cloud Shell

  2. Conceda o papel de Gerente de direito de compra do consumidor necessário para ativar os modelos de parceiros no Model Garden

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. Conceda o papel de usuário da plataforma de agentes que inclui a permissão aiplatform.endpoints.predict, necessária para fazer solicitações de comando:

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    Substitua PRINCIPAL pelo identificador do principal. O identificador tem o formato user|group|serviceAccount:email ou domain:domain, por exemplo, user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com ou domain:example.domain.com.

    A saída é uma lista de vinculações de política que inclui o seguinte:

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    Para mais informações, consulte Conceder um único papel e gcloud projects add-iam-policy-binding.

Definir a política da organização para o acesso ao modelo de parceiro

Para ativar os modelos de parceiros, a política da organização precisa permitir a seguinte API: API Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com

Se a organização definir uma política da organização para restringir o uso do serviço, um administrador da organização precisará verificar se cloudcommerceconsumerprocurement.googleapis.com é permitido por definir a política da organização.

Além disso, se você tiver uma política da organização que restringe o uso de modelos no Model Garden, ela precisará permitir o acesso aos modelos do parceiro. Para mais informações, consulte Controlar o acesso ao modelo.

Conformidade regulatória do modelo de parceiro

As certificações para IA generativa no Gemini Enterprise Agent Platform continuam sendo aplicadas quando os modelos de parceiros são usados como uma API gerenciada usando o Gemini Enterprise Agent Platform. Se você precisar de detalhes sobre os modelos, mais informações podem ser encontradas no card de modelo respectivo ou entre em contato com o editor do modelo.

Seus dados são armazenados em repouso na região ou multirregião selecionada para modelos de parceiros na Gemini Enterprise Agent Platform, mas a regionalização do tratamento de dados pode variar. Para uma lista detalhada dos compromissos de tratamento de dados de modelos de parceiros, consulte Residência de dados para modelos de parceiros.

Os comandos do cliente e as respostas do modelo não são compartilhados com terceiros ao usar a API Gemini Enterprise, incluindo modelos de parceiros. O Google só trata os dados do cliente conforme instruído pelo cliente, o que é descrito com mais detalhes no nosso Adendo sobre tratamento de dados do Cloud.