A Gemini Enterprise Agent Platform oferece suporte a uma lista selecionada de modelos desenvolvidos por parceiros do Google. Os modelos de parceiros podem ser usados com Gemini Enterprise Agent Platform como modelo como serviço (MaaS, na sigla em inglês) e são oferecidos como uma API gerenciada. Ao usar um modelo de parceiro, você continua enviando solicitações para endpoints da plataforma de agentes do Gemini Enterprise. Os modelos de parceiros não têm servidor, então não é necessário provisionar nem gerenciar infraestrutura.
Os modelos de parceiros podem ser descobertos usando o Model Garden. Também é possível implantar modelos usando o Model Garden. Para mais informações, consulte Conhecer modelos de IA no Model Garden. As informações sobre cada modelo de parceiro disponível podem ser encontradas no card de modelo do Model Garden, mas apenas os modelos de terceiros que funcionam como um MaaS com a Gemini Enterprise Agent Platform estão documentados neste guia.
Os modelos Claude da Anthropic e Mistral são exemplos de modelos gerenciados por terceiros disponíveis para uso na Gemini Enterprise Agent Platform.
Modelos de parceiros
Os seguintes modelos de parceiros são oferecidos como APIs gerenciadas no Model Garden da plataforma de agentes do Gemini Enterprise (MaaS):
| Nome do modelo | Modalidade | Descrição | Guia de início rápido |
|---|---|---|---|
| Grok 4.3 (pré-lançamento) | Idioma | O modelo de alto desempenho da xAI. | Card de modelo |
| Grok 4.20 (raciocínio) (pré-lançamento) | Idioma | O Grok 4.20 (raciocínio) é um modelo de alto desempenho da xAI, com a menor taxa de alucinação do setor. Excelente em tarefas de compreensão de documentos e chamadas de ferramentas de agentes de longo prazo. | Card de modelo |
| Grok 4.20 (sem raciocínio) (pré-lançamento) | Idioma | O Grok 4.20 (sem raciocínio) é um modelo de alto desempenho da xAI sem pensamento crítico, com a menor taxa de alucinação do setor. Excelente em casos de uso sensíveis à latência, como suporte ao cliente e categorização. | Card de modelo |
| Grok 4.1 Fast (raciocínio) (pré-lançamento) | Idioma | O Grok 4.1 Fast (raciocínio) é o modelo mais econômico da xAI, com recursos avançados de chamada de ferramentas e síntese eficiente da base de conhecimento. Excelente em tarefas de pesquisa que envolvem dados da Web e ferramentas internas da base de conhecimento. | Card de modelo |
| Grok 4.1 Fast (sem raciocínio) (pré-lançamento) | Idioma | O Grok 4.1 Fast (sem raciocínio) é o modelo mais econômico da xAI sem pensamento crítico, otimizado para desempenho de baixa latência. Excelente em tarefas de alto volume, como resumo e categorização. | Card de modelo |
| Claude Opus 4.8 | Linguagem, visão | O Claude Opus 4.8 é um modelo Opus de alta inteligência criado para programação e agentes, com raciocínio mais profundo para fluxos de trabalho empresariais. | Card de modelo |
| Claude Opus 4.7 | Linguagem, visão | O Claude Opus 4.7 é um modelo de alta inteligência da Anthropic e líder do setor em programação, agentes, uso de computador e fluxos de trabalho empresariais. | Card de modelo |
| Claude Sonnet 4.6 | Linguagem, visão | O Claude Sonnet 4.6 oferece inteligência de ponta em larga escala, projetado para programação, agentes e fluxos de trabalho empresariais. | Card de modelo |
| Claude Opus 4.6 | Linguagem, visão | O Claude Opus 4.6 é um modelo de alta inteligência da Anthropic e líder do setor em programação, agentes, uso de computador e fluxos de trabalho empresariais. | Card de modelo |
| Claude Opus 4.5 | Linguagem, visão | O Claude Opus 4.5 é um modelo de alta inteligência da Anthropic e líder do setor em programação, agentes, uso de computador e fluxos de trabalho empresariais. | Card de modelo |
| Claude Sonnet 4.5 | Linguagem, visão | O modelo médio da Anthropic para agentes do mundo real, com recursos de programação, uso de computador, segurança cibernética e trabalho com arquivos de escritório, como planilhas. | Card de modelo |
| Claude Opus 4.1 | Linguagem, visão | Líder do setor em programação. Oferece desempenho sustentado em tarefas de longa duração que exigem esforço focado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. Ideal para produtos e recursos de agentes de ponta. | Card de modelo |
| Claude Haiku 4.5 | Linguagem, visão | O Claude Haiku 4.5 oferece desempenho quase de ponta para uma ampla variedade de casos de uso e se destaca como um dos melhores modelos de programação do mundo, com a velocidade e o custo certos para oferecer produtos sem custo financeiro e experiências de usuário de alto volume. | Card de modelo |
| Claude Opus 4 | Linguagem, visão | O Claude Opus 4 oferece desempenho sustentado em tarefas de longa duração que exigem esforço focado e milhares de etapas, expandindo significativamente o que os agentes de IA podem resolver. | Card de modelo |
| Claude Sonnet 4 | Linguagem, visão | O modelo médio da Anthropic com inteligência superior inteligência para usos de alto volume, como programação, pesquisas detalhadas, e agentes. | Card de modelo |
| Claude 3.5 Sonnet v2 da Anthropic | Linguagem, visão | O Claude 3.5 Sonnet é um modelo de alto desempenho para tarefas de engenharia de software do mundo real e recursos de agente. O Claude 3.5 Sonnet oferece esses avanços pelo mesmo preço e velocidade que o antecessor. | Card de modelo |
| Claude 3.5 Sonnet da Anthropic | Idioma | O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic em uma ampla variedade de avaliações da Anthropic com a velocidade e o custo do modelo de nível médio da Anthropic, o Claude 3 Sonnet. | Card de modelo |
| Jamba 1.5 Large (pré-lançamento) | Idioma | O Jamba 1.5 Large da AI21 Labs tem respostas de qualidade superior, capacidade de processamento e preços competitivos em comparação com outros modelos da mesma classe de tamanho. | Card de modelo |
| Jamba 1.5 Mini (pré-lançamento) | Idioma | O Jamba 1.5 Mini da AI21 Labs tem equilíbrio entre qualidade, capacidade de processamento e custo. | Card de modelo |
| Mistral Medium 3 | Idioma | O Mistral Medium 3 é um modelo versátil projetado para uma ampla variedade de tarefas, incluindo programação, raciocínio matemático, compreensão de documentos longos documentos, resumo e diálogo. | Card de modelo |
| Mistral OCR (25.05) | Linguagem, visão | O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O modelo compreende cada elemento de documentos, como mídia, texto, tabelas e equações. | Card de modelo |
| Mistral Small 3.1 (25.03) | Idioma | O Mistral Small 3.1 (25.03) é uma versão do modelo Small da Mistral, com recursos multimodais e comprimento de contexto estendido. | Card de modelo |
| Codestral 2 | Linguagem, código | O Codestral 2 é o modelo especializado de geração de código da Mistral criado especificamente para preenchimento de alta precisão (FIM, na sigla em inglês) que ajuda os desenvolvedores a escrever e interagir com código usando uma instrução compartilhada e um endpoint de API de conclusão. | Card de modelo |
Avaliar modelos de parceiros usando o serviço de avaliação de IA generativa
O serviço de avaliação de IA generativa oferece suporte à avaliação de modelos de parceiros, como os modelos Anthropic e Llama. A avaliação de modelos de parceiros é oferecida pelo Model Garden. Portanto, é necessário ativar o modelo antes de executar avaliações em um modelo de parceiro.
Para mais informações, consulte Realizar a avaliação usando o console.
Preços do modelo de parceiro de plataforma do Gemini Enterprise Agent Platform com garantia de capacidade
O Google oferece capacidade de processamento provisionada para modelos de parceiros que reservam capacidade de processamento para modelos por uma taxa fixa. Você decide a capacidade de processamento e em quais regiões reservar essa capacidade. Como as solicitações de capacidade de processamento provisionada são priorizadas em relação às solicitações padrão de pagamento por uso, a capacidade de processamento provisionada fornece maior disponibilidade. Quando o sistema está sobrecarregado, as solicitações podem ser concluídas desde que a capacidade de processamento permaneça abaixo da sua capacidade reservada. Para mais informações ou para se inscrever no serviço, entre em contato com a equipe de vendas.
Endpoints regionais, globais e multirregionais
Para endpoints regionais, as solicitações são atendidas na região especificada. Nos casos em que você tem requisitos de residência de dados ou se um modelo não oferece suporte ao endpoint global, use os endpoints regionais.
Ao usar o endpoint global, o Google pode processar e disponibilizar suas solicitações de qualquer região com suporte do modelo que você está usando, o que pode resultar em maior latência em alguns casos. O endpoint global ajuda a melhorar a disponibilidade geral e a reduzir erros.
Os endpoints multirregionais permitem acesso de alta disponibilidade a modelos de parceiros, mantendo a residência de dados em uma geografia mais ampla, como os Estados Unidos.
Há uma diferença de preço dependendo do tipo de endpoint selecionado. Para mais informações sobre cotas e recursos, consulte a página do modelo de terceiros relacionado.
Endpoint global
Para usar o endpoint global, defina a região como global.
Por exemplo, o URL da solicitação para um comando curl usa o seguinte formato:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Para o Agent Platform SDK, um endpoint regional é o padrão. Defina a região como GLOBAL para usar o endpoint global.
Modelos com suporte para o endpoint global
O endpoint global está disponível para os seguintes modelos:
- Claude Opus 4.8
- Claude Opus 4.7
- Claude Opus 4.6
- Claude Sonnet 4.6
- Claude Opus 4.5
- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4.5
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude Haiku 4.5
- Grok 4.1 Fast
- Grok 4.20
- Grok 4.3
Restringir o uso endpoint de API globais
Para ajudar na aplicação do uso de endpoints regionais, utilize a restrição de política da organização constraints/gcp.restrictEndpointUsage para bloquear solicitações ao endpoint de API global. Para mais informações, consulte
Restringir o uso de endpoints.
Endpoint multirregional
Os endpoints multirregionais permitem acesso de alta disponibilidade a modelos de parceiros, mantendo a residência de dados em uma geografia mais ampla, como os Estados Unidos ou a União Europeia.
Selecione a guia apropriada para a multirregião que você quer usar:
EUA
Para usar o endpoint multirregional dos EUA, defina o URL do endpoint como aiplatform.us.rep.googleapis.com.
O URL da solicitação para um comando curl usa o seguinte formato:
https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME
UE
Para usar o endpoint multirregional da UE, defina o URL do endpoint como aiplatform.eu.rep.googleapis.com.
O URL da solicitação para um comando curl usa o seguinte formato:
https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME
Para mais informações sobre o formato MODEL_NAME, consulte a documentação da Anthropic.
Modelos com suporte para o endpoint multirregional :
Os seguintes modelos são compatíveis. Use o ID completo do modelo, incluindo a data da versão, quando aplicável.
| Modelo | ID do modelo da API |
|---|---|
claude-opus-4-8 |
claude-opus-4-8 |
claude-opus-4-7 |
claude-opus-4-7 |
Exemplo de solicitação :
Confira como chamar o endpoint multirregional usando curl:
export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7
# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"
# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"
export MODEL_ID="claude-opus-4-7"
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json" \
"https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
-d '{
"max_tokens": 300,
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Why is the sky blue?"
}
]
}
],
"anthropic_version": "vertex-2023-10-16"
}'
Cotas multirregionais :
As cotas multirregionais dedicadas são aplicadas. É possível conferir e solicitar aumentos desses valores de cota padrão no Google Cloud console.
Exemplos de cotas dos EUA :
UsOnlinePredictionInputTokensPerMinutePerBaseModelUsOnlinePredictionOutputTokensPerMinutePerBaseModelUsOnlinePredictionRequestsPerMinPerProjectPerBaseModelUsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Exemplos de cotas da UE :
EuOnlinePredictionInputTokensPerMinutePerBaseModelEuOnlinePredictionOutputTokensPerMinutePerBaseModelEuOnlinePredictionRequestsPerMinPerProjectPerBaseModelEuOnlinePredictionWebSearchRequestsPerProjectPerPublisher
Conceder acesso de usuário a modelos de parceiros
Para ativar os modelos de parceiro e fazer uma solicitação de comando, um Google Cloud administrador precisa definir as permissões necessárias e verificar se a política da organização permite o uso das APIs necessárias.
Definir as permissões necessárias para usar modelos de parceiros
Os seguintes papéis e permissões são necessários para usar modelos de parceiros:
É necessário ter o papel de Gerente de direito de compra do consumidor do Identity and Access Management (IAM). Qualquer pessoa que tenha esse papel pode ativar modelos de parceiros no Model Garden.
Você precisa ter a permissão
aiplatform.endpoints.predict. Essa permissão está incluída no papel de IAM de usuário do Agent Platform. Para mais informações, consulte Gemini Enterprise Agent Platform User e Controle de acesso.
Console
Para conceder os papéis de IAM do Gerente de direito de compra do consumidor a um usuário, acesse a página IAM.
Na coluna Principal, encontre a principal do usuário cujo acesso aos modelos do Anthropic Claude você quer ativar e clique em . Edite a principal nessa linha.
No painel Editar acesso, clique em Adicionar outro papel.
Em Selecionar uma função, escolha Gerente de direito de compra do consumidor.
No painel Acesso de edição, clique em Adicionar outro papel.
Em Selecionar uma função, escolha Usuário da Agent Platform.
Clique em Salvar.
gcloud
-
No Google Cloud console, ative o Cloud Shell.
Conceda o papel de Gerente de direito de compra do consumidor necessário para ativar os modelos de parceiros no Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManagerConceda o papel de usuário da plataforma de agentes que inclui a permissão
aiplatform.endpoints.predict, necessária para fazer solicitações de comando:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.userSubstitua
PRINCIPALpelo identificador do principal. O identificador tem o formatouser|group|serviceAccount:emailoudomain:domain, por exemplo,user:cloudysanfrancisco@gmail.com,group:admins@example.com,serviceAccount:test123@example.domain.comoudomain:example.domain.com.A saída é uma lista de vinculações de política que inclui o seguinte:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManagerPara mais informações, consulte Conceder um único papel e
gcloud projects add-iam-policy-binding.
Definir a política da organização para o acesso ao modelo de parceiro
Para ativar os modelos de parceiros, a política da organização precisa permitir a seguinte API: API Cloud Commerce Consumer Procurement - cloudcommerceconsumerprocurement.googleapis.com
Se a organização definir uma política da organização para
restringir o uso do serviço,
um administrador da organização precisará verificar se
cloudcommerceconsumerprocurement.googleapis.com é permitido por
definir a política da organização.
Além disso, se você tiver uma política da organização que restringe o uso de modelos no Model Garden, ela precisará permitir o acesso aos modelos do parceiro. Para mais informações, consulte Controlar o acesso ao modelo.
Conformidade regulatória do modelo de parceiro
As certificações para IA generativa no Gemini Enterprise Agent Platform continuam sendo aplicadas quando os modelos de parceiros são usados como uma API gerenciada usando o Gemini Enterprise Agent Platform. Se você precisar de detalhes sobre os modelos, mais informações podem ser encontradas no card de modelo respectivo ou entre em contato com o editor do modelo.
Seus dados são armazenados em repouso na região ou multirregião selecionada para modelos de parceiros na Gemini Enterprise Agent Platform, mas a regionalização do tratamento de dados pode variar. Para uma lista detalhada dos compromissos de tratamento de dados de modelos de parceiros, consulte Residência de dados para modelos de parceiros.
Os comandos do cliente e as respostas do modelo não são compartilhados com terceiros ao usar a API Gemini Enterprise, incluindo modelos de parceiros. O Google só trata os dados do cliente conforme instruído pelo cliente, o que é descrito com mais detalhes no nosso Adendo sobre tratamento de dados do Cloud.