O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Usar endpoints públicos dedicados para inferência on-line

Um endpoint público dedicado é um endpoint público para inferência on-line. Ele oferece os seguintes benefícios:

Rede dedicada: quando você envia uma solicitação de inferência para um endpoint público dedicado, ela é isolada do tráfego de outros usuários.
Latência de rede otimizada
Suporte a payloads maiores: até 10 MB.
Tempos limite de solicitação mais longos: configuráveis em até 1 hora.
Pronto para IA generativa: o streaming e o gRPC são compatíveis. O tempo limite de inferência pode ser configurado em até 1 hora.

Por esses motivos, os endpoints públicos dedicados são recomendados como prática recomendada para disponibilizar inferências on-line da Gemini Enterprise Agent Platform.

Para saber mais, consulte Escolher um tipo de endpoint.

Criar um endpoint público dedicado e implantar um modelo nele

É possível criar um endpoint dedicado e implantar um modelo nele usando o Google Cloud console. Para mais detalhes, consulte Implantar um modelo usando o Google Cloud console.

Também é possível criar um endpoint público dedicado e implantar um modelo nele usando a API Gemini Enterprise da seguinte maneira:

Crie um endpoint público dedicado. A configuração do tempo limite de inferência e das configurações de geração de registros de solicitação-resposta é compatível no momento da criação do endpoint.
Implante o modelo usando a API Gemini Enterprise.

Receber inferências on-line de um endpoint público dedicado

Os endpoints dedicados oferecem suporte aos protocolos de comunicação HTTP e gRPC. Para solicitações gRPC, o cabeçalho x-vertex-ai-endpoint-id precisa ser incluído para a identificação adequada do endpoint. Há suporte para as seguintes APIs:

Prever
RawPredict
StreamRawPredict
Conclusão de chat (somente no Model Garden)

É possível enviar solicitações de inferência on-line para um endpoint público dedicado usando o SDK do Agent Platform para Python. Para mais detalhes, consulte Enviar uma solicitação de inferência on-line para um endpoint público dedicado.

Tutorial

Limitações

A implantação de modelos ajustados do Gemini não é compatível.
O VPC Service Controls não é compatível. Use um endpoint do Private Service Connect.

A seguir

Saiba mais sobre os tipos de endpoints de inferência on-line da plataforma de agentes do Gemini Enterprise .