Um endpoint público dedicado é um endpoint público para inferência on-line. Ele oferece os seguintes benefícios:
- Rede dedicada: quando você envia uma solicitação de inferência para um endpoint público dedicado, ela é isolada do tráfego de outros usuários.
- Latência de rede otimizada
- Suporte a payloads maiores: até 10 MB.
- Tempos limite de solicitação mais longos: configuráveis em até 1 hora.
- Pronto para IA generativa: o streaming e o gRPC são compatíveis. O tempo limite de inferência pode ser configurado em até 1 hora.
Por esses motivos, os endpoints públicos dedicados são recomendados como prática recomendada para disponibilizar inferências on-line da Gemini Enterprise Agent Platform.
Para saber mais, consulte Escolher um tipo de endpoint.
Criar um endpoint público dedicado e implantar um modelo nele
É possível criar um endpoint dedicado e implantar um modelo nele usando o Google Cloud console. Para mais detalhes, consulte Implantar um modelo usando o Google Cloud console.
Também é possível criar um endpoint público dedicado e implantar um modelo nele usando a API Gemini Enterprise da seguinte maneira:
- Crie um endpoint público dedicado. A configuração do tempo limite de inferência e das configurações de geração de registros de solicitação-resposta é compatível no momento da criação do endpoint.
- Implante o modelo usando a API Gemini Enterprise.
Receber inferências on-line de um endpoint público dedicado
Os endpoints dedicados oferecem suporte aos protocolos de comunicação HTTP e gRPC. Para solicitações gRPC, o cabeçalho x-vertex-ai-endpoint-id precisa ser incluído para a identificação adequada do endpoint. Há suporte para as seguintes APIs:
- Prever
- RawPredict
- StreamRawPredict
- Conclusão de chat (somente no Model Garden)
É possível enviar solicitações de inferência on-line para um endpoint público dedicado usando o SDK do Agent Platform para Python. Para mais detalhes, consulte Enviar uma solicitação de inferência on-line para um endpoint público dedicado.
Tutorial
Limitações
- A implantação de modelos ajustados do Gemini não é compatível.
- O VPC Service Controls não é compatível. Use um endpoint do Private Service Connect.
A seguir
- Saiba mais sobre os tipos de endpoints de inferência on-line da plataforma de agentes do Gemini Enterprise .