Usar endpoints públicos dedicados para inferência on-line

Um endpoint público dedicado é um endpoint público para inferência on-line. Ele oferece os seguintes benefícios:

  • Rede dedicada: quando você envia uma solicitação de inferência para um endpoint público dedicado, ela é isolada do tráfego de outros usuários.
  • Latência de rede otimizada
  • Suporte a payloads maiores: até 10 MB.
  • Tempos limite de solicitação mais longos: configuráveis em até 1 hora.
  • Pronto para IA generativa: o streaming e o gRPC são compatíveis. O tempo limite de inferência pode ser configurado em até 1 hora.

Por esses motivos, os endpoints públicos dedicados são recomendados como prática recomendada para disponibilizar inferências on-line da Gemini Enterprise Agent Platform.

Para saber mais, consulte Escolher um tipo de endpoint.

Criar um endpoint público dedicado e implantar um modelo nele

É possível criar um endpoint dedicado e implantar um modelo nele usando o Google Cloud console. Para mais detalhes, consulte Implantar um modelo usando o Google Cloud console.

Também é possível criar um endpoint público dedicado e implantar um modelo nele usando a API Gemini Enterprise da seguinte maneira:

  1. Crie um endpoint público dedicado. A configuração do tempo limite de inferência e das configurações de geração de registros de solicitação-resposta é compatível no momento da criação do endpoint.
  2. Implante o modelo usando a API Gemini Enterprise.

Receber inferências on-line de um endpoint público dedicado

Os endpoints dedicados oferecem suporte aos protocolos de comunicação HTTP e gRPC. Para solicitações gRPC, o cabeçalho x-vertex-ai-endpoint-id precisa ser incluído para a identificação adequada do endpoint. Há suporte para as seguintes APIs:

  • Prever
  • RawPredict
  • StreamRawPredict
  • Conclusão de chat (somente no Model Garden)

É possível enviar solicitações de inferência on-line para um endpoint público dedicado usando o SDK do Agent Platform para Python. Para mais detalhes, consulte Enviar uma solicitação de inferência on-line para um endpoint público dedicado.

Tutorial

Limitações

  • A implantação de modelos ajustados do Gemini não é compatível.
  • O VPC Service Controls não é compatível. Use um endpoint do Private Service Connect.

A seguir

  • Saiba mais sobre os tipos de endpoints de inferência on-line da plataforma de agentes do Gemini Enterprise .