Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Escolha um tipo de endpoint

Para implantar um modelo para inferência on-line, é necessário um endpoint. Os endpoints podem ser divididos nos seguintes tipos:

Os endpoints públicos podem ser acessados pela Internet pública. Eles são mais fáceis de usar porque não exigem infraestrutura de rede privada. Há dois tipos de endpoints públicos: dedicados e compartilhados. Um endpoint público dedicado é mais rápido e oferece isolamento de produção, suporte para tamanhos de payload maiores e tempos limite de solicitação mais longos do que um endpoint público compartilhado. Além disso, quando você envia uma solicitação de inferência para um endpoint público dedicado, ela é isolada do tráfego de outros usuários. Por esses motivos, os endpoints públicos dedicados são recomendados como prática recomendada.
Os endpoints particulares dedicados que usam o Private Service Connect oferecem uma conexão segura para comunicação particular entre ambientes on-premise e o Google Cloud Google Cloud. Eles podem ser usados para controlar o tráfego da API Google usando APIs do Private Service Connect. Eles são recomendados como prática recomendada.
Os endpoints particulares também oferecem uma conexão segura ao modelo e podem ser usados para comunicação particular entre ambientes on-premise e o Google Cloud Google Cloud. Eles usam o acesso a serviços particulares em uma conexão de peering de rede VPC.

Para mais informações sobre como implantar um modelo em um endpoint, consulte Implantar um modelo em um endpoint.

A tabela a seguir compara os tipos de endpoints com suporte para veiculação de inferências on-line da plataforma de agentes do Gemini Enterprise.

	Endpoint público dedicado (recomendado)	Endpoint público compartilhado	Endpoint particular dedicado usando o Private Service Connect (recomendado)	Endpoint particular
Finalidade	Experiência de rede padrão. Permite o envio de solicitações da Internet pública.	Experiência de rede padrão. Permite o envio de solicitações da Internet pública.	Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma particular.	Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma particular.
Acesso à rede	Internet pública usando um plano de rede dedicado	Internet pública usando um plano de rede compartilhado	Rede particular usando o endpoint do Private Service Connect	Rede particular usando o acesso a serviços particulares (peering de rede VPC)
VPC Service Controls	Indisponível. Em vez disso, use um endpoint particular dedicado.	Com suporte	Compatível	Com suporte
Custo	Vertex AI Inference	Vertex AI Inference	Vertex AI Inference + endpoint do Private Service Connect	Vertex AI Inference + acesso a serviços particulares (consulte: "Usar um endpoint do Private Service Connect (regra de encaminhamento) para acessar um serviço publicado")
Latência de rede	Otimizado	Não otimizado	Otimizado	Otimizado
Criptografia em trânsito	TLS com certificado assinado pela CA	TLS com certificado assinado pela CA	TLS opcional com certificado autoassinado	Nenhum
Tempo limite de inferência	Configurável em até 1 hora	60 segundos	Configurável em até 1 hora	60 segundos
Limite de tamanho do payload	10 MB	1,5 MB	10 MB	10 MB
Cota do QPM	Ilimitado	30.000	Ilimitado	Ilimitado
Suporte a protocolo	HTTP ou gRPC	HTTP	HTTP ou gRPC	HTTP
Suporte a streaming	Sim (SSE)	Não	Sim (SSE)	Não
Divisão de tráfego	Sim	Sim	Sim	Não
Geração de registros de solicitação e resposta	Sim	Sim	Sim	Não
Geração de registros de acesso	Sim	Sim	Sim	Não
Implantação do modelo ajustado do Gemini	Não	Sim	Não	Não
Modelos do AutoML e explicabilidade	Não	Sim	Não	Não
Bibliotecas de cliente com suporte	SDK da Agent Platform para Python	Bibliotecas de cliente da Gemini Enterprise Agent Platform, SDK da Agent Platform para Python	SDK da Agent Platform para Python	SDK da Agent Platform para Python

A seguir

Saiba mais sobre como implantar um modelo em um endpoint.

Escolha um tipo de endpoint Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

A seguir

Escolha um tipo de endpoint