Para implantar um modelo para inferência on-line, é necessário um endpoint. Os endpoints podem ser divididos nos seguintes tipos:
Os endpoints públicos podem ser acessados pela Internet pública. Eles são mais fáceis de usar porque não exigem infraestrutura de rede privada. Há dois tipos de endpoints públicos: dedicados e compartilhados. Um endpoint público dedicado é mais rápido e oferece isolamento de produção, suporte para tamanhos de payload maiores e tempos limite de solicitação mais longos do que um endpoint público compartilhado. Além disso, quando você envia uma solicitação de inferência para um endpoint público dedicado, ela é isolada do tráfego de outros usuários. Por esses motivos, os endpoints públicos dedicados são recomendados como prática recomendada.
Os endpoints particulares dedicados que usam o Private Service Connect oferecem uma conexão segura para comunicação particular entre ambientes on-premise e o Google Cloud Google Cloud. Eles podem ser usados para controlar o tráfego da API Google usando APIs do Private Service Connect. Eles são recomendados como prática recomendada.
Os endpoints particulares também oferecem uma conexão segura ao modelo e podem ser usados para comunicação particular entre ambientes on-premise e o Google Cloud Google Cloud. Eles usam o acesso a serviços particulares em uma conexão de peering de rede VPC.
Para mais informações sobre como implantar um modelo em um endpoint, consulte Implantar um modelo em um endpoint.
A tabela a seguir compara os tipos de endpoints com suporte para veiculação de inferências on-line da plataforma de agentes do Gemini Enterprise.
| Endpoint público dedicado (recomendado) | Endpoint público compartilhado | Endpoint particular dedicado usando o Private Service Connect (recomendado) | Endpoint particular | |
|---|---|---|---|---|
| Finalidade | Experiência de rede padrão. Permite o envio de solicitações da Internet pública. | Experiência de rede padrão. Permite o envio de solicitações da Internet pública. | Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma particular. | Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma particular. |
| Acesso à rede | Internet pública usando um plano de rede dedicado | Internet pública usando um plano de rede compartilhado | Rede particular usando o endpoint do Private Service Connect | Rede particular usando o acesso a serviços particulares (peering de rede VPC) |
| VPC Service Controls | Indisponível. Em vez disso, use um endpoint particular dedicado. | Com suporte | Compatível | Com suporte |
| Custo | Vertex AI Inference | Vertex AI Inference | Vertex AI Inference + endpoint do Private Service Connect | Vertex AI Inference + acesso a serviços particulares (consulte: "Usar um endpoint do Private Service Connect (regra de encaminhamento) para acessar um serviço publicado") |
| Latência de rede | Otimizado | Não otimizado | Otimizado | Otimizado |
| Criptografia em trânsito | TLS com certificado assinado pela CA | TLS com certificado assinado pela CA | TLS opcional com certificado autoassinado | Nenhum |
| Tempo limite de inferência | Configurável em até 1 hora | 60 segundos | Configurável em até 1 hora | 60 segundos |
| Limite de tamanho do payload | 10 MB | 1,5 MB | 10 MB | 10 MB |
| Cota do QPM | Ilimitado | 30.000 | Ilimitado | Ilimitado |
| Suporte a protocolo | HTTP ou gRPC | HTTP | HTTP ou gRPC | HTTP |
| Suporte a streaming | Sim (SSE) | Não | Sim (SSE) | Não |
| Divisão de tráfego | Sim | Sim | Sim | Não |
| Geração de registros de solicitação e resposta | Sim | Sim | Sim | Não |
| Geração de registros de acesso | Sim | Sim | Sim | Não |
| Implantação do modelo ajustado do Gemini | Não | Sim | Não | Não |
| Modelos do AutoML e explicabilidade | Não | Sim | Não | Não |
| Bibliotecas de cliente com suporte | SDK da Agent Platform para Python | Bibliotecas de cliente da Gemini Enterprise Agent Platform, SDK da Agent Platform para Python | SDK da Agent Platform para Python | SDK da Agent Platform para Python |
A seguir
- Saiba mais sobre como implantar um modelo em um endpoint.