Implantar um modelo em um endpoint

Antes de receber inferências on-line de um modelo treinado, é necessário implantá-lo em um endpoint. Isso pode ser feito usando o console Google Cloud , a Google Cloud CLI ou a API Vertex AI.

Este documento descreve o processo de implantação de modelos em endpoints.

O que acontece quando você implanta um modelo

A implantação de um modelo associa recursos físicos ao modelo para que ele possa veicular inferências on-line com baixa latência.

É possível implantar vários modelos em um endpoint ou o mesmo modelo em vários endpoints. Para mais informações, consulte Motivos para implantar mais de um modelo no mesmo endpoint.

Preparar para implantar um modelo em um endpoint

Durante a implantação do modelo, você toma as seguintes decisões importantes sobre como executar a inferência on-line:

Recurso criado Configuração especificada na criação de recursos
Endpoint Local onde executar inferências
Modelo Contêiner a ser usado (ModelContainerSpec)
DeployedModel Recursos de computação para usar na inferência on-line

Depois que o modelo é implantado no endpoint, essas configurações não podem ser alteradas. Para mudar essas configurações, é necessário reimplantar o modelo.

A primeira etapa do processo de implantação é decidir qual tipo de endpoint usar. Para mais informações, consulte Escolher um tipo de endpoint.

Em seguida, verifique se o modelo está visível no Vertex AI Model Registry. Isso é necessário para que o modelo possa ser implantado. Para informações sobre o Model Registry, incluindo como importar artefatos de modelo ou criá-los diretamente no Model Registry, consulte Introdução ao Vertex AI Model Registry.

A próxima decisão é quais recursos de computação usar para veicular o modelo. O tipo de treinamento (AutoML ou personalizado) e dados (AutoML) do modelo determinam os tipos de recursos físicos disponíveis nele. Após a implantação do modelo, é possível mutate alguns desses recursos sem criar uma nova implantação.

O recurso de endpoint fornece o endpoint de serviço (URL) que você usa para solicitar a inferência. Exemplo:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

Implantar um modelo em um endpoint

É possível implantar um modelo em um endpoint usando o console Google Cloud ou usando a CLI gcloud ou a API Vertex AI.

Implantar um modelo em um endpoint público usando o console do Google Cloud

No console Google Cloud , é possível implantar um modelo em um endpoint público dedicado ou compartilhado, ou criar um novo endpoint durante o processo de implantação. Para mais detalhes, consulte Implantar um modelo usando o console do Google Cloud .

Implante um modelo em um endpoint público usando a CLI gcloud ou a API Vertex AI

Ao implantar um modelo usando a CLI gcloud ou a API Vertex AI, primeiro crie um endpoint dedicado ou compartilhado e implante o modelo nele. Veja mais detalhes em:

  1. Criar um endpoint público dedicado ou compartilhado
  2. Implantar um modelo usando a CLI gcloud ou a API Vertex AI

Implantar um modelo em um endpoint do Private Service Connect

Para mais detalhes, consulte Usar endpoints do Private Service Connect para inferência on-line.

Usar uma implantação gradual para atualizar um modelo implantado

É possível usar uma implantação gradual para substituir um modelo implantado por uma nova versão dele. O novo modelo reutiliza os recursos de computação do anterior. Para mais detalhes, consulte Usar uma implantação gradual para substituir um modelo implantado.

Cancelar a implantação de um modelo e excluir o endpoint

É possível remover a implantação de um modelo e excluir o endpoint. Para mais detalhes, consulte Cancelar a implantação de um modelo e excluir o endpoint.

Motivos para implantar mais de um modelo no mesmo endpoint

A implantação de dois modelos no mesmo endpoint permite substituir gradualmente um modelo por outro. Por exemplo, suponha que você esteja usando um modelo e encontre uma maneira de aumentar a precisão dele com novos dados de treinamento. No entanto, não convém atualizar o aplicativo para apontar para um novo URL de endpoint e você não quer criar alterações repentinas no aplicativo. Você pode adicionar o novo modelo ao mesmo endpoint, exibindo uma pequena porcentagem do tráfego e aumentar gradualmente a divisão de tráfego do novo modelo até que ele exiba 100% do tráfego.

Como os recursos são associados ao modelo em vez do endpoint, é possível implantar modelos de tipos diferentes no mesmo endpoint. No entanto, a prática recomendada é implantar modelos de um tipo específico, como AutoML tabular ou treinamento personalizado, em um endpoint. Essa configuração é mais fácil de gerenciar.

Motivos para implantar um modelo em mais de um endpoint

Pode ser útil implantar os modelos com diferentes recursos para diferentes ambientes de aplicativos, como testes e produção. Você também pode querer oferecer suporte a diferentes SLOs para suas solicitações de inferência. Talvez um dos seus aplicativos tenha necessidades de desempenho muito mais altas do que outros. Nesse caso, é possível implantar esse modelo em um endpoint de desempenho superior com mais recursos de máquina. Para otimizar os custos, também é possível implantar o modelo em um endpoint de desempenho inferior com menos recursos da máquina.

Comportamento de escalonamento

O escalonamento automático da inferência da Vertex AI escalona o número de nós de inferência com base no número de solicitações simultâneas. Isso permite que você se ajuste dinamicamente às mudanças nas cargas de solicitações enquanto gerencia os custos. Para mais informações, consulte Escalonar nós de inferência para a Inferência da Vertex AI.

A seguir