Antes de poder obter inferências online a partir de um modelo preparado, tem de implementar o modelo num ponto final. Isto pode ser feito através da Google Cloud consola, da Google Cloud CLI ou da API Vertex AI.
Este documento descreve o processo de implementação de modelos em pontos finais.
O que acontece quando implementa um modelo
A implementação de um modelo associa recursos físicos ao modelo para que possa publicar inferências online com baixa latência.
Pode implementar vários modelos num ponto final ou implementar o mesmo modelo em vários pontos finais. Para mais informações, consulte o artigo Motivos para implementar mais do que um modelo no mesmo ponto final.
Prepare-se para implementar um modelo num ponto final
Durante a implementação do modelo, toma as seguintes decisões importantes sobre como executar a inferência online:
| Recurso criado | Definição especificada na criação do recurso |
|---|---|
| Ponto final | Localização na qual executar inferências |
| Modelo | Contentor a usar (ModelContainerSpec) |
| DeployedModel | Recursos de computação a usar para a inferência online |
Após a implementação do modelo no ponto final, não é possível alterar estas definições de implementação. Para as alterar, tem de voltar a implementar o modelo.
O primeiro passo no processo de implementação é decidir que tipo de ponto final usar. Para mais informações, consulte a secção Escolha um tipo de ponto final.
Em seguida, certifique-se de que o modelo está visível no Registo de modelos do Vertex AI. Isto é necessário para que o modelo seja implementável. Para obter informações sobre o Registo de modelos, incluindo como importar artefactos de modelos ou criá-los diretamente no Registo de modelos, consulte o artigo Introdução ao Registo de modelos do Vertex AI.
A próxima decisão a tomar é que recursos de computação usar para publicar o modelo.
O tipo de preparação do modelo (AutoML ou personalizado) e o tipo de dados (AutoML) determinam os tipos de recursos físicos disponíveis para o modelo. Após a implementação do modelo, pode mutate alguns desses recursos sem criar uma nova implementação.
O recurso de ponto final fornece o ponto final de serviço (URL) que usa para pedir a inferência. Por exemplo:
https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict
Implemente um modelo num ponto final
Pode implementar um modelo num ponto final através da Google Cloud consola ou através da CLI gcloud ou da API Vertex AI.
Implemente um modelo num ponto final público através da Google Cloud consola
Na Google Cloud consola, pode implementar um modelo num ponto final público dedicado ou partilhado existente, ou pode criar um novo ponto final durante o processo de implementação. Para ver detalhes, consulte o artigo Implemente um modelo através da Google Cloud consola.
Implemente um modelo num ponto final público através da CLI gcloud ou da API Vertex AI
Quando implementa um modelo através da CLI gcloud ou da API Vertex AI, tem de criar primeiro um ponto final dedicado ou partilhado e, em seguida, implementar o modelo no mesmo. Para obter mais detalhes, consulte as secções:
- Crie um ponto final público dedicado ou partilhado
- Implemente um modelo através da CLI gcloud ou da API Vertex AI
Implemente um modelo num ponto final do Private Service Connect
Para ver detalhes, consulte o artigo Use pontos finais do Private Service Connect para inferência online.
Use uma implementação progressiva para atualizar um modelo implementado
Pode usar uma implementação contínua para substituir um modelo implementado por uma nova versão do mesmo modelo. O novo modelo reutiliza os recursos de computação do modelo anterior. Para ver detalhes, consulte o artigo Use uma implementação contínua para substituir um modelo implementado.
Anule a implementação de um modelo e elimine o ponto final
Pode anular a implementação de um modelo e eliminar o ponto final. Para ver detalhes, consulte o artigo Anule a implementação de um modelo e elimine o ponto final.
Motivos para implementar mais do que um modelo no mesmo ponto final
A implementação de dois modelos no mesmo ponto final permite-lhe substituir gradualmente um modelo pelo outro. Por exemplo, suponhamos que está a usar um modelo e encontra uma forma de aumentar a precisão desse modelo com novos dados de preparação. No entanto, não quer atualizar a sua aplicação para apontar para um novo URL do ponto final e não quer criar alterações súbitas na sua aplicação. Pode adicionar o novo modelo ao mesmo ponto final, publicando uma pequena percentagem do tráfego e aumentando gradualmente a divisão do tráfego para o novo modelo até estar a publicar 100% do tráfego.
Uma vez que os recursos estão associados ao modelo e não ao ponto final, pode implementar modelos de diferentes tipos no mesmo ponto final. No entanto, a prática recomendada é implementar modelos de um tipo específico (por exemplo, AutoML tabular ou com formação personalizada) num ponto final. Esta configuração é mais fácil de gerir.
Motivos para implementar um modelo em mais do que um ponto final
Pode querer implementar os seus modelos com recursos diferentes para diferentes ambientes de aplicação, como testes e produção. Também pode querer suportar diferentes SLOs para os seus pedidos de inferência. Talvez uma das suas aplicações tenha necessidades de desempenho muito superiores às das outras. Neste caso, pode implementar esse modelo num ponto final de maior desempenho com mais recursos de aprendizagem automática. Para otimizar os custos, também pode implementar o modelo num ponto final de desempenho inferior com menos recursos de aprendizagem automática.
Comportamento de dimensionamento
A criação de uma escala automática da inferência da Vertex AI ajusta o número de nós de inferência com base no número de pedidos simultâneos. Isto permite-lhe ajustar dinamicamente as cargas de pedidos variáveis enquanto gere os custos. Para mais informações, consulte o artigo Dimensione os nós de inferência para a Vertex AI Inference.
O que se segue?
- Escolha um tipo de ponto final.
- Implemente um modelo através da Google Cloud consola.
- Saiba mais sobre o registo de pedidos de inferência e respostas para pontos finais dedicados e pontos finais do Private Service Connect.
- Saiba como obter uma inferência online.
- Saiba como alterar as definições predefinidas para o registo de inferências.