Alguns modelos de IA generativa, como o Gemini, têm APIs geridas e estão prontos para aceitar comandos sem implementação. Para ver uma lista de modelos com APIs geridas, consulte o artigo APIs de modelos fundamentais.
Outros modelos de IA generativa têm de ser implementados num ponto final antes de estarem prontos para aceitar comandos. Existem dois tipos de modelos generativos que têm de ser implementados:
Modelos ajustados, que cria ajustando um modelo base suportado com os seus próprios dados.
Modelos generativos que não têm APIs geridas. No Model Garden, estes são modelos que não estão etiquetados como API disponível ou Vertex AI Studio, por exemplo, o Llama 2.
Quando implementa um modelo num ponto final, a Vertex AI associa recursos de computação e um URI ao modelo para que possa responder a pedidos de comandos.
Implemente um modelo otimizado
Os modelos otimizados são carregados automaticamente para o
Registo de modelos Vertex AI
e implementados num
endpoint
público partilhado da Vertex AI. Os modelos ajustados não
aparecem no Model Garden porque são ajustados com os seus dados.
Para mais informações, consulte o artigo
Vista geral do ajuste de modelos.
Quando o ponto final estiver ativo, está pronto para aceitar pedidos de comandos no respetivo URI. O formato da chamada da API para um modelo aperfeiçoado é o mesmo que o modelo base a partir do qual foi aperfeiçoado. Por exemplo, se o seu modelo for otimizado no Gemini, o pedido de comando deve seguir a API Gemini.
Certifique-se de que envia pedidos de comandos para o ponto final do seu modelo otimizado em vez da API gerida. O ponto final do modelo otimizado está no formato:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Para obter o ID do ponto final, consulte o artigo Veja ou faça a gestão de um ponto final.
Para mais informações sobre a formatação de pedidos de comandos, consulte a referência da API Model.
Implemente um modelo generativo que não tenha uma API gerida
Para usar um modelo do Model Garden que não tenha uma API gerida, tem de carregar o modelo para o Model Registry e implementá-lo num ponto final antes de poder enviar pedidos de comandos. Isto é semelhante a carregar e implementar um modelo preparado de forma personalizada para a previsão online no Vertex AI.
Para implementar um destes modelos, aceda ao Model Garden e selecione o modelo que quer implementar.
Cada cartão de modelo apresenta uma ou mais das seguintes opções de implementação:
Botão Implementar: a maioria dos modelos generativos no Model Garden tem um botão Implementar que lhe explica como fazer a implementação na Vertex AI. Se não vir um botão Implementar, avance para o ponto seguinte.
Para a implementação no Vertex AI, pode usar as definições sugeridas ou modificá-las. Também pode definir definições de implementação avançadas para, por exemplo, selecionar uma reserva do Compute Engine.
Botão Abrir notebook: esta opção abre um notebook Jupyter. Todos os cartões de modelos apresentam esta opção. O bloco de notas do Jupyter inclui instruções e código de exemplo para carregar o modelo para o registo de modelos, implementar o modelo num ponto final e enviar um pedido de comando.
Assim que a implementação estiver concluída e o ponto final estiver ativo, está pronto para aceitar pedidos de comandos no respetivo URI. O formato da API é predict
e o formato de cada instance
no corpo do pedido depende do modelo. Para mais informações, consulte os
seguintes recursos:
Certifique-se de que tem quota de máquinas suficiente para implementar o seu modelo. Para ver a sua quota atual ou pedir mais quota, na consola, aceda à página Quotas. Google Cloud
Em seguida, filtre pelo nome da quota Custom Model Serving
para ver as quotas de previsão online. Para saber mais, consulte o artigo Veja e faça a gestão das quotas.
Garanta a capacidade dos modelos implementados com reservas do Compute Engine
Pode implementar modelos do Model Garden em recursos de VMs que foram atribuídos através de reservas do Compute Engine. As reservas ajudam a garantir que a capacidade está disponível quando os pedidos de previsões do modelo precisam dela. Para mais informações, consulte o artigo Use reservas com previsão.
Veja ou faça a gestão de um modelo
Para modelos otimizados, pode ver o modelo e a respetiva tarefa de otimização na página Otimizar e destilar na Google Cloud consola.
Também pode ver e gerir todos os seus modelos carregados no Model Registry.
No Model Registry, um modelo otimizado é categorizado como um modelo grande e tem etiquetas que especificam o modelo base e o pipeline ou a tarefa de otimização que foi usado para a otimização.
Os modelos implementados com o botão Implementar indicam Model Garden
como respetivo Source
.
Tenha em atenção que, se o modelo for atualizado no Model Garden, o modelo carregado no Model Registry não é atualizado.
Para mais informações, consulte o artigo Introdução ao Registo de modelos da Vertex AI.
Veja ou faça a gestão de um ponto final
Para ver e gerir o seu ponto final, aceda à página Previsão online do Vertex AI. Por predefinição, o nome do ponto final é o mesmo que o nome do modelo.
Para mais informações, consulte o artigo Implemente um modelo num ponto final.
Monitorize o tráfego do ponto final do modelo
Para saber como monitorizar o tráfego do ponto final do modelo, consulte o artigo Monitorizar modelos.
Limitações
- Só é possível implementar um modelo do Gemini otimizado num ponto final público partilhado. A implementação em pontos finais públicos dedicados, pontos finais do Private Service Connect e pontos finais privados não é suportada.
Preços
Para modelos ajustados, a faturação é feita por token à mesma taxa do modelo base a partir do qual o seu modelo foi ajustado. Não existe qualquer custo para o ponto final porque a otimização é implementada como um pequeno adaptador no modelo base. Para mais informações, consulte os preços da IA generativa na Vertex AI.
Para modelos sem APIs geridas, a faturação é feita com base nas horas de máquina usadas pelo seu ponto final à mesma taxa que as previsões online da Vertex AI. Não lhe é cobrado um valor por token. Para mais informações, consulte os preços das previsões na Vertex AI.