Esta página foi traduzida pela API Cloud Translation.

Implemente modelos de IA generativa

Alguns modelos de IA generativa, como o Gemini, têm APIs geridas e estão prontos para aceitar comandos sem implementação. Para ver uma lista de modelos com APIs geridas, consulte o artigo APIs de modelos fundamentais.

Outros modelos de IA generativa têm de ser implementados num ponto final antes de estarem prontos para aceitar comandos. Existem dois tipos de modelos generativos que têm de ser implementados:

Modelos ajustados, que cria ajustando um modelo base suportado com os seus próprios dados.
Modelos generativos que não têm APIs geridas. No Model Garden, estes são modelos que não estão etiquetados como API disponível ou Vertex AI Studio, por exemplo, o Llama 2.

Quando implementa um modelo num ponto final, a Vertex AI associa recursos de computação e um URI ao modelo para que possa responder a pedidos de comandos.

Implemente um modelo otimizado

Os modelos otimizados são carregados automaticamente para o Registo de modelos Vertex AI e implementados num endpoint público partilhado da Vertex AI. Os modelos ajustados não aparecem no Model Garden porque são ajustados com os seus dados. Para mais informações, consulte o artigo Vista geral do ajuste de modelos.

Quando o ponto final estiver ativo, está pronto para aceitar pedidos de comandos no respetivo URI. O formato da chamada da API para um modelo aperfeiçoado é o mesmo que o modelo base a partir do qual foi aperfeiçoado. Por exemplo, se o seu modelo for otimizado no Gemini, o pedido de comando deve seguir a API Gemini.

Certifique-se de que envia pedidos de comandos para o ponto final do seu modelo otimizado em vez da API gerida. O ponto final do modelo otimizado está no formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Para obter o ID do ponto final, consulte o artigo Veja ou faça a gestão de um ponto final.

Para mais informações sobre a formatação de pedidos de comandos, consulte a referência da API Model.

Implemente um modelo generativo que não tenha uma API gerida

Para usar um modelo do Model Garden que não tenha uma API gerida, tem de carregar o modelo para o Model Registry e implementá-lo num ponto final antes de poder enviar pedidos de comandos. Isto é semelhante a carregar e implementar um modelo preparado de forma personalizada para a previsão online no Vertex AI.

Para implementar um destes modelos, aceda ao Model Garden e selecione o modelo que quer implementar.

Aceda ao Model Garden

Cada cartão de modelo apresenta uma ou mais das seguintes opções de implementação:

Botão Implementar: a maioria dos modelos generativos no Model Garden tem um botão Implementar que lhe explica como fazer a implementação na Vertex AI. Se não vir um botão Implementar, avance para o ponto seguinte.

Para a implementação no Vertex AI, pode usar as definições sugeridas ou modificá-las. Também pode definir definições de implementação avançadas para, por exemplo, selecionar uma reserva do Compute Engine.

Nota: alguns modelos também suportam a implementação no Google Kubernetes Engine, que é uma solução não gerida que lhe dá ainda mais controlo. Para mais informações, consulte o artigo Apresente um modelo com uma única GPU no GKE.
Botão Abrir notebook: esta opção abre um notebook Jupyter. Todos os cartões de modelos apresentam esta opção. O bloco de notas do Jupyter inclui instruções e código de exemplo para carregar o modelo para o registo de modelos, implementar o modelo num ponto final e enviar um pedido de comando.

Assim que a implementação estiver concluída e o ponto final estiver ativo, está pronto para aceitar pedidos de comandos no respetivo URI. O formato da API é predict e o formato de cada instance no corpo do pedido depende do modelo. Para mais informações, consulte os seguintes recursos:

Certifique-se de que tem quota de máquinas suficiente para implementar o seu modelo. Para ver a sua quota atual ou pedir mais quota, na consola, aceda à página Quotas. Google Cloud

Aceder a Quotas

Em seguida, filtre pelo nome da quota Custom Model Serving para ver as quotas de previsão online. Para saber mais, consulte o artigo Veja e faça a gestão das quotas.

Garanta a capacidade dos modelos implementados com reservas do Compute Engine

Pode implementar modelos do Model Garden em recursos de VMs que foram atribuídos através de reservas do Compute Engine. As reservas ajudam a garantir que a capacidade está disponível quando os pedidos de previsões do modelo precisam dela. Para mais informações, consulte o artigo Use reservas com previsão.

Veja ou faça a gestão de um modelo

Para modelos otimizados, pode ver o modelo e a respetiva tarefa de otimização na página Otimizar e destilar na Google Cloud consola.

Aceda a Ajustar e destilar

Também pode ver e gerir todos os seus modelos carregados no Model Registry.

Aceda ao Registo de modelos

No Model Registry, um modelo otimizado é categorizado como um modelo grande e tem etiquetas que especificam o modelo base e o pipeline ou a tarefa de otimização que foi usado para a otimização.

Os modelos implementados com o botão Implementar indicam Model Garden como respetivo Source. Tenha em atenção que, se o modelo for atualizado no Model Garden, o modelo carregado no Model Registry não é atualizado.

Para mais informações, consulte o artigo Introdução ao Registo de modelos da Vertex AI.

Veja ou faça a gestão de um ponto final

Para ver e gerir o seu ponto final, aceda à página Previsão online do Vertex AI. Por predefinição, o nome do ponto final é o mesmo que o nome do modelo.

Aceda à previsão online

Para mais informações, consulte o artigo Implemente um modelo num ponto final.

Monitorize o tráfego do ponto final do modelo

Para saber como monitorizar o tráfego do ponto final do modelo, consulte o artigo Monitorizar modelos.

Limitações

Só é possível implementar um modelo do Gemini otimizado num ponto final público partilhado. A implementação em pontos finais públicos dedicados, pontos finais do Private Service Connect e pontos finais privados não é suportada.

Preços

Para modelos ajustados, a faturação é feita por token à mesma taxa do modelo base a partir do qual o seu modelo foi ajustado. Não existe qualquer custo para o ponto final porque a otimização é implementada como um pequeno adaptador no modelo base. Para mais informações, consulte os preços da IA generativa na Vertex AI.

Para modelos sem APIs geridas, a faturação é feita com base nas horas de máquina usadas pelo seu ponto final à mesma taxa que as previsões online da Vertex AI. Não lhe é cobrado um valor por token. Para mais informações, consulte os preços das previsões na Vertex AI.