Neste tutorial, vai usar o Model Garden para implementar o modelo aberto Gemma 2B num ponto final do Vertex AI suportado por uma TPU. Tem de implementar um modelo num ponto final antes de poder usar esse modelo para publicar previsões online. A implementação de um modelo associa recursos físicos ao modelo para que possa publicar previsões online com baixa latência.
Depois de implementar o modelo Gemma 2B, infere o modelo preparado usando o PredictionServiceClient
para obter previsões online. As previsões online são pedidos síncronos feitos a um modelo implementado num ponto final.
Implemente o Gemma através do Model Garden
Implementa o modelo Gemma 2B num tipo de máquina do Compute Engine ct5lp-hightpu-1t
otimizado para o treino de pequena a média escala. Esta máquina tem um acelerador TPU v5e. Para mais informações sobre a preparação de modelos
com TPUs, consulte o artigo Preparação de Cloud TPU v5e.
Neste tutorial, implementa o modelo aberto Gemma 2B com ajuste fino de instruções usando o cartão do modelo no Model Garden. A versão específica do modelo é gemma2-2b-it
. -it
significa ajustado para instruções.
O modelo Gemma 2B tem um tamanho de parâmetro inferior, o que significa requisitos de recursos mais baixos e maior flexibilidade de implementação.
Na Google Cloud consola, aceda à página Model Garden.
Clique no cartão do modelo Gemma 2.
Clique em Implementar para abrir o painel Implementar modelo.
No painel Implementar modelo, especifique estes detalhes.
Em Ambiente de implementação, clique em Vertex AI.
Na secção Implementar modelo:
Para ID do recurso, escolha
gemma-2b-it
.Para Nome do modelo e Nome do ponto final, aceite os valores predefinidos. Por exemplo:
- Nome do modelo:
gemma2-2b-it-1234567891234
- Nome do ponto final:
gemma2-2b-it-mg-one-click-deploy
Tome nota do nome do ponto final. Precisa dele para encontrar o ID do ponto final usado nos exemplos de código.
- Nome do modelo:
Na secção Definições de implementação:
Aceite a opção predefinida para as definições Básicas.
Para Região, aceite o valor predefinido ou escolha uma região na lista. Tome nota da região. Vai precisar dele para os exemplos de código.
Para Especificações da máquina, escolha a instância suportada pela TPU:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t)
.
Clique em Implementar. Quando a implementação estiver concluída, recebe um email que contém detalhes sobre o seu novo ponto final. Também pode ver os detalhes do ponto final clicando em Previsão online > Pontos finais e selecionando a sua região.
Faça inferência do Gemma 2B com o PredictionServiceClient
Depois de implementar o Gemma 2B, usa a PredictionServiceClient
para obter previsões online para o comando: "Porque é que o céu é azul?"
Parâmetros de código
Os PredictionServiceClient
exemplos de código requerem que atualize o seguinte.
PROJECT_ID
: para encontrar o ID do projeto, siga estes passos.Aceda à página Boas-vindas na Google Cloud consola.
No seletor de projetos na parte superior da página, selecione o seu projeto.
O nome do projeto, o número do projeto e o ID do projeto aparecem após o cabeçalho Bem-vindo.
ENDPOINT_REGION
: esta é a região onde implementou o ponto final.ENDPOINT_ID
: para encontrar o ID do ponto final, veja-o na consola ou execute o comandogcloud ai endpoints list
. Precisa do nome do ponto final e da região do painel Implementar modelo.Consola
Pode ver os detalhes do ponto final clicando em Previsão online > Pontos finais e selecionando a sua região. Tenha em atenção o número apresentado na coluna
ID
.gcloud
Pode ver os detalhes do ponto final executando o comando
gcloud ai endpoints list
.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
O resultado tem o seguinte aspeto.
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
Exemplo de código
No exemplo de código para o seu idioma, atualize os valores PROJECT_ID
, ENDPOINT_REGION
e ENDPOINT_ID
. Em seguida, execute o código.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
Node.js
Antes de experimentar este exemplo, siga as Node.jsinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Node.js Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Antes de experimentar este exemplo, siga as Javainstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Java Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Go
Antes de experimentar este exemplo, siga as Goinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Go Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.