Publique MDIs abertos no GKE usando TPUs com uma arquitetura pré-configurada

Autopilot Padrão

Esta página mostra como implementar e publicar rapidamente modelos de idiomas (LLMs) grandes e abertos populares no GKE com TPUs para inferência através de uma arquitetura de referência de inferência do GKE pré-configurada e pronta para produção. Esta abordagem usa a infraestrutura como código (IaC), com o Terraform envolvido em scripts da CLI, para criar um ambiente do GKE padronizado, seguro e escalável concebido para cargas de trabalho de inferência de IA.

Neste guia, implementa e publica MDIs com nós de TPU de anfitrião único no GKE com a framework de publicação vLLM. Este guia fornece instruções e configurações para implementar os seguintes modelos abertos:

Este guia destina-se a engenheiros de aprendizagem automática (ML) e especialistas em dados e IA que tenham interesse em explorar as capacidades de orquestração de contentores do Kubernetes para publicar modelos abertos para inferência. Para saber mais sobre as funções comuns e as tarefas de exemplo referidas no conteúdo, consulte o artigo Funções e tarefas comuns do utilizador do GKE. Google Cloud

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Make sure that you have the following role or roles on the project: roles/artifactregistry.admin, roles/browser, roles/compute.networkAdmin, roles/container.clusterAdmin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin, and roles/serviceusage.serviceUsageAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Aceder ao IAM
2. Selecione o projeto.
3. Clique em Conceder acesso.
4. No campo Novos responsáveis, introduza o identificador do utilizador. Normalmente, este é o endereço de email de uma Conta Google.
5. Clique em Selecionar uma função e, de seguida, pesquise a função.
6. Para conceder funções adicionais, clique em Adicionar outra função e adicione cada função adicional.
7. Clique em Guardar.

Publique MDIs abertos no GKE usando TPUs com uma arquitetura pré-configurada

Antes de começar

Check for the roles

Grant the roles

Aceda ao modelo

Aprovisione o ambiente de inferência do GKE

Inicie o Cloud Shell

Implemente a arquitetura base

Piloto automático

Standard

Implemente um modelo aberto

Selecione um modelo

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 27B-it

Transfira o modelo

Implemente o modelo

Teste a implementação

Limpar

Piloto automático

Standard

O que se segue?

Publique MDIs abertos no GKE usando TPUs com uma arquitetura pré-configurada Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Check for the roles

Grant the roles

Aceda ao modelo

Aprovisione o ambiente de inferência do GKE

Inicie o Cloud Shell

Implemente a arquitetura base

Piloto automático

Standard

Implemente um modelo aberto

Selecione um modelo

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 27B-it

Transfira o modelo

Implemente o modelo

Teste a implementação

Limpar

Piloto automático

Standard

O que se segue?

Publique MDIs abertos no GKE usando TPUs com uma arquitetura pré-configurada