Se usó la API de Cloud Translation para traducir esta página.

Entrega LLMs abiertos en GKE con TPU y una arquitectura preconfigurada

Autopilot estándar

En esta página, se muestra cómo implementar y entregar rápidamente modelos de lenguaje grandes (LLM) abiertos populares en GKE con TPU para la inferencia con una arquitectura de referencia de inferencia de GKE preconfigurada y lista para producción. Este enfoque usa infraestructura como código (IaC), con Terraform encapsulado en secuencias de comandos de CLI, para crear un entorno de GKE estandarizado, seguro y escalable diseñado para cargas de trabajo de inferencia basadas en IA.

En esta guía, implementarás y entregarás LLMs con nodos de TPU de host único en GKE con el framework de entrega de vLLM. En esta guía, se proporcionan instrucciones y configuraciones para implementar los siguientes modelos abiertos:

Esta guía está dirigida a ingenieros de aprendizaje automático (AA) y especialistas en datos y en IA que estén interesados en explorar las capacidades de organización de contenedores de Kubernetes para entregar modelos abiertos para la inferencia. Para obtener más información sobre los roles comunes y las tareas de ejemplo a las que se hace referencia en el contenido de Google Cloud , consulta Roles y tareas comunes de los usuarios de GKE.

Antes de comenzar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Make sure that you have the following role or roles on the project: roles/artifactregistry.admin, roles/browser, roles/compute.networkAdmin, roles/container.clusterAdmin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin, and roles/serviceusage.serviceUsageAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Ir a IAM
2. Selecciona el proyecto.
3. Haz clic en Otorgar acceso.
4. En el campo Principales nuevas, ingresa tu identificador de usuario. Esta suele ser la dirección de correo electrónico de una Cuenta de Google.
5. En la lista Seleccionar un rol, elige uno.
6. Para otorgar roles adicionales, haz clic en Agregar otro rol y agrega uno más.
7. Haz clic en Guardar.

Entrega LLMs abiertos en GKE con TPU y una arquitectura preconfigurada

Antes de comenzar

Check for the roles

Grant the roles

Obtén acceso al modelo

Aprovisiona el entorno de inferencia de GKE

Inicia Cloud Shell

Implementa la arquitectura base

Autopilot

Estándar

Implementa un modelo abierto

Seleccionar un modelo

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 27B-it

Descarga el modelo

Implementa el modelo

Prueba tu implementación

Realiza una limpieza

Autopilot

Standard

¿Qué sigue?

Entrega LLMs abiertos en GKE con TPU y una arquitectura preconfigurada Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Antes de comenzar

Check for the roles

Grant the roles

Obtén acceso al modelo

Aprovisiona el entorno de inferencia de GKE

Inicia Cloud Shell

Implementa la arquitectura base

Autopilot

Estándar

Implementa un modelo abierto

Seleccionar un modelo

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 27B-it

Descarga el modelo

Implementa el modelo

Prueba tu implementación

Realiza una limpieza

Autopilot

Standard

¿Qué sigue?

Entrega LLMs abiertos en GKE con TPU y una arquitectura preconfigurada