Se usó la API de Cloud Translation para traducir esta página.

Entrega modelos de código abierto con TPUs en GKE con Optimum TPU

Estándar

En este instructivo, se muestra cómo entregar modelos de código abierto de modelos de lenguaje grandes (LLM) con unidades de procesamiento tensorial (TPU) en Google Kubernetes Engine (GKE) con el framework de entrega Optimum TPU desde Hugging Face. En este instructivo, descargarás modelos de código abierto de Hugging Face y los implementarás en un clúster Standard de GKE con un contenedor que ejecute Optimum TPU.

Esta guía proporciona un punto de partida si necesitas el control detallado, la escalabilidad, la resiliencia, la portabilidad y la rentabilidad de Kubernetes administrado cuando implementas y entregas tus cargas de trabajo de IA/AA.

Este instructivo está dirigido a clientes de IA generativa en el ecosistema de Hugging Face, usuarios nuevos o existentes de GKE, ingenieros de AA, ingenieros de MLOps (DevOps) o administradores de plataformas interesados en usar las funciones de organización de contenedores de Kubernetes para entrega de LLM.

Como recordatorio, tienes varias opciones para la inferencia de LLM en Google Cloud, que abarcan ofertas como Vertex AI, GKE y Google Compute Engine, en las que puedes incorporar bibliotecas de servicio como JetStream, vLLM y otras ofertas de socios. Por ejemplo, puedes usar JetStream para obtener las optimizaciones más recientes del proyecto. Si prefieres las opciones de Hugging Face, puedes usar Optimum TPU.

La TPU óptima admite las siguientes funciones:

Procesamiento por lotes continuo
Transmisión de tokens
Búsqueda voraz y muestreo multinomial con transformadores.

Objetivos

Prepara un clúster estándar de GKE con la topología de TPU recomendada según las características del modelo.
Implementa Optimum TPU en GKE.
Usa Optimum TPU para entregar los modelos compatibles a través de curl.

Antes de comenzar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Ir a IAM
2. Selecciona el proyecto.
3. Haz clic en Otorgar acceso.
4. En el campo Principales nuevas, ingresa tu identificador de usuario. Esta suele ser la dirección de correo electrónico de una Cuenta de Google.
5. En la lista Seleccionar un rol, elige uno.
6. Para otorgar roles adicionales, haz clic en Agregar otro rol y agrega uno más.
7. Haz clic en Guardar.

Entrega modelos de código abierto con TPUs en GKE con Optimum TPU

Objetivos

Antes de comenzar

Check for the roles

Grant the roles

Prepare el entorno

Obtén acceso al modelo

Gemma 2B

Genera un token de acceso

Llama3 8B

Genera un token de acceso

Cree un clúster de GKE

Crea un grupo de nodos TPU

Configura kubectl para comunicarse con tu clúster:

Compile el contenedor

Envía la imagen al registro de Artifact Registry.

Crea un secreto de Kubernetes para las credenciales de Hugging Face

Implementa Optimum TPU

Gemma 2B

Llama3 8B

Entrega el modelo

Interactúa con el modelo con curl

Limpia

Borra los recursos implementados

¿Qué sigue?

Entrega modelos de código abierto con TPUs en GKE con Optimum TPU Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Objetivos

Antes de comenzar

Check for the roles

Grant the roles

Prepare el entorno

Obtén acceso al modelo

Gemma 2B

Firma el acuerdo de consentimiento de licencia

Genera un token de acceso

Llama3 8B

Genera un token de acceso

Cree un clúster de GKE

Crea un grupo de nodos TPU

Configura kubectl para comunicarse con tu clúster:

Compile el contenedor

Envía la imagen al registro de Artifact Registry.

Crea un secreto de Kubernetes para las credenciales de Hugging Face

Implementa Optimum TPU

Gemma 2B

Llama3 8B

Entrega el modelo

Interactúa con el modelo con curl

Limpia

Borra los recursos implementados

¿Qué sigue?

Entrega modelos de código abierto con TPUs en GKE con Optimum TPU