Servir modelos de código abierto mediante TPUs en GKE con Optimum TPU

Estándar

En este tutorial se muestra cómo servir modelos de código abierto de modelos de lenguaje grandes (LLMs) mediante unidades de procesamiento tensorial (TPUs) en Google Kubernetes Engine (GKE) con el framework de servicio Optimum TPU de Hugging Face. En este tutorial, descargarás modelos de código abierto de Hugging Face y los desplegarás en un clúster Standard de GKE mediante un contenedor que ejecute Optimum TPU.

Esta guía proporciona un punto de partida si necesitas el control granular, la escalabilidad, la resiliencia, la portabilidad y la rentabilidad de Kubernetes gestionado al desplegar y servir tus cargas de trabajo de IA o aprendizaje automático.

Este tutorial está dirigido a clientes de IA generativa del ecosistema de Hugging Face, usuarios nuevos o actuales de GKE, ingenieros de aprendizaje automático, ingenieros de MLOps (DevOps) o administradores de plataformas que estén interesados en usar las funciones de orquestación de contenedores de Kubernetes para ofrecer LLMs.

Te recordamos que tienes varias opciones para la inferencia de LLMs en Google Cloud, que abarcan ofertas como Vertex AI, GKE y Google Compute Engine, donde puedes incorporar bibliotecas de servicio como JetStream, vLLM y otras ofertas de partners. Por ejemplo, puedes usar JetStream para obtener las últimas optimizaciones del proyecto. Si prefieres las opciones de Hugging Face, puedes usar Optimum TPU.

Optimum TPU admite las siguientes funciones:

Procesamiento por lotes continuo
Transmisión de tokens
Búsqueda voraz y muestreo multinomial con transformadores.

Objetivos

Prepara un clúster de GKE Standard con la topología de TPU recomendada en función de las características del modelo.
Despliega Optimum TPU en GKE.
Usa Optimum TPU para servir los modelos admitidos a través de curl.

Antes de empezar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Ir a Gestión de Identidades y Accesos
2. Selecciona el proyecto.
3. Haz clic en Conceder acceso.
4. En el campo Nuevos principales, introduce tu identificador de usuario. Normalmente, se trata de la dirección de correo de una cuenta de Google.
5. Haz clic en Selecciona un rol y busca el rol.
6. Para conceder más roles, haz clic en Añadir otro rol y añade cada rol adicional.
7. Haz clic en Guardar.

Servir modelos de código abierto mediante TPUs en GKE con Optimum TPU

Objetivos

Antes de empezar

Check for the roles

Grant the roles

Preparar el entorno

Acceder al modelo

Gemma 2B

Generar un token de acceso

Llama3 8B

Generar un token de acceso

Crear un clúster de GKE

Crear un grupo de nodos de TPU

Configura kubectl para que se comunique con tu clúster:

Compila el contenedor

Enviar la imagen a Artifact Registry

Crear un secreto de Kubernetes para las credenciales de Hugging Face

Implementar Optimum TPU

Gemma 2B

Llama3 8B

Aplicar el modelo

Interactuar con el servidor de modelos mediante curl

Limpieza

Eliminar los recursos desplegados

Siguientes pasos

Servir modelos de código abierto mediante TPUs en GKE con Optimum TPU Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Objetivos

Antes de empezar

Check for the roles

Grant the roles

Preparar el entorno

Acceder al modelo

Gemma 2B

Firmar el contrato de consentimiento de licencia

Generar un token de acceso

Llama3 8B

Generar un token de acceso

Crear un clúster de GKE

Crear un grupo de nodos de TPU

Configura kubectl para que se comunique con tu clúster:

Compila el contenedor

Enviar la imagen a Artifact Registry

Crear un secreto de Kubernetes para las credenciales de Hugging Face

Implementar Optimum TPU

Gemma 2B

Llama3 8B

Aplicar el modelo

Interactuar con el servidor de modelos mediante curl

Limpieza

Eliminar los recursos desplegados

Siguientes pasos

Servir modelos de código abierto mediante TPUs en GKE con Optimum TPU