Se usó la API de Cloud Translation para traducir esta página.

Entrega un LLM con TPU en GKE con JetStream y PyTorch

Autopilot estándar

En esta guía, se muestra cómo entregar un modelo de lenguaje grande (LLM) que usa unidades de procesamiento tensorial (TPU) en Google Kubernetes Engine (GKE) con JetStream a través de PyTorch. En esta guía, descargarás ponderaciones de modelos en Cloud Storage y, luego, las implementarás en un clúster de Autopilot o Standard de GKE con un contenedor que ejecute JetStream.

Si necesitas la escalabilidad, la resiliencia y la rentabilidad que ofrecen las funciones de Kubernetes cuando implementas tu modelo en JetStream, esta guía es un buen punto de partida.

Esta guía está dirigida a clientes de IA generativa que usan PyTorch, usuarios nuevos o existentes de GKE, ingenieros de AA, ingenieros de MLOps (DevOps) o administradores de plataformas interesados en usar las funciones de organización de contenedores de Kubernetes para entrega de LLM.

Antecedentes

Con la entrega de un LLM con TPU en GKE con JetStream, puedes compilar una solución de entrega sólida y lista para la producción con todos los beneficios de Kubernetes administrado, incluida la rentabilidad, escalabilidad y disponibilidad mayor. En esta sección, se describen las tecnologías clave que se usan en este instructivo.

Acerca de las TPU

Las TPU son circuitos integrados personalizados específicos de aplicaciones (ASIC) de Google que se usan para acelerar el aprendizaje automático y los modelos de IA compilados con frameworks como el siguiente:TensorFlow, PyTorch yJAX.

Antes de usar las TPU en GKE, te recomendamos que completes la siguiente ruta de aprendizaje:

Obtén información sobre la disponibilidad actual de la versión de TPU con la arquitectura del sistema de Cloud TPU.
Obtén información sobre las TPU en GKE.

En este instructivo, se aborda la entrega de varios modelos de LLM. GKE implementa el modelo en los nodos TPUv5e de host único con topologías de TPU configuradas según los requisitos del modelo para entregar mensajes con baja latencia.

Acerca de JetStream

JetStream es un framework de entrega de inferencia de código abierto que desarrolla Google. JetStream permite la inferencia de alto rendimiento, alta capacidad de procesamiento y con optimización de memoria en TPU y GPU. JetStream proporciona optimizaciones de rendimiento avanzadas, incluidas técnicas de procesamiento por lotes, optimizaciones de la caché de KV y de cuantización continuas, para facilitar la implementación de LLM. JetStream permite que PyTorch/XLA y JAX TPU entreguen un rendimiento óptimo.

Agrupación en lotes continua

El procesamiento por lotes continuo es una técnica que agrupa de forma dinámica las solicitudes de inferencia entrantes en lotes, lo que reduce la latencia y aumenta la capacidad de procesamiento.

Cuantización de la caché de KV

La cuantización de la caché de par clave-valor implica comprimir la caché de par clave-valor que se usa en los mecanismos de atención, lo que reduce los requisitos de memoria.

Cuantización del peso en Int8

La cuantización del peso de Int8 reduce la precisión de los pesos del modelo de punto flotante de 32 bits a números enteros de 8 bits, lo que permite un procesamiento más rápido y un uso de memoria reducido.

Para obtener más información sobre estas optimizaciones, consulta los repositorios de proyectos de JetStream PyTorch y JetStream MaxText.

Acerca de PyTorch

PyTorch es un framework de aprendizaje automático de código abierto desarrollado por Meta y ahora parte del paraguas de la Linux Foundation. PyTorch proporciona funciones de alto nivel, como el procesamiento de tensores y las redes neuronales profundas.

Objetivos

Prepara un clúster de GKE en modo Autopilot o Estándar con la topología de TPU recomendada según las características del modelo.
Implementa componentes de JetStream en GKE.
Obtén y publica tu modelo.
Entrega el modelo publicado y, luego, interactúa con él.

Arquitectura

En esta sección, se describe la arquitectura de GKE que se usa en este instructivo. La arquitectura consta de un clúster de GKE en modo Autopilot o Standard que aprovisiona TPU y aloja componentes de JetStream para implementar y entregar los modelos.

En el siguiente diagrama, se muestran los componentes de esta arquitectura:

Arquitectura del clúster de GKE con grupos de nodos TPU de host único que contienen los componentes HTTP de JetStream-PyTorch y JetStream.

Esta arquitectura incluye los siguientes componentes:

Un clúster regional de GKE en modo Autopilot o Estándar.
Dos grupos de nodos de porción de TPU de host único que alojan la implementación de JetStream.
El componente de Service distribuye el tráfico entrante a todas las réplicas de JetStream HTTP.
JetStream HTTP es un servidor HTTP que acepta solicitudes como wrapper del formato requerido de JetStream y las envía al cliente GRPC de JetStream.
JetStream-PyTorch es un servidor de JetStream que ejecuta inferencias con procesamiento por lotes continuo.

Antes de comenzar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Ir a IAM
2. Selecciona el proyecto.
3. Haz clic en Otorgar acceso.
4. En el campo Principales nuevas, ingresa tu identificador de usuario. Esta suele ser la dirección de correo electrónico de una Cuenta de Google.
5. En la lista Seleccionar un rol, elige uno.
6. Para otorgar roles adicionales, haz clic en Agregar otro rol y agrega uno más.
7. Haz clic en Guardar.

Entrega un LLM con TPU en GKE con JetStream y PyTorch

Antecedentes

Acerca de las TPU

Acerca de JetStream

Acerca de PyTorch

Objetivos

Arquitectura

Antes de comenzar

Check for the roles

Grant the roles

Obtén acceso al modelo

Gemma 7B-it

Llama 3 8B

Prepare el entorno

Crea y configura recursos de Google Cloud

Crea un clúster de GKE

Autopilot

Estándar

Genera tu token de CLI de Hugging Face en Cloud Shell

Crea un secreto de Kubernetes para las credenciales de Hugging Face

Configura el acceso a tus cargas de trabajo mediante la federación de identidades para cargas de trabajo para GKE

Implementa JetStream

Gemma 7B-it

Llama 3 8B

Entrega el modelo

Configura la redirección de puertos

Interactúa con el modelo con curl

Observa el rendimiento del modelo

Soluciona problemas

Realiza una limpieza

Borra los recursos implementados

¿Qué sigue?

Entrega un LLM con TPU en GKE con JetStream y PyTorch Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Antecedentes

Acerca de las TPU

Acerca de JetStream

Acerca de PyTorch

Objetivos

Arquitectura

Antes de comenzar

Check for the roles

Grant the roles

Obtén acceso al modelo

Gemma 7B-it

Llama 3 8B

Prepare el entorno

Crea y configura recursos de Google Cloud

Crea un clúster de GKE

Autopilot

Estándar

Genera tu token de CLI de Hugging Face en Cloud Shell

Crea un secreto de Kubernetes para las credenciales de Hugging Face

Configura el acceso a tus cargas de trabajo mediante la federación de identidades para cargas de trabajo para GKE

Implementa JetStream

Gemma 7B-it

Llama 3 8B

Entrega el modelo

Configura la redirección de puertos

Interactúa con el modelo con curl

Observa el rendimiento del modelo

Soluciona problemas

Realiza una limpieza

Borra los recursos implementados

¿Qué sigue?

Entrega un LLM con TPU en GKE con JetStream y PyTorch