Questa pagina è stata tradotta dall'API Cloud Translation.

Gestisci un LLM utilizzando le TPU su GKE con JetStream e PyTorch

Autopilot Standard

Questa guida mostra come pubblicare un modello linguistico di grandi dimensioni (LLM) utilizzando le Tensor Processing Unit (TPU) su Google Kubernetes Engine (GKE) con JetStream tramite PyTorch. In questa guida scaricherai i pesi del modello in Cloud Storage ed eseguirai il deployment su un cluster GKE Autopilot o Standard utilizzando un container che esegue JetStream.

Se hai bisogno della scalabilità, della resilienza e dell'efficienza in termini di costi offerte dalle funzionalità di Kubernetes durante il deployment del modello su JetStream, questa guida è un buon punto di partenza.

Questa guida è rivolta ai clienti dell'AI generativa che utilizzano PyTorch, agli utenti nuovi o esistenti di GKE, agli ingegneri ML, agli ingegneri MLOps (DevOps) o agli amministratori della piattaforma interessati a utilizzare le funzionalità di orchestrazione dei container Kubernetes per la gestione degli LLM.

Sfondo

Se gestisci un LLM utilizzando le TPU su GKE con JetStream, puoi creare una soluzione di gestione solida e pronta per la produzione con tutti i vantaggi di Kubernetes gestito, tra cui efficienza dei costi, scalabilità e maggiore disponibilità. Questa sezione descrive le tecnologie chiave utilizzate in questo tutorial.

Informazioni sulle TPU

Le TPU sono circuiti integrati specifici per le applicazioni (ASIC) sviluppati da Google e utilizzati per accelerare i modelli di machine learning e AI creati utilizzando framework come TensorFlow, PyTorch e JAX.

Prima di utilizzare le TPU in GKE, ti consigliamo di completare il seguente percorso di apprendimento:

Scopri la disponibilità della versione attuale della TPU con l'architettura di sistema di Cloud TPU.
Scopri di più sulle TPU in GKE.

Questo tutorial illustra l'erogazione di vari modelli LLM. GKE esegue il deployment del modello su nodi TPUv5e a host singolo con topologie TPU configurate in base ai requisiti del modello per la gestione dei prompt con bassa latenza.

Informazioni su JetStream

JetStream è un framework open source per la pubblicazione di inferenze sviluppato da Google. JetStream consente un'inferenza ad alte prestazioni, ad alta velocità effettiva e ottimizzato per la memoria su TPU e GPU. JetStream offre ottimizzazioni avanzate delle prestazioni, tra cui batching continuo, ottimizzazioni della cache KV e tecniche di quantizzazione, per facilitare l'implementazione degli LLM. JetStream consente l'erogazione di PyTorch/XLA e JAX TPU per ottenere prestazioni ottimali.

Raggruppamento continuo

Il batch continuo è una tecnica che raggruppa dinamicamente le richieste di inferenza in entrata in batch, riducendo la latenza e aumentando la velocità effettiva.

Quantizzazione della cache KV

La quantizzazione della cache KV prevede la compressione della cache chiave-valore utilizzata nei meccanismi di attenzione, riducendo i requisiti di memoria.

Quantizzazione dei pesi Int8

La quantizzazione dei pesi Int8 riduce la precisione dei pesi del modello da virgola mobile a 32 bit a numeri interi a 8 bit, il che comporta un calcolo più rapido e un utilizzo della memoria ridotto.

Per scoprire di più su queste ottimizzazioni, consulta i repository dei progetti JetStream PyTorch e JetStream MaxText.

Informazioni su PyTorch

PyTorch è un framework di machine learning open source sviluppato da Meta e ora parte della Linux Foundation. PyTorch fornisce funzionalità di alto livello come il calcolo dei tensori e le reti neurali profonde.

Obiettivi

Prepara un cluster GKE Autopilot o Standard con la topologia TPU consigliata in base alle caratteristiche del modello.
Esegui il deployment dei componenti JetStream su GKE.
Recupera e pubblica il modello.
Pubblica e interagisci con il modello pubblicato.

Architettura

Questa sezione descrive l'architettura GKE utilizzata in questo tutorial. L'architettura include un cluster GKE Autopilot o Standard che esegue il provisioning delle TPU e ospita i componenti JetStream per eseguire il deployment e pubblicare i modelli.

Il seguente diagramma mostra i componenti di questa architettura:

Architettura del cluster GKE con node pool TPU a singolo host contenenti i componenti JetStream-PyTorch e JetStream HTTP.

Questa architettura include i seguenti componenti:

Un cluster regionale GKE Autopilot o Standard.
Due node pool di sezioni TPU single-host che ospitano il deployment di JetStream.
Il componente Service distribuisce il traffico in entrata a tutte le repliche JetStream HTTP.
JetStream HTTP è un server HTTP che accetta le richieste come wrapper per il formato richiesto di JetStream e le invia al client GRPC di JetStream.
JetStream-PyTorch è un server JetStream che esegue l'inferenza con il batch continuo.

Prima di iniziare

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Vai a IAM
2. Seleziona il progetto.
3. Fai clic su Concedi l'accesso.
4. Nel campo Nuove entità, inserisci il tuo identificatore dell'utente. In genere si tratta dell'indirizzo email di un Account Google.
5. Nell'elenco Seleziona un ruolo, seleziona un ruolo.
6. Per concedere altri ruoli, fai clic su Aggiungi un altro ruolo e aggiungi ogni ruolo successivo.
7. Fai clic su Salva.

Gestisci un LLM utilizzando le TPU su GKE con JetStream e PyTorch

Sfondo

Informazioni sulle TPU

Informazioni su JetStream

Informazioni su PyTorch

Obiettivi

Architettura

Prima di iniziare

Check for the roles

Grant the roles

Ottenere l'accesso al modello

Gemma 7B-it

Llama 3 8B

Prepara l'ambiente

Creare e configurare risorse Google Cloud

Crea un cluster GKE

Autopilot

Standard

Genera il token della CLI di Hugging Face in Cloud Shell

Crea un secret Kubernetes per le credenziali di Hugging Face

Configura l'accesso ai tuoi workload utilizzando Workload Identity Federation for GKE

Esegui il deployment di JetStream

Gemma 7B-it

Llama 3 8B

Pubblica il modello

Configurare il port forwarding

Interagisci con il modello utilizzando curl

Osserva le prestazioni del modello

Risoluzione dei problemi

Esegui la pulizia

Elimina le risorse di cui è stato eseguito il deployment

Passaggi successivi

Gestisci un LLM utilizzando le TPU su GKE con JetStream e PyTorch Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Sfondo

Informazioni sulle TPU

Informazioni su JetStream

Informazioni su PyTorch

Obiettivi

Architettura

Prima di iniziare

Check for the roles

Grant the roles

Ottenere l'accesso al modello

Gemma 7B-it

Llama 3 8B

Prepara l'ambiente

Creare e configurare risorse Google Cloud

Crea un cluster GKE

Autopilot

Standard

Genera il token della CLI di Hugging Face in Cloud Shell

Crea un secret Kubernetes per le credenziali di Hugging Face

Configura l'accesso ai tuoi workload utilizzando Workload Identity Federation for GKE

Esegui il deployment di JetStream

Gemma 7B-it

Llama 3 8B

Pubblica il modello

Configurare il port forwarding

Interagisci con il modello utilizzando curl

Osserva le prestazioni del modello

Risoluzione dei problemi

Esegui la pulizia

Elimina le risorse di cui è stato eseguito il deployment

Passaggi successivi

Gestisci un LLM utilizzando le TPU su GKE con JetStream e PyTorch