Questa pagina è stata tradotta dall'API Cloud Translation.

Gestisci un LLM utilizzando TPU Trillium su GKE con vLLM

Standard Autopilot

Questo tutorial mostra come pubblicare modelli linguistici di grandi dimensioni (LLM) utilizzando le unità di elaborazione tensoriale (TPU) su Google Kubernetes Engine (GKE) con il framework di pubblicazione vLLM. In questo tutorial, utilizzerai Llama 3.1 70b, userai TPU Trillium e configurerai la scalabilità automatica pod orizzontale utilizzando le metriche del server vLLM.

Questo documento è un buon punto di partenza se hai bisogno del controllo granulare, della scalabilità, della resilienza, della portabilità e dell'economicità di Kubernetes gestito quando esegui il deployment e gestisci i tuoi carichi di lavoro AI/ML.

Sfondo

Utilizzando TPU Trillium su GKE, puoi implementare una soluzione di serving affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito, tra cui scalabilità efficiente e maggiore disponibilità. Questa sezione descrive le tecnologie chiave utilizzate in questa guida.

TPU Trillium

Le TPU sono circuiti integrati specifici per le applicazioni (ASIC) sviluppati da Google. Le TPU vengono utilizzate per accelerare i modelli di machine learning e AI creati utilizzando framework come TensorFlow, PyTorch e JAX. Questo tutorial utilizza TPU Trillium, la TPU di sesta generazione di Google.

Prima di utilizzare le TPU in GKE, ti consigliamo di completare il seguente percorso di apprendimento:

Scopri di più sull'architettura di sistema di TPU Trillium.
Scopri di più sulle TPU in GKE.

vLLM

vLLM è un framework open source altamente ottimizzato per l'erogazione di LLM. vLLM può aumentare il throughput di erogazione sulle TPU, con funzionalità come le seguenti:

Implementazione ottimizzata del transformer con PagedAttention.
Batching continuo per migliorare la velocità effettiva complessiva della pubblicazione.
Parallelismo dei tensori e servizio distribuito su più TPU.

Per saperne di più, consulta la documentazione su vLLM.

Nota: questo tutorial si concentra sul deployment di vLLM in una configurazione a singolo host, ideale per i modelli che possono essere pubblicati da una singola slice TPU, come Llama 3.1 70b su un tipo di macchina ct6e-standard-8t. È importante notare che le configurazioni multi-host non sono supportate quando utilizzi vLLM con le TPU su GKE. La mancanza del supporto multi-host limita l'utilizzo di vLLM per la gestione di modelli estremamente grandi (ad esempio con oltre 400 miliardi di parametri) che richiedono la memoria e il calcolo aggregati di più host. Per i sistemi o i modelli di produzione che richiedono una configurazione multi-host, la soluzione consigliata e ottimizzata per il rendimento è utilizzare JetStream, il motore di Google per l'inferenza TPU. Per iniziare a utilizzare un deployment multi-host, consulta Inferenza JetStream MaxText su TPU v6e.

Cloud Storage FUSE

Cloud Storage FUSE fornisce l'accesso dal cluster GKE a Cloud Storage per i pesi del modello che si trovano nei bucket di archiviazione di oggetti. In questo tutorial, il bucket Cloud Storage creato inizialmente sarà vuoto. All'avvio di vLLM, GKE scarica il modello da Hugging Face e memorizza nella cache i pesi nel bucket Cloud Storage. Al riavvio del pod o all'aumento delle dimensioni del deployment, i carichi successivi del modello scaricheranno i dati memorizzati nella cache dal bucket Cloud Storage, sfruttando i download paralleli per prestazioni ottimali.

Per saperne di più, consulta la documentazione del driver CSI di Cloud Storage FUSE.

Obiettivi

Questo tutorial è rivolto a ingegneri MLOps o DevOps o amministratori di piattaforme che vogliono utilizzare le funzionalità di orchestrazione di GKE per pubblicare LLM.

Questo tutorial illustra i seguenti passaggi:

Crea un cluster GKE con la topologia TPU Trillium consigliata in base alle caratteristiche del modello.
Esegui il deployment del framework vLLM su un pool di nodi nel cluster.
Utilizza il framework vLLM per pubblicare Llama 3.1 70b utilizzando un bilanciatore del carico.
Configura la scalabilità automatica orizzontale dei pod utilizzando le metriche del server vLLM.
Pubblica il modello.

Prima di iniziare

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/iam.securityAdmin, roles/artifactregistry.writer, roles/container.clusterAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Vai a IAM
2. Seleziona il progetto.
3. Fai clic su Concedi l'accesso.
4. Nel campo Nuove entità, inserisci il tuo identificatore dell'utente. In genere si tratta dell'indirizzo email di un Account Google.
5. Nell'elenco Seleziona un ruolo, seleziona un ruolo.
6. Per concedere altri ruoli, fai clic su Aggiungi un altro ruolo e aggiungi ogni ruolo successivo.
7. Fai clic su Salva.

Gestisci un LLM utilizzando TPU Trillium su GKE con vLLM

Sfondo

TPU Trillium

vLLM

Cloud Storage FUSE

Obiettivi

Prima di iniziare

Check for the roles

Grant the roles

Prepara l'ambiente

Ottenere l'accesso al modello

Generare un token di accesso

Avvia Cloud Shell

Crea un cluster GKE

Autopilot

Standard

Configura kubectl per comunicare con il cluster

Crea un secret Kubernetes per le credenziali di Hugging Face

Crea un bucket Cloud Storage

Configura un service account Kubernetes per accedere al bucket

Esegui il deployment del server del modello vLLM

Pubblica il modello

Configura lo scalatore automatico personalizzato

Crea carico sull'endpoint vLLM

Verifica che Google Cloud Managed Service per Prometheus acquisisca le metriche

Esegui il deployment della configurazione di Horizontal Pod Autoscaler

Esegui la pulizia

Elimina le risorse di cui è stato eseguito il deployment

Passaggi successivi

Gestisci un LLM utilizzando TPU Trillium su GKE con vLLM Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Sfondo

TPU Trillium

vLLM

Cloud Storage FUSE

Obiettivi

Prima di iniziare

Check for the roles

Grant the roles

Prepara l'ambiente

Ottenere l'accesso al modello

Generare un token di accesso

Avvia Cloud Shell

Crea un cluster GKE

Autopilot

Standard

Configura kubectl per comunicare con il cluster

Crea un secret Kubernetes per le credenziali di Hugging Face

Crea un bucket Cloud Storage

Configura un service account Kubernetes per accedere al bucket

Esegui il deployment del server del modello vLLM

Pubblica il modello

Configura lo scalatore automatico personalizzato

Crea carico sull'endpoint vLLM

Verifica che Google Cloud Managed Service per Prometheus acquisisca le metriche

Esegui il deployment della configurazione di Horizontal Pod Autoscaler

Esegui la pulizia

Elimina le risorse di cui è stato eseguito il deployment

Passaggi successivi

Gestisci un LLM utilizzando TPU Trillium su GKE con vLLM