Gestire le risorse TPU
Questa pagina descrive come elencare, arrestare, avviare, eliminare e connettersi alle VM TPU.
Prerequisiti
Prima di eseguire queste procedure, completa i seguenti passaggi:
Crea un Google Cloud progetto per le tue TPU come descritto in Configura un Google Cloud progetto per le TPU.
Determina i requisiti della TPU come descritto in Pianificare le risorse Cloud TPU.
Crea una VM TPU come descritto in Crea una VM TPU.
Se utilizzi una delle librerie client di Cloud, segui le istruzioni di configurazione per la lingua che utilizzi:
Configura le variabili di ambiente.
export TPU_NAME=your-tpu-name export ZONE=your-zone
Connettiti a una Cloud TPU
Puoi connetterti a una Cloud TPU utilizzando SSH.
Se non riesci a connetterti a una VM TPU tramite SSH, è possibile che la VM TPU non abbia un indirizzo IP esterno. Per accedere a una VM TPU senza un indirizzo IP esterno, segui le istruzioni riportate in Connettiti a una VM TPU senza un indirizzo IP pubblico.
gcloud
Connettiti alla Cloud TPU tramite SSH:
$ gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$ZONE
Quando richiedi una sezione più grande di un singolo host, Cloud TPU crea una VM TPU per ogni host. Il numero di chip TPU per host dipende dalla versione di TPU.
Per installare i file binari o eseguire il codice, connettiti a ogni VM TPU utilizzando
il tpu-vm ssh comando.
$ gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$ZONE
Per connetterti a una VM TPU specifica
utilizzando SSH, utilizza il flag --worker con un indice basato su 0:
$ gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$ZONE --worker=1
Per eseguire un comando su tutte le VM TPU, utilizza i flag --worker=all e --command:
$ gcloud compute tpus tpu-vm ssh $TPU_NAME \ --zone=$ZONE \ --worker=all \ --command='pip install "jax[tpu]==0.4.20" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Per Multislice, puoi eseguire un comando su una singola VM utilizzando il nome TPU enumerato, con il prefisso di ogni slice e il numero aggiunto. Per
eseguire un comando su tutte le VM TPU in tutte le sezioni, utilizza i flag --node=all, --worker=all e --command, con un flag --batch-size facoltativo.
$ gcloud compute tpus queued-resources ssh your-queued-resource-id \ --zone=$ZONE \ --node=all \ --worker=all \ --command='pip install jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html' \ --batch-size=4
Quando ti connetti alle VM utilizzando Google Cloud CLI, Compute Engine crea una chiave SSH permanente.
Console
Per connetterti alle TPU nella console Google Cloud , utilizza SSH nel browser:
Nella console Google Cloud , vai alla pagina TPU:
Nell'elenco delle VM TPU, fai clic su SSH nella riga della VM TPU a cui vuoi connetterti.
Quando ti connetti alle VM TPU utilizzando la console Google Cloud , Compute Engine crea una chiave SSH temporanea.
Elenca le risorse Cloud TPU
Puoi elencare tutte le risorse Cloud TPU in una zona specificata.
gcloud
$ gcloud compute tpus tpu-vm list --zone=$ZONE
Console
Nella console Google Cloud , vai alla pagina TPU:
Java
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Recupera le informazioni su Cloud TPU
Puoi recuperare informazioni su una Cloud TPU specifica.
gcloud
$ gcloud compute tpus tpu-vm describe $TPU_NAME \ --zone=$ZONE
Console
Nella console Google Cloud , vai alla pagina TPU:
Fai clic sul nome della tua Cloud TPU. La console mostra la pagina dei dettagli di Cloud TPU.
Java
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Arresta le risorse Cloud TPU
Puoi arrestare una singola Cloud TPU per evitare addebiti senza perdere la configurazione e il software della VM.
L'API risorse in coda non supporta l'arresto di slice TPU o TPU. Per interrompere l'addebito per le TPU allocate tramite l'API Queued Resources, elimina la TPU.
gcloud
$ gcloud compute tpus tpu-vm stop $TPU_NAME \ --zone=$ZONE
Console
Nella console Google Cloud , vai alla pagina TPU:
Seleziona la casella di controllo accanto alla tua Cloud TPU.
Fai clic su Arresta.
Java
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Avviare le risorse Cloud TPU
Puoi avviare una Cloud TPU arrestata.
L'API risorse in coda non supporta l'avvio di TPU Pod o TPU.
gcloud
$ gcloud compute tpus tpu-vm start $TPU_NAME \ --zone=$ZONE
Console
Nella console Google Cloud , vai alla pagina TPU:
Seleziona la casella di controllo accanto alla tua Cloud TPU.
Fai clic su Avvia.
Java
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Elimina una Cloud TPU
Elimina le sezioni della VM TPU dopo la sessione.
gcloud
$ gcloud compute tpus tpu-vm delete $TPU_NAME \ --zone=$ZONE \ --quiet
Descrizioni dei flag dei comandi
zone: la zona in cui prevedi di eliminare Cloud TPU.quiet: disattiva tutte le richieste interattive durante l'esecuzione dei comandi dell'interfaccia a riga di comando gcloud CLI.
Console
Nella console Google Cloud , vai alla pagina TPU:
Seleziona la casella di controllo accanto alla tua Cloud TPU.
Fai clic su Elimina.
Java
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per eseguire l'autenticazione in Cloud TPU, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Passaggi successivi
- Scopri come configurare la rete e l'accesso a Cloud TPU
- Scopri di più sulle risorse in coda.
- Scopri di più sulle TPU in GKE.
- Scopri come eseguire il codice JAX su una VM TPU.
- Scopri come eseguire il codice PyTorch su una VM TPU.
- Scopri come eseguire un workload di ML sulle TPU: Eroga Qwen2-72B-Instruct con vLLM sulle TPU.