Informazioni sulle TPU su Google Cloud

Le TPU (Tensor Processing Unit) sono circuiti integrati specifici per le applicazioni (ASIC) sviluppati da Google e progettati per accelerare i carichi di lavoro di machine learning (ML) e intelligenza artificiale (AI). Che tu stia addestrando modelli di base complessi per settimane o eseguendo inferenza su larga scala, le TPU offrono risorse di calcolo scalabili e specializzate ottimizzate per framework come JAX e PyTorch.

Le Cloud TPU sono progettate per gestire i carichi di lavoro di AI più impegnativi. I vantaggi principali includono:

  • Ottimizzazione per i calcoli matriciali: le TPU sono progettate in modo specifico con unità di moltiplicazione matriciale (MXU) per eseguire le operazioni matriciali di grandi dimensioni fondamentali per gli algoritmi di ML con un'efficienza eccezionale.

  • Memoria a elevata larghezza di banda (HBM): la memoria a elevata larghezza di banda su chip consente di addestrare e pubblicare modelli più grandi e di utilizzare in modo efficace dimensioni di batch più grandi.

  • Scalabilità elevata con le sezioni: i chip TPU possono essere collegati in gruppi chiamati sezioni. Le sezioni consentono ai carichi di lavoro di scalare fino a migliaia di chip TPU per job di addestramento di grandi dimensioni.

Quando utilizzare le TPU

Le TPU sono ottimizzate per carichi di lavoro specifici, ad esempio:

  • Modelli dominati da calcoli matriciali
  • Modelli senza operazioni PyTorch/JAX personalizzate all'interno del ciclo di addestramento principale
  • Modelli che si addestrano per settimane o mesi
  • Modelli di grandi dimensioni con dimensioni di batch effettive elevate
  • Modelli con incorporamenti di dimensioni molto grandi comuni nei carichi di lavoro di ranking e raccomandazione avanzati

Le TPU non sono adatte ai seguenti carichi di lavoro:

  • Programmi di algebra lineare che richiedono ramificazioni frequenti o contengono molte operazioni di algebra elemento per elemento
  • Carichi di lavoro che richiedono un'aritmetica di alta precisione
  • Carichi di lavoro di reti neurali che contengono operazioni personalizzate nel ciclo di addestramento principale

Opzioni di provisioning su Google Cloud

Puoi accedere ed eseguire il provisioning delle TPU utilizzando i seguenti Google Cloud prodotti a seconda delle tue esigenze operative.

Compute Engine

Compute Engine consente di creare e gestire singole VM TPU o sezioni, fornendo la funzionalità per la gestione completa del ciclo di vita delle VM TPU. Google consiglia di utilizzare Compute Engine anziché l'API Cloud TPU legacy per eseguire il provisioning delle risorse TPU.

Per saperne di più, consulta la pagina Risorse Cloud TPU in Compute Engine.

Google Kubernetes Engine

Google Kubernetes Engine (GKE) fornisce un ambiente Kubernetes multi-tenant completamente gestito per l'orchestrazione di carichi di lavoro di AI su larga scala. GKE supporta la gestione del ciclo di vita dei nodi TPU e dei pool di nodi, inclusa la creazione, la configurazione e l'eliminazione delle VM TPU.

Per saperne di più, consulta la pagina Informazioni sulle TPU in GKE.

Cloud TPU

L'API Cloud TPU, inclusa Google Cloud CLI e le librerie client Cloud per Cloud TPU, non è più in fase di sviluppo. Per il provisioning e la gestione delle risorse TPU, Google consiglia di utilizzare Compute Engine o GKE, in base alle esigenze di orchestrazione e carico di lavoro.

Per saperne di più, consulta la pagina Eseguire la migrazione dall'API Cloud TPU.

Versioni di TPU supportate in Compute Engine

Compute Engine supporta le seguenti versioni di TPU:

  • TPU7x (Ironwood)
  • TPU v6e (Trillium)
  • TPU v5p

Per saperne di più su ogni versione di TPU, consulta la pagina Macchine TPU.

Passaggi successivi