Panoramica di TPU Cluster Director
TPU Cluster Director è progettato per offrirti un controllo diretto e basato sulla prenotazione degli acceleratori AI. Google Cloud Per Cloud TPU, le funzionalità di base di Cluster Director forniscono un nuovo livello di servizio che va oltre un'offerta multi-tenant per fornire capacità TPU fisicamente isolate:
- Capacità dedicata e fisicamente colocalizzata: ora offriamo prenotazioni di TPU dense e colocalizzate, che ti danno il controllo completo dell'hardware per prestazioni di rete e pianificazione dei carichi di lavoro ottimali.
- Manutenzione e controllo avanzati: hai il controllo preciso degli eventi di manutenzione, con la possibilità di scegliere come target VM, cubi, pod o intere prenotazioni specifici e di gestire la sequenza e il ritmo di questi eventi per ridurre al minimo l'impatto sull'attività.
- Pianificazione basata sulla topologia: ottieni una visione completa della topologia fisica, dell'integrità e dell'utilizzo dell'hardware, consentendo un posizionamento dei carichi di lavoro più intelligente e basato sul rendimento.
Le basi di Cluster Director sono completamente integrate con Google Kubernetes Engine. Questa integrazione offre diverse funzionalità per migliorare i carichi di lavoro di AI su larga scala:
- Maggiore efficienza, tolleranza agli errori e resilienza: fornisce un ambiente solido per attività di AI impegnative.
- Pool di nodi e posizionamento dei carichi di lavoro in base alla topologia. - Le prenotazioni dense collocate ti consentono di scegliere come target pod o cubi specifici. Ciò consente una pianificazione più granulare dei carichi di lavoro.
Con le basi di Cluster Director su GKE, puoi usufruire di un migliore utilizzo, prestazioni e scalabilità più elevate dei tuoi carichi di lavoro, di un throughput effettivo e un'affidabilità migliori e di un'osservabilità completa della capacità fisica (dagli host ai cluster GKE).
Le basi di TPUs Cluster Director su GKE sono disponibili tramite la nuova prenotazione in modalità All Capacity.
Modalità Tutta la capacità
In precedenza, la capacità TPU veniva offerta tramite una modalità "gestita", in cui Google sostituisce automaticamente qualsiasi macchina TPU difettosa, ma trattiene parte della capacità riservata per garantire che le sezioni TPU dispongano delle risorse necessarie per il riavvio. Google introduce ora una nuova modalità di capacità per le TPU nota come modalità "Tutta la capacità". In questa modalità di capacità, hai piena visibilità sulla topologia hardware TPU, sullo stato di utilizzo e sullo stato di integrità della capacità riservata. Hai anche accesso alla capacità riservata completa, ma sei responsabile della gestione degli errori e della manutenzione pianificata.
Le funzionalità principali della modalità Tutte le capacità includono:
- Controllo e visibilità completi: hai il controllo completo della capacità riservata e la piena visibilità dell'integrità e della topologia dell'hardware. Ciò significa che puoi visualizzare tutta la capacità disponibile, inclusi i ritardi, e gestire direttamente i guasti alle macchine.
- Capacità dedicata: puoi accedere a una capacità dedicata sempre disponibile per i tuoi workload AI. Con la piena capacità e senza riserve, ottieni una maggiore prevedibilità e un'allocazione più elevata, il che significa che puoi utilizzare ogni bit della capacità TPU riservata. Ora, la capacità di riserva è accessibile anche per eseguire i carichi di lavoro con priorità inferiore.
- Prestazioni ottimizzate: la modalità TPU All Capacity offre una co-locazione densa di grandi risorse di accelerazione con networking a latenza bassissima, il che è fondamentale per i workload ML e HPC su larga scala e strettamente accoppiati. L'architettura è ottimizzata per ottenere le massime prestazioni nei workload di addestramento e inferenza.
Generazioni di TPU supportate
La modalità e le funzionalità TPU All Capacity sono disponibili su Trillium (TPU v6e), TPU Ironwood (TPU7x) e sulle future generazioni di TPU. Il supporto delle generazioni precedenti di TPU non è pianificato.
Terminologia di TPU Cluster Director
I concetti di topologia di Cluster Director sono costituiti da quattro livelli: cluster, blocco, sottoblocco e host. Un cluster è un'unità di deployment Google di capacità TPU fisica in multipli di pod. Tutta la capacità TPU in un cluster si trova all'interno di una zona. Una prenotazione TPU nella modalità Tutta la capacità si trova sempre all'interno di un cluster. Per le TPU, il resto dei concetti di topologia viene mappato ai componenti fisici come mostrato nelle tabelle seguenti.
Trillium
| Concetti di topologia | Trillium | Core | Chip | Hosting |
|---|---|---|---|---|
| --- | Chip | 1 | 1 | N/D |
| Host | Host | 8 | 8 | 1 |
| Blocco secondario | Trillium Pod | 256 | 256 | 32 |
| Blocca | Più Trillium Pod (fino a 16) in una prenotazione | Fino a 4096 |
Fino a 4096 |
Fino a 512 |
| --- | Slices consentiti in un blocco secondario | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16 | ||
| --- | Una prenotazione può avere più blocchi e ogni blocco può avere da 1 a 16 Trillium Pod. | |||
Per saperne di più sulle dimensioni delle sezioni di Trillium, consulta Configurazioni supportate di Trillium.
Ironwood
| Concetti di topologia | Ironwood | Core | Chip | Hosting |
|---|---|---|---|---|
| --- | Chip | 2 | 1 | --- |
| Host | Host | 8 | 4 | 1 |
| SubBlock | Cubo | 128 | 64 | 16 |
| Blocca | Più cubi Ironwood fino a un pod completo | Fino a 9216 (144 cubi) | Fino a 2304 | |
| --- | Sezione consentita in un blocco: esempi | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e molti altri) | ||
| --- | Una prenotazione può includere uno o più cubi Ironwood, fino a un intero Ironwood Pod. |
Per ulteriori informazioni sulle dimensioni delle sezioni Ironwood, consulta Configurazioni supportate di TPUv7x.