Informazioni sul sezionamento dinamico di GKE

Questo documento descrive il sezionamento dinamico in Google Kubernetes Engine (GKE). Il sezionamento dinamico ti consente di configurare i sottoblocchi TPU di cui è stato eseguito il provisioning in topologie diverse. Questa funzionalità riduce la necessità di ricreare i node pool, migliora la tolleranza agli errori consentendo il ripristino automatico in caso di errore e ottimizza l'utilizzo delle risorse.

Il sezionamento dinamico è destinato agli ingegneri AI/ML e agli amministratori di piattaforme che vogliono ottimizzare l'utilizzo delle TPU, ridurre i tempi di provisioning e migliorare la tolleranza agli errori per i carichi di lavoro di addestramento e inferenza su larga scala.

Prima di leggere questo documento, devi avere familiarità con quanto segue:

Che cos'è il sezionamento dinamico?

Il sezionamento dinamico offre flessibilità nella gestione della capacità Cloud TPU consentendoti di disaccoppiare il provisioning delle TPU. Il sezionamento dinamico prevede la seguente procedura:

  1. Eseguire il provisioning delle risorse come unità più piccole: esegui il provisioning delle risorse come unità chiamate sottoblocchi. Un sottoblocco è l'unità di base logica della capacità di Ironwood (TPU7x). Per Ironwood (TPU7x), un sottoblocco rappresenta un gruppo di 16 nodi di VM TPU con una topologia 4x4x4 di chip TPU interconnessi. Nel contesto della modalità Capacità TPU e del sezionamento dinamico, un pool di nodi viene mappato direttamente a un sottoblocco.
  2. Unire i sottoblocchi: il sezionamento dinamico unisce questi sottoblocchi in sezioni più grandi.

Vantaggi del sezionamento dinamico

Il sezionamento dinamico ti aiuta a:

  • Ridurre il tempo di provisioning: il provisioning individuale dei sottoblocchi porta a un provisioning complessivo più rapido perché riduce al minimo l'impatto di un singolo errore.
  • Ridurre il tempo di recupero: se si verifica un errore del chip TPU, l'unità di errore più piccola è un sottoblocco. Il sezionamento dinamico isola i sottoblocchi difettosi in modo che i carichi di lavoro possano essere ripianificati più rapidamente sui sottoblocchi integri rispetto al riprovisioning di un'intera sezione di grandi dimensioni.
  • Rimodellare la capacità: se hai requisiti di carico di lavoro diversi, non devi eliminare e ricreare i node pool per le modifiche della topologia. Puoi invece riconfigurare dinamicamente i node pool di cui è stato eseguito il provisioning in modo che corrispondano alle forme specificate.

Elementi chiave del sezionamento dinamico

Il sezionamento dinamico introduce i seguenti concetti chiave:

  • Provisioning incrementale dei node pool: il sezionamento dinamico utilizza il provisioning incrementale, un modello di provisioning dei node pool a tolleranza di errore. Questo modello converte tutta la capacità TPU in node pool di gruppi di 16 nodi di VM TPU.
  • Controller di sezioni: un controller di risorse personalizzate Kubernetes in esecuzione all'interno di l control plane GKE che gestisce il sezionamento dinamico. Il controller di sezioni gestisce il ciclo di vita di una risorsa personalizzata Sezione, che rappresenta una sezione dinamica. Il controller di sezioni gestisce la creazione, il monitoraggio continuo e l'eliminazione della sezione. Quando utilizzi uno scheduler, quest'ultimo gestisce la creazione e l'eliminazione della risorsa personalizzata Sezione.
  • Risorsa personalizzata Sezione: unisce dinamicamente i sottoblocchi in base alla topologia TPU richiesta. Questo processo si basa sulla riconfigurazione dinamica della rete OCS per connettere i node pool TPU, il che contribuisce a garantire prestazioni ottimizzate. Puoi controllare l'avanzamento o l'integrità della formazione della sezione dinamica esaminando i campi di stato della risorsa personalizzata Sezione.

Scheduler per il sezionamento dinamico

Puoi configurare Kueue e la pianificazione con riconoscimento della topologia (TAS) per creare automaticamente una risorsa personalizzata Sezione. Puoi anche utilizzare il tuo scheduler per gestire le risorse personalizzate Sezione.

Passaggi successivi