Informazioni sul sezionamento dinamico di GKE

Questo documento descrive il slicing dinamico in Google Kubernetes Engine (GKE). Il slicing dinamico ti consente di configurare i sotto-blocchi TPU di cui è stato eseguito il provisioning in topologie diverse. Questa funzionalità riduce la necessità di ricreare i node pool, migliora la tolleranza agli errori consentendo il ripristino automatico in caso di errore e ottimizza l'utilizzo delle risorse.

Il slicing dinamico è destinato agli ingegneri AI/ML e agli amministratori di piattaforme che vogliono ottimizzare l'utilizzo delle TPU, ridurre i tempi di provisioning e migliorare la tolleranza agli errori per i carichi di lavoro di addestramento e inferenza su larga scala.

Prima di leggere questo documento, devi avere familiarità con quanto segue:

Che cos'è il slicing dinamico?

Il slicing dinamico offre flessibilità nella gestione della capacità Cloud TPU consentendoti di disaccoppiare il provisioning delle TPU. Il slicing dinamico prevede la seguente procedura:

  1. Eseguire il provisioning delle risorse come unità più piccole: esegui il provisioning delle risorse come unità chiamate sotto-blocchi. Un sotto-blocco è l'unità di base logica della capacità di Ironwood (TPU7x). Per Ironwood (TPU7x), un sotto-blocco rappresenta un gruppo di 16 nodi di VM TPU con una topologia 4x4x4 di chip TPU interconnessi. Nel contesto della modalità Capacità totale TPU e del slicing dinamico, un pool di nodi viene mappato direttamente a un sotto-blocco.
  2. Unire i sotto-blocchi: il slicing dinamico unisce questi sotto-blocchi in sezioni più grandi.

Vantaggi del slicing dinamico

Il slicing dinamico ti aiuta a:

  • Ridurre il tempo di provisioning: il provisioning individuale dei sotto-blocchi comporta un provisioning complessivo più rapido perché riduce al minimo l'impatto di un singolo errore.
  • Ridurre il tempo di ripristino: se si verifica un errore del chip TPU, l'unità di errore più piccola è un sotto-blocco. Il slicing dinamico isola i sotto-blocchi difettosi in modo che i carichi di lavoro possano essere ripianificati più rapidamente sui sotto-blocchi integri rispetto al riprovisioning di un'intera sezione di grandi dimensioni.
  • Rimodellare la capacità: se hai requisiti di carico di lavoro diversi, non devi eliminare e ricreare i node pool per le modifiche alla topologia. Puoi invece riconfigurare dinamicamente i node pool di cui è stato eseguito il provisioning in modo che corrispondano alle forme specificate.

Elementi chiave del slicing dinamico

Il slicing dinamico introduce i seguenti concetti chiave:

  • Provisioning incrementale dei node pool: il slicing dinamico utilizza il provisioning incrementale, un modello di provisioning dei node pool a tolleranza di errore. Questo modello converte tutta la capacità TPU in node pool di gruppi di 16 nodi di VM TPU.
  • Controller di sezione: un controller di risorse personalizzate Kubernetes in esecuzione all'interno del control plane GKE che gestisce il slicing dinamico. Il controller di sezione gestisce il ciclo di vita di una risorsa personalizzata di sezione, che rappresenta una sezione dinamica. Il controller di sezione gestisce la creazione, il monitoraggio continuo e l'eliminazione della sezione. Quando utilizzi uno scheduler, quest'ultimo gestisce la creazione e l'eliminazione della risorsa personalizzata di sezione.
  • Risorsa personalizzata di sezione: unisce dinamicamente i sotto-blocchi in base alla topologia TPU richiesta. Questo processo si basa sulla riconfigurazione dinamica della rete OCS per connettere i node pool TPU, il che contribuisce a garantire prestazioni ottimizzate. Puoi controllare l'avanzamento o l'integrità della formazione della sezione dinamica esaminando i campi di stato della risorsa personalizzata di sezione.

Scheduler per il slicing dinamico

Puoi configurare Kueue e la pianificazione con riconoscimento della topologia (TAS) per creare automaticamente una risorsa personalizzata di sezione. Puoi anche utilizzare il tuo scheduler per gestire le risorse personalizzate di sezione.

Passaggi successivi