I gruppi di istanze gestite (MIG) automatizzano la creazione, la configurazione e la gestione del ciclo di vita di una raccolta di VM. I MIG offrono vantaggi come l'alta affidabilità tramite il ripristino automatico e i deployment regionali (multizona), la scalabilità automatica per gestire carichi variabili e gli aggiornamenti in sequenza semplificati per le applicazioni. Per saperne di più, consulta Gruppi di istanze gestite.
Puoi utilizzare i MIG per creare e gestire le VM TPU per le versioni di TPU v5p e successive. Puoi creare MIG con una singola VM TPU, VM TPU indipendenti (chiamate anche sezioni a host singolo) e MIG con VM TPU interconnesse (chiamate anche sezioni multi-host).
Ogni sezione in un MIG a host singolo ha al massimo una VM TPU. Le VM TPU all'interno del MIG non sono connesse con link Inter-Chip Interconnect (ICI).
Una sezione multi-host contiene più VM TPU interconnesse con link ICI.
MIG con una singola istanza VM TPU
Puoi creare e gestire una singola VM TPU utilizzando un MIG impostando le dimensioni target del MIG su 1. Questo approccio è utile se vuoi utilizzare le funzionalità MIG come la riparazione automatica per una singola istanza. Per saperne di più, consulta Crea un MIG con sezioni TPU a host singolo.
MIG con sezioni TPU a host singolo
La creazione di un gruppo di istanze gestite (MIG) con più istanze TPU indipendenti è utile per i carichi di lavoro che richiedono diverse VM TPU individuali, ma non è necessario che siano interconnesse con link ICI per i carichi di lavoro distribuiti. Ad esempio:
- Servizio di inferenza: ogni VM nel MIG può gestire in modo indipendente le richieste di inferenza. Un MIG ti consente di scalare il numero di istanze di servizio in base alla domanda e di gestirle come un gruppo.
- Attività indipendenti parallele: un MIG fornisce un modo per gestire molti piccoli job di addestramento indipendenti o altri calcoli che possono essere eseguiti in parallelo su singole VM TPU.
- Gestione: i MIG forniscono le seguenti funzionalità:
- Deployment: definisci un template di istanza una sola volta e utilizza il MIG per creare più VM TPU identiche.
- Scalabilità: regola il numero di VM TPU ridimensionando il MIG.
- Aggiornamenti graduali: aggiorna il software o il tipo di macchina su tutte le VM in modo controllato.
- Convenienza: per le attività che non richiedono la piena potenza o interconnettività di una sezione TPU di grandi dimensioni, l'utilizzo di più sezioni TPU più piccole e indipendenti può essere più conveniente.
Per saperne di più, consulta Crea un MIG con sezioni TPU a host singolo.
MIG con una sezione multi-host
A differenza dei gruppi di sezioni TPU indipendenti, un MIG configurato per una sezione multi-host gestisce un insieme di VM TPU strettamente accoppiate tramite link ICI. In questo modo viene creata una singola sezione TPU logica.
Vantaggi e prestazioni
I MIG per le sezioni TPU multi-host forniscono la scalabilità e le prestazioni richieste per i carichi di lavoro di machine learning intensivi.
- Addestramento distribuito: l'addestramento dei modelli di machine learning spesso richiede più potenza TPU di quella che può fornire una singola VM TPU. Le sezioni TPU più grandi distribuiscono il calcolo su molti chip e VM TPU, con i link ICI che consentono una comunicazione rapida tra loro. Questo è fondamentale per le prestazioni di addestramento.
- Larghezza di banda di interconnessione elevata: la rete ICI fornisce una larghezza di banda maggiore e una latenza inferiore tra i chip TPU nella sezione rispetto alla rete di data center standard (DCN). Questo è essenziale per le operazioni sincrone comuni nell'addestramento di modelli di grandi dimensioni.
Operazioni atomiche del ciclo di vita
Per garantire l'integrità della topologia interconnessa, il MIG gestisce l'intera sezione come un'unica unità indivisibile durante il suo ciclo di vita.
- Creazione: tutte le VM nella sezione vengono sottoposte a provisioning contemporaneamente. Se non è disponibile una capacità interconnessa e integra sufficiente per l'intera topologia richiesta, la sezione non viene creata.
- Eliminazione: il MIG elimina l'intera sezione come unità.
- Ridimensionamento: il ridimensionamento è limitato alla scalabilità da 0 alle dimensioni complete della sezione, o dalle dimensioni complete della sezione a 0. Non puoi ridimensionare parzialmente una sezione multi-VM.
Requisiti di configurazione
La configurazione di un MIG multi-host richiede la definizione sia della topologia di interconnessione fisica sia delle proprietà delle singole istanze.
- Policy del workload: devi specificare una policy del workload con il parametro
accelerator-topology(ad esempio, 4x4, 8x8 o 4x4x4). In questo modo, il MIG tratta le istanze come una singola sezione interconnessa. Per informazioni sulla topologia, consulta Topologia TPU. - Template di istanza: definisce proprietà come il tipo di macchina, l'immagine del disco e altre impostazioni per ogni VM all'interno della sezione.
Disponibilità della sezione e ripristino in caso di errore
Quando utilizzi i MIG per creare una sezione TPU multi-host, il MIG gestisce automaticamente il processo di ripristino della sezione. Se si verifica un errore dell'host o di ICI, la sezione passa allo stato REACTIVATING. Tutte le VM nella sezione passeranno allo stato REPAIRING, anche se non necessariamente contemporaneamente. Il MIG riavvierà automaticamente le VM insieme sulla capacità integra per ripristinare la sezione.
Tuttavia, quando utilizzi le VM spot, il prerilascio comporta la terminazione delle istanze. Il MIG non riattiva automaticamente la sezione.
Ripristino in caso di errore da un'interruzione dell'istanza
Se elimini o arresti un'istanza TPU o arresti un'istanza dal sistema operativo, la sezione passerà allo stato FAILED. In questo scenario, la sezione rimane nello stato FAILED finché non la ricrei.
Per ricreare la sezione, devi eliminare e ricreare il MIG oppure ridimensionare il MIG a 0 e poi aumentarne le dimensioni.
Per saperne di più sugli stati delle sezioni, consulta Visualizza lo stato di una sezione TPU.
Limitazioni
Le sezioni seguenti spiegano le limitazioni per la creazione di un MIG con VM TPU.
Limitazioni per i template di istanza
I template di istanza che specificano un tipo di macchina TPU presentano le seguenti limitazioni:
Quando utilizzi il modello di provisioning con prenotazione, devi impostare l'azione di terminazione dell'istanza su Elimina.
Le TPU possono utilizzare solo prenotazioni con target specifico.
Non puoi specificare una policy di posizionamento.
Quando utilizzi il template di istanza per creare un MIG per una sezione TPU multi-host, non puoi disattivare il riavvio automatico impostando il campo
scheduling.automaticRestartsufalse. Questa limitazione si applica ai modelli di provisioning standard, con avvio flessibile e con prenotazione.
Limitazioni per i MIG
I MIG con TPU presentano le seguenti limitazioni:
Operazioni del ciclo di vita: non puoi arrestare, avviare, riprendere o sospendere le istanze TPU. Per modificare le configurazioni che richiedono un riavvio o per interrompere l'addebito, devi eliminare le istanze.
Distribuzione delle zone MIG regionali: devi impostare la forma di distribuzione target su
ANY_SINGLE_ZONE.Aggiornamenti della configurazione in un MIG:
- Non puoi aggiornare un MIG che forma una sezione TPU multi-host a causa della topologia dell'acceleratore definita.
- Puoi aggiornare un MIG che forma sezioni TPU a host singolo utilizzando i
metodi automatici o selettivi.
Tuttavia, gli aggiornamenti per la sezione TPU a host singolo non supportano l'azione di riavvio (
RESTART). Se è necessario un riavvio e l'azione più invasiva consentita è la sostituzione (REPLACE), il programma di aggiornamento sostituirà l'istanza; in caso contrario, il tentativo di aggiornamento non riuscirà e verrà visualizzato un errore.
Per un MIG che forma una sezione TPU multi-host, si applicano anche le seguenti limitazioni:
Policy della dimensione target: devi impostare la modalità della policy della dimensione target su
BULK. Dopo aver impostato questa modalità, non puoi modificarla.Dimensione target: in modalità in blocco, puoi impostare la dimensione target su
0o sul numero di istanze necessarie per formare la topologia dell'acceleratore.Policy del workload: devi specificare una policy del workload in cui è definita la topologia dell'acceleratore. Dopo aver impostato la policy del workload, non puoi modificarla o rimuoverla dal MIG.
Funzionalità non supportate: i MIG con TPU non supportano le seguenti funzionalità:
- Flessibilità istanza
- Richieste di ridimensionamento per ottenere le risorse tutte insieme
- Configurazione stateful
- Per un MIG che forma una sezione TPU multi-host, non sono supportate anche le seguenti funzionalità:
Passaggi successivi
- Scopri come creare un MIG con sezioni TPU a host singolo
- Scopri come creare un MIG con una sezione TPU multi-host