Crea VM Cloud TPU con i MIG

I gruppi di istanze gestite (MIG) automatizzano la creazione, la configurazione e la gestione del ciclo di vita di una raccolta di VM. I MIG offrono vantaggi quali alta affidabilità tramite ripristino automatico e deployment regionali (multizona), scalabilità automatica per gestire carichi variabili e aggiornamenti in sequenza semplificati per le applicazioni. Per saperne di più, consulta Gruppi di istanze gestite.

Puoi utilizzare i gruppi di istanze gestite per creare e gestire le VM TPU per le versioni TPU v5p e successive. Puoi creare MIG con una singola VM TPU, VM TPU indipendenti (chiamate anche slice a host singolo) e MIG con VM TPU interconnesse (chiamate anche slice multi-host).

Ogni slice in un MIG a host singolo ha al massimo una VM TPU. Le VM TPU all'interno del MIG non sono connesse con link Inter-Chip Interconnect (ICI).

Una sezione multi-host contiene più VM TPU interconnesse con link ICI.

Gruppi di istanze gestite con slice TPU single-host

La creazione di un gruppo di istanze gestite (MIG) con più istanze TPU indipendenti è utile per i carichi di lavoro che richiedono diverse VM TPU individuali, ma non hanno bisogno di essere interconnesse con link ICI per i carichi di lavoro distribuiti. Ad esempio:

  • Servizio di inferenza: ogni VM nel MIG può gestire in modo indipendente le richieste di inferenza. Un gruppo di istanze gestite ti consente di scalare il numero di istanze di pubblicazione in base alla domanda e di gestirle come gruppo.
  • Attività indipendenti parallele: un MIG fornisce un modo per gestire molti job di addestramento piccoli e indipendenti o altri calcoli che possono essere eseguiti in parallelo su singole VM TPU.
  • Gestione: i MIG forniscono le seguenti funzionalità:
    • Deployment: definisci un template di istanza una sola volta e utilizza il MIG per creare più VM TPU identiche.
    • Scalabilità: regola il numero di VM TPU ridimensionando il MIG.
    • Aggiornamenti in sequenza: aggiorna il software o il tipo di macchina in tutte le VM in modo controllato.
  • Convenienza: per le attività che non richiedono tutta la potenza o l'interconnettività di una grande slice TPU, l'utilizzo di più slice TPU più piccole e indipendenti può essere più conveniente.

Per saperne di più, consulta Crea un MIG con slice TPU single-host.

MIG con una sezione multi-host

A differenza dei gruppi di sezioni TPU indipendenti, un MIG configurato per una sezione multi-host gestisce un insieme di VM TPU strettamente accoppiate tramite link ICI. In questo modo viene creata una singola sezione TPU logica.

Vantaggi e prestazioni

I MIG per gli slice TPU multi-host forniscono la scalabilità e le prestazioni richieste per carichi di lavoro di machine learning intensivi.

  • Addestramento distribuito: l'addestramento dei modelli di machine learning spesso richiede una potenza di TPU superiore a quella che può fornire una singola VM TPU. Le sezioni di TPU più grandi distribuiscono il calcolo su molti chip TPU e VM, con i link ICI che consentono una comunicazione rapida tra loro. Questo è fondamentale per le prestazioni dell'addestramento.
  • Larghezza di banda di interconnessione elevata: la rete ICI fornisce una larghezza di banda maggiore e una latenza inferiore tra i chip TPU nella slice rispetto alla rete di data center (DCN) standard. Questo è essenziale per le operazioni sincrone comuni nell'addestramento di modelli di grandi dimensioni.

Operazioni atomiche del ciclo di vita

Per garantire l'integrità della topologia interconnessa, il MIG gestisce l'intera sezione come un'unica unità indivisibile durante il suo ciclo di vita.

  • Creazione: tutte le VM nella sezione vengono sottoposte al provisioning insieme. Se non è disponibile una capacità interconnessa e integra sufficiente per l'intera topologia richiesta, lo slice non viene creato.
  • Eliminazione: il gruppo di istanze gestite elimina l'intera sezione come unità.
  • Ridimensionamento: il ridimensionamento è limitato al ridimensionamento da 0 alle dimensioni complete della sezione o dalle dimensioni complete della sezione a 0. Non puoi ridimensionare parzialmente una sezione multi-VM.

Requisiti di configurazione

La configurazione di un MIG multi-host richiede la definizione sia della topologia di interconnessione fisica sia delle proprietà delle singole istanze.

  • Policy del workload: devi specificare una policy del workload con il parametro accelerator-topology (ad esempio, 4x4, 8x8 o 4x4x4). In questo modo, il MIG viene configurato per trattare le istanze come una singola sezione interconnessa. Per informazioni sulla topologia, vedi Architettura del sistema.
  • Template di istanza: definisce proprietà come il tipo di macchina, l'immagine disco e altre impostazioni per ogni VM all'interno della sezione.

Disponibilità delle slice e ripristino dagli errori

Quando utilizzi i MIG per creare uno slice TPU multi-host, il MIG gestisce automaticamente il processo di recupero dello slice. Se si verifica un errore dell'host o dell'ICI, la slice passa allo stato REACTIVATING. Tutte le VM nella sezione passeranno allo stato REPAIRING, anche se non necessariamente tutte contemporaneamente. Il MIG riavvierà automaticamente le VM insieme sulla capacità integra per ripristinare lo slice.

Tuttavia, quando utilizzi le VM spot, il prerilascio comporta la terminazione delle istanze. Il MIG non riattiva automaticamente la sezione.

Recupero da errori in seguito a un'interruzione dell'istanza

Se elimini o arresti un'istanza TPU oppure arresti un'istanza dal sistema operativo, lo slice passerà allo stato FAILED. In questo scenario, lo slice rimane nello stato FAILED finché non lo ricrei. Per ricreare lo slice, devi eliminare e ricreare il MIG oppure ridimensionarlo a 0 e poi aumentarne le dimensioni.

Per saperne di più sugli stati delle sezioni, consulta Visualizzare lo stato di una sezione TPU.

Limitazioni

I MIG con TPU presentano le seguenti limitazioni:

  • Operazioni del ciclo di vita: non puoi arrestare, avviare, riprendere o sospendere le istanze TPU. Per modificare le configurazioni che richiedono un riavvio o per interrompere l'addebito dei costi, devi eliminare le istanze.

  • Distribuzione delle zone del MIG a livello di regione: devi impostare la forma di distribuzione target su ANY_SINGLE_ZONE.

  • Aggiornamenti della configurazione in un MIG:

    • Non puoi aggiornare un MIG che forma uno slice TPU multi-host a causa della topologia dell'acceleratore definita.
    • Puoi aggiornare un gruppo di istanze gestite che forma slice TPU a host singolo utilizzando i metodi automatici o selettivi. Tuttavia, gli aggiornamenti per lo slice TPU a singolo host non supportano l'azione di riavvio (RESTART). Se è necessario un riavvio e l'azione più invasiva consentita è la sostituzione (REPLACE), lo strumento di aggiornamento sostituirà l'istanza; in caso contrario, il tentativo di aggiornamento non va a buon fine e viene visualizzato un errore.

  • Per un MIG che forma una sezione TPU multi-host, si applicano anche le seguenti limitazioni:

    • Policy di dimensione target: devi impostare la modalità della policy di dimensione target su BULK. Dopo aver impostato questa modalità, non potrai più modificarla.

    • Dimensione target: in modalità in blocco, puoi impostare la dimensione target su 0 o sul numero di istanze necessarie per formare la topologia dell'acceleratore.

    • Policy del workload: devi specificare una policy del workload in cui è definita la topologia dell'acceleratore. Una volta impostata la policy del workload, non puoi modificarla o rimuoverla dal MIG.

  • Funzionalità non supportate: i MIG con TPU non supportano le seguenti funzionalità:

Passaggi successivi