Panoramica dei cluster di addestramento di Gemini Enterprise Agent Platform

Se ti interessano i cluster di addestramento di Gemini Enterprise Agent Platform, contatta il tuo rappresentante di vendita per l'accesso.

I cluster di addestramento di Gemini Enterprise Agent Platform sono un servizio di Google Cloud progettato per semplificare e accelerare i workload di AI/ML più grandi e complessi. È stato creato appositamente per risolvere le sfide dell'addestramento su larga scala, come la configurazione complessa dei cluster, l'ottimizzazione dei framework, la gestione dei guasti hardware e l'integrazione di set di strumenti disparati.

Proposta di valore e funzionalità chiave

I cluster di addestramento di Gemini Enterprise Agent Platform offrono diversi vantaggi principali:

  • Esperienza utente Slurm open source e trasparenza dei cluster: i cluster di addestramento di Gemini Enterprise Agent Platform forniscono strumenti familiari e flessibili per avviare e gestire i job tramite un'esperienza utente Slurm open source. Slurm è uno standard di settore noto per la pianificazione ottimizzata delle GPU, la tolleranza agli errori automatizzata e l'avvio semplificato dei job paralleli.

  • Configurazione e configurazione automatizzate dei cluster: i cluster di addestramento di Gemini Enterprise Agent Platform automatizzano la configurazione e la configurazione dei cluster, con l'obiettivo di passare dalla prenotazione all'addestramento di produzione in poche ore. Gli utenti possono creare cluster utilizzando la Google Cloud console (utilizzando architetture di riferimento o configurazione passo passo) o tramite chiamate API con file JSON.

  • Ricette e flussi di lavoro di data science preconfigurati: i cluster di addestramento di Gemini Enterprise Agent Platform includono strumenti appositamente creati e ricette di addestramento ottimizzate per avviare l'addestramento per casi d'uso comuni come i modelli Llama e Gemma, che coprono il pre-addestramento, il fine-tuning supervisionato (Supervised Fine-Tuning) e il Reinforcement Learning (RL). Queste ricette sono preconfigurate per prestazioni allo stato dell'arte (SOTA) sull' Google Cloud infrastruttura, con notevoli miglioramenti delle prestazioni.

  • Resilienza hardware e alta disponibilità: i cluster di addestramento di Gemini Enterprise Agent Platform sono progettati con resilienza hardware per aumentare la disponibilità dei cluster. Risolve automaticamente i problemi hardware, rileva e gestisce varie modalità di errore (ad esempio, controlli di correttezza, controlli di velocità, errori di codice di correzione degli errori (ECC), controlli di NVIDIA Data Center GPU Manager (DCGM), capacità di spazio su disco) e attiva azioni di correzione come il riavvio, la riimmagine o la sostituzione dei nodi difettosi e la ripresa dai checkpoint. Ciò contribuisce a mitigare l'aumento significativo dei costi e i ritardi causati da interruzioni dei job e guasti hardware nell'addestramento su larga scala.

  • Architettura e componenti: i cluster di addestramento di Gemini Enterprise Agent Platform vengono eseguiti sull'infrastruttura di Compute Engine che supporta GPU e CPU. Utilizza un orchestratore Slurm gestito per il deployment e la gestione dei nodi di calcolo, inclusi i nodi di accesso e worker. Il servizio si integra con altri Google Cloud servizi come networking e archiviazione.

  • MLOps e osservabilità: si integra con gli strumenti Vertex ML Ops come Gemini Enterprise Agent Platform Model Registry per la registrazione, il monitoraggio e il controllo delle versioni automatici dei flussi di lavoro addestrati e Vertex AI Inference per il deployment con scalabilità automatica e metriche automatizzate. I cluster di addestramento includono anche l'integrazione automatica dell'osservabilità con Vertex AI TensorBoard per visualizzare i processi di addestramento, monitorare le metriche e identificare i problemi in anticipo.

I cluster di addestramento possono essere creati, recuperati, elencati, aggiornati ed eliminati utilizzando l'API dei cluster di addestramento di Gemini Enterprise Agent Platform. Dopo la creazione del cluster, gli utenti possono convalidarne la funzionalità accedendo ai nodi, eseguendo comandi Slurm di base (ad esempio, sinfo, sbatch) ed eseguendo workload correlati alla GPU (ad esempio, nvidia-smi). Lo strumento Cluster Health Scanner (CHS) è preinstallato per l'esecuzione di diagnostiche come i test DCGM e NCCL per verificare la preparazione del cluster.

I cluster di addestramento di Gemini Enterprise Agent Platform forniscono un'API per l'avvio di job LLM predefiniti utilizzando ricette ottimizzate per modelli come Llama e Gemma, che supportano il pre-addestramento e il pre-addestramento continuo dai checkpoint. Il monitoraggio dei job è possibile accedendo al nodo di accesso ed esaminando i file di output e i comandi Slurm come squeue.

Terminologia

Questa sezione fornisce le definizioni dei termini e dei concetti chiave essenziali per comprendere e utilizzare in modo efficace i cluster di addestramento di Gemini Enterprise Agent Platform. Questi termini riguardano i componenti principali del servizio, le considerazioni sull'architettura, le tecnologie di archiviazione integrate e i concetti fondamentali di machine learning (ML) e MLOps che sono alla base dell'ambiente di addestramento.

Concetti principali del servizio

Nodo
  • Una singola macchina virtuale (istanza di Compute Engine) all'interno di un cluster. Nel contesto dell'addestramento gestito su cluster riservati, un nodo si riferisce a una singola macchina virtuale (VM) che funge da singola unità di calcolo all'interno del cluster. Consideralo una delle macchine worker dedicate che esegue una parte del job di addestramento complessivo. Ogni nodo è dotato di risorse specifiche come CPU, memoria e acceleratori (ad esempio, GPU A3 o A4) e tutti lavorano insieme in modo coordinato per gestire attività di addestramento distribuite su larga scala.
Nodo di accesso
Partizione
  • In Slurm, un raggruppamento logico di nodi, spesso utilizzato per separare i nodi con configurazioni hardware diverse.
Ricetta
  • Nel contesto dell'addestramento gestito, una ricetta è un pacchetto completo e riutilizzabile che contiene tutto il necessario per eseguire un workload di addestramento su larga scala specifico.
Cluster Slurm
  • Una raccolta di istanze di Compute Engine, gestite da Slurm, che include un nodo di accesso e più nodi worker configurati per l'esecuzione di job di addestramento. Per ulteriori informazioni, vedi Gestore dei workload Slurm.
Nodo worker
  • Un nodo worker si riferisce a una singola macchina o istanza di calcolo all'interno di un cluster responsabile dell'esecuzione di attività o dell'esecuzione di lavoro. Nei sistemi come i cluster Kubernetes o Ray, i nodi sono le unità di calcolo fondamentali. Per ulteriori informazioni, vedi Che cos'è il computing ad alte prestazioni (HPC)?.

Architettura e networking

Rete VPC consumer
  • Una rete VPC consumer è una rete Virtual Private Cloud (VPC) di Google Cloud che accede privatamente a un servizio ospitato in un'altra rete VPC (nota come rete VPC producer). Per ulteriori informazioni, vedi Private Service Connect.
Unità massima di trasmissione (MTU)
  • La dimensione massima di un pacchetto di dati che un dispositivo connesso alla rete può trasmettere. Dimensioni MTU maggiori (frame jumbo) possono migliorare il rendimento della rete per determinati workload. Per ulteriori informazioni, vedi Unità massima di trasmissione.
Accesso privato ai servizi
  • L'accesso privato ai servizi è una connessione privata tra la tua rete Virtual Private Cloud (VPC) e le reti di proprietà di Google o di fornitori di servizi di terze parti. Consente alle istanze di macchine virtuali (VM) nella rete VPC di comunicare con questi servizi utilizzando indirizzi IP interni, evitando l'esposizione a internet pubblico. Per ulteriori informazioni, vedi Accesso privato ai servizi.
Peering di rete VPC
  • Una connessione di rete che consente a due reti VPC di comunicare privatamente. Nel contesto dell'addestramento gestito su cluster riservati, il peering di rete VPC è un componente fondamentale per l'integrazione dei servizi essenziali. Ad esempio, è il metodo richiesto per connettere la rete VPC del cluster a un'istanza di Filestore, che fornisce la directory `/home` condivisa necessaria per tutti i nodi del cluster.
Zona
  • Un'area di deployment specifica all'interno di una regione Google Cloud. Nel contesto dell'addestramento gestito su cluster riservati, per ottenere prestazioni ottimali, tutti i componenti del servizio (il cluster, Filestore e le istanze di Managed Lustre) devono essere creati nella stessa zona.

Tecnologie di archiviazione integrate

Cloud Storage FUSE
  • Un adattatore FUSE open source che consente di montare i bucket Cloud Storage come file system su sistemi Linux o macOS. Per ulteriori informazioni, vedi Cloud Storage FUSE.
Filestore
  • Un servizio di archiviazione file completamente gestito e ad alte prestazioni di Google Cloud, spesso utilizzato per le applicazioni che richiedono un file system condiviso. Per ulteriori informazioni, vedi Panoramica di Filestore.
Managed Lustre
  • Un file system parallelo e distribuito progettato per il computing ad alte prestazioni. Managed Lustre di Google Cloud fornisce un file system a elevato throughput per workload impegnativi. Per ulteriori informazioni, vedi Panoramica di Managed Lustre.
Livello di prestazioni
  • Un'impostazione di configurazione per un'istanza di Managed Lustre che definisce la velocità di throughput (in MBps per TiB) e influisce sulla capacità minima e massima.

Concetti chiave di ML e MLOps

Checkpoint
  • Dati che acquisiscono lo stato dei parametri di un modello durante o dopo l'addestramento. Ad esempio, durante l'addestramento puoi: 1. Interrompere l'addestramento, magari intenzionalmente o a causa di determinati errori. 2. Acquisire il checkpoint. 3. In un secondo momento, ricaricare il checkpoint, possibilmente su hardware diverso. 4. Riavviare l'addestramento. In Gemini, un checkpoint si riferisce a una versione specifica di un modello Gemini addestrato su un set di dati specifico.
Fine-tuning supervisionato (SFT)
  • Una tecnica di machine learning in cui un modello preaddestrato viene addestrato ulteriormente su un set di dati etichettato più piccolo per adattarlo a un'attività specifica.
Vertex AI Inference
Vertex AI Model Registry
  • Vertex AI Model Registry è un repository centrale in cui puoi gestire il ciclo di vita dei tuoi modelli ML. Da Vertex AI Model Registry, hai una panoramica dei tuoi modelli per organizzarli, monitorarli e addestrare meglio le nuove versioni. Quando hai una versione del modello di cui vuoi eseguire il deployment, puoi assegnarla a un endpoint direttamente dal registro oppure eseguire il deployment dei modelli su un endpoint utilizzando gli alias. Per ulteriori informazioni, vedi Introduzione a Vertex AI Model Registry.
Vertex AI TensorBoard
  • Vertex AI TensorBoard è un servizio gestito e scalabile su Google Cloud che consente a data scientist e ML engineer di visualizzare i propri esperimenti di machine learning, eseguire il debug dell'addestramento dei modelli e monitorare le metriche sul rendimento utilizzando la nota interfaccia open source di TensorBoard. Si integra perfettamente con Vertex AI Training e altri servizi, fornendo spazio di archiviazione permanente per i dati degli esperimenti e consentendo l'analisi collaborativa dello sviluppo dei modelli. Per ulteriori informazioni, vedi Introduzione a Vertex AI TensorBoard.