Questo documento fornisce consigli su quale acceleratore, tipo di consumo, servizio di archiviazione e strumento di deployment è più adatto a diversi workload di intelligenza artificiale (AI), machine learning (ML) e computing ad alte prestazioni (HPC). Utilizza questo documento per identificare il deployment migliore per il tuo carico di lavoro.
Panoramica dei workload
L'architettura AI Hypercomputer supporta i seguenti casi d'uso:
| Workload | Descrizione | Consiglio |
|---|---|---|
| Modelli di base preaddestrati | Ciò comporta la creazione di un modello linguistico utilizzando un set di dati di grandi dimensioni. Il
risultato del pre-addestramento dei foundation model è un nuovo modello
in grado di svolgere attività generali. I modelli sono classificati in base alle loro dimensioni come segue:
|
Consulta i consigli per i modelli di pre-addestramento |
| Ottimizzazione | Ciò comporta l'utilizzo di un modello addestrato e il suo adattamento per eseguire attività specifiche utilizzando set di dati specializzati o altre tecniche. Il fine-tuning viene generalmente eseguito su modelli di grandi dimensioni. | Consulta i consigli per l'ottimizzazione dei modelli |
| Inferenza o pubblicazione | Ciò comporta l'utilizzo di un modello addestrato o ottimizzato e la sua
messa a disposizione per l'utilizzo da parte di utenti o applicazioni. I workload di inferenza sono classificati in base alle dimensioni dei modelli come segue:
|
Consulta i consigli per l'inferenza |
| Machine learning con modelli di dimensioni ridotte e medie | Ciò comporta l'addestramento e la gestione di modelli ML di dimensioni e complessità inferiori, in genere per attività più specializzate. | Consulta i suggerimenti per il machine learning di modelli di dimensioni piccole e medie. |
| HPC | Si tratta della pratica di aggregazione di risorse di calcolo per ottenere prestazioni superiori a quelle di una singola workstation, un singolo server o computer. L'HPC viene utilizzato per risolvere problemi di ricerca accademica, scienza, progettazione, simulazione e business intelligence. | Consulta i consigli per l'HPC. |
Suggerimenti per i modelli di pre-addestramento
Il preaddestramento dei foundation model prevede grandi cluster di acceleratori, la lettura continua di grandi volumi di dati e la regolazione dei pesi tramite passaggi in avanti e indietro per apprendere dai dati. Questi job di addestramento vengono eseguiti per settimane o anche mesi alla volta.
Le sezioni seguenti descrivono gli acceleratori, il tipo di consumo consigliato e il servizio di archiviazione da utilizzare durante il pre-addestramento dei modelli.
Acceleratori consigliati
Per il pre-addestramento dei modelli di base su Google Cloud, ti consigliamo di utilizzare macchine ottimizzate per l'acceleratore A4X, A4 o A3 e di utilizzare un orchestratore per il deployment di queste macchine. Per eseguire il deployment di questi grandi cluster di acceleratori, ti consigliamo di utilizzare Cluster Director o Cluster Toolkit. Per saperne di più, consulta la guida al deployment relativa al cluster che preferisci nella tabella seguente.
| Workload | Consigli | Guida al deployment del cluster | |
|---|---|---|---|
| Tipo di macchina | Orchestrator | ||
|
|
GKE | Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita |
| Slurm | |||
|
A3 Mega | GKE | Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard |
| Slurm | |||
|
A3 High | GKE | Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard |
| Slurm | Esegui il deployment di un cluster A3 High Slurm | ||
Tipo di consumo consigliato
Per un elevato livello di garanzia nell'ottenimento di grandi cluster di acceleratori a costi minimi, ti consigliamo di utilizzare una prenotazione e di richiederla per un lungo periodo di tempo. Per saperne di più sui tipi di consumo, consulta Scegliere un'opzione di consumo.
Servizi di archiviazione consigliati
Per il pre-addestramento, i dati di addestramento devono essere pronti in modo continuo e rapido. Consigliamo anche di eseguire frequentemente e rapidamente il checkpointing del modello in fase di addestramento. Per la maggior parte di queste esigenze, ti consigliamo di utilizzare Google Cloud Managed Lustre. In alternativa, puoi utilizzare Cloud Storage con Cloud Storage FUSE e Anywhere Cache abilitata. Per saperne di più sulle opzioni di archiviazione, consulta Servizi di archiviazione.
Consigli per l'ottimizzazione dei modelli
L'ottimizzazione di modelli di base di grandi dimensioni comporta l'utilizzo di cluster più piccoli di acceleratori, la lettura di volumi moderati di dati e la regolazione del modello per eseguire attività specifiche. Questi job di perfezionamento vengono eseguiti per giorni o addirittura settimane.
Le sezioni seguenti descrivono gli acceleratori, il tipo di consumo consigliato e il servizio di archiviazione da utilizzare per il perfezionamento dei modelli.
Acceleratori consigliati
Per ottimizzare i modelli su Google Cloud, ti consigliamo di utilizzare macchine ottimizzate per l'acceleratore A4X, A4 o A3 e di utilizzare un orchestratore per eseguire il deployment di queste macchine.
Per eseguire il deployment di questi cluster di acceleratori, ti consigliamo anche di utilizzare Cluster Director o Cluster Toolkit. Per ulteriori informazioni, consulta la guida al deployment del cluster corrispondente al tipo di macchina che preferisci nella tabella seguente.
| Workload | Consigli | Guida al deployment del cluster | |
|---|---|---|---|
| Tipo di macchina | Orchestrator | ||
| Ottimizzazione di modelli di grandi dimensioni |
|
GKE | Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita |
| Slurm | |||
| Ottimizzazione di modelli di grandi dimensioni | A3 Mega | GKE | Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard |
| Slurm | |||
| Ottimizzazione di modelli di grandi dimensioni | A3 High | GKE | Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard |
| Slurm | Esegui il deployment di un cluster A3 High Slurm | ||
Tipo di consumo consigliato
Per ottimizzare i workload, ti consigliamo di utilizzare la prenotazione futura in modalità calendario per eseguire il provisioning delle risorse. Per saperne di più sulle opzioni di consumo, vedi Scegliere un'opzione di consumo.
Servizi di archiviazione consigliati
Per i modelli di perfezionamento, la quantità di dati necessaria può essere significativa, soprattutto quando si tratta di velocità di lettura per il perfezionamento delle prestazioni. Ti consigliamo di eseguire checkpoint frequenti e rapidi del modello sottoposto a fine tuning. Come per il pre-training, per la maggior parte dei casi d'uso consigliamo Google Cloud Managed Lustre. In alternativa, puoi utilizzare Cloud Storage con Cloud Storage FUSE e Anywhere Cache abilitata. Per saperne di più sulle opzioni di archiviazione, consulta Servizi di archiviazione.
Consigli per l'inferenza
Le sezioni seguenti descrivono gli acceleratori, il tipo di consumo consigliato e il servizio di archiviazione da utilizzare durante l'inferenza.
Acceleratori consigliati
Gli acceleratori consigliati per l'inferenza dipendono dal tipo di inferenza che esegui: frontier multihost, frontier monohost o di modelli di grandi dimensioni.
Acceleratori consigliati (multi-host)
Per eseguire l'inferenza di modelli di frontiera o di grandi dimensioni su più host su Google Cloud, ti consigliamo di utilizzare macchine ottimizzate per l'acceleratore A4X, A4 o A3 e di eseguire il deployment di queste macchine utilizzando un orchestratore. Per eseguire il deployment di questi cluster di acceleratori, ti consigliamo anche di utilizzare Cluster Director o Cluster Toolkit. Per iniziare a utilizzare questi cluster, viene fornito un link a una guida al deployment del cluster per ogni tipo di macchina consigliato.
| Workload | Consigli | Guida al deployment del cluster | |
|---|---|---|---|
| Tipo di macchina | Orchestrator | ||
| Inferenza della frontiera multi-host |
|
GKE | Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita |
| Slurm | |||
| Inferenza della frontiera multi-host | A3 Mega | GKE | Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard |
| Slurm | |||
| Inferenza di modelli di grandi dimensioni | A3 High | GKE | Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard |
| Slurm | Esegui il deployment di un cluster A3 High Slurm | ||
Acceleratori consigliati (singolo host)
La tabella seguente descrive gli acceleratori consigliati da utilizzare quando esegui l'inferenza frontier su un singolo host. Per iniziare a utilizzare queste VM, viene fornito un link a una guida al deployment delle VM per ogni tipo di macchina consigliato.
| Workload | Consigli | Guida al deployment delle VM | |
|---|---|---|---|
| Tipo di macchina | Orchestrator | ||
| Inferenza di frontiera a host singolo |
|
N/D | Crea un'istanza ottimizzata per l'AI |
| Inferenza di frontiera a host singolo | A3 High | N/D | Crea una VM A3 in cui è abilitato GPUDirect-TCPX |
Tipo di consumo consigliato
Per l'inferenza, consigliamo di utilizzare una prenotazione a lunga esecuzione o una prenotazione futura in modalità calendario. Per saperne di più sulle opzioni di consumo, vedi Scegliere un'opzione di consumo.
Servizi di archiviazione consigliati
Per l'inferenza, il caricamento rapido dei file binari e dei pesi dell'inferenza su molti server richiede letture rapide dei dati. Ti consigliamo di utilizzare Cloud Storage con Cloud Storage FUSE e Anywhere Cache abilitati per il caricamento del modello. Anywhere Cache fornisce una soluzione di memorizzazione nella cache dei dati zonale che accelera i tempi di caricamento dei modelli e riduce anche le tariffe per il traffico in uscita dalla rete. Se abbinata a Cloud Storage FUSE, Anywhere Cache è particolarmente utile per caricare modelli in più zone e regioni. Se utilizzi Google Cloud Managed Lustre per l'addestramento, ti consigliamo di utilizzare Google Cloud Managed Lustre anche per il caricamento dei modelli, in quanto consente letture rapide dei dati ed è una soluzione di archiviazione zonale persistente. Per saperne di più sulle opzioni di archiviazione, consulta Servizi di archiviazione.
Suggerimenti per il machine learning di modelli di piccole e medie dimensioni
Per i carichi di lavoro di machine learning che coinvolgono modelli di dimensioni piccole e medie, il raggiungimento di un equilibrio ottimale tra prezzo e prestazioni è una considerazione primaria.
Acceleratori consigliati
La tabella seguente descrive gli acceleratori consigliati da utilizzare per i workload ML di modelli di dimensioni piccole e medie.
| Workload | Consigli | Guida al deployment delle VM | |
|---|---|---|---|
| Tipo di macchina | Orchestrator | ||
| Machine learning per modelli di dimensioni ridotte e medie |
|
N/D | Crea un'istanza G2 o G4 |
Consigli per l'HPC
Per i carichi di lavoro HPC, qualsiasi serie di macchine ottimizzata per l'acceleratore o serie di macchine ottimizzato per il calcolo funziona bene. Se utilizzi una serie di macchine ottimizzate per l'acceleratore, la soluzione migliore dipende dalla quantità di calcoli da trasferire sulla GPU. Per un elenco dettagliato di consigli per i carichi di lavoro HPC, vedi Best practice per l'esecuzione dei carichi di lavoro HPC.
Riepilogo dei consigli
Di seguito è riportato un riepilogo dei consigli su quale acceleratore, tipo di consumo e servizio di archiviazione consigliamo per diversi carichi di lavoro.
Risorsa |
Consiglio |
|---|---|
| Pre-addestramento del modello | |
| Famiglia di macchine | Utilizza uno dei seguenti tipi di macchine ottimizzate per l'acceleratore: A4, A3 Ultra, A3 Mega o A3 High |
| Tipo di consumo | Utilizza prenotazioni |
| Archiviazione | Utilizza un servizio gestito come Google Cloud Managed Lustre o Cloud Storage FUSE Google Cloud |
| Ottimizzazione del modello | |
| Famiglia di macchine | Utilizza i tipi di macchine ottimizzati per l'acceleratore A4X, A4 o A3. |
| Tipo di consumo | Utilizza prenotazioni |
| Archiviazione | Utilizza un servizio gestito come Google Cloud Managed Lustre o Cloud Storage FUSE Google Cloud |
| Inferenza | |
| Famiglia di macchine | Utilizza uno dei seguenti tipi di macchine ottimizzate per l'acceleratore: A4, A3 Ultra, A3 Mega o A3 High |
| Tipo di consumo | Utilizza prenotazioni |
| Archiviazione | Utilizza un servizio gestito come Google Cloud Managed Lustre o Cloud Storage FUSE Google Cloud |
| HPC (computing ad alte prestazioni) | |
| Consulta la sezione di riepilogo delle best practice per l'esecuzione dei carichi di lavoro HPC | |