Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Configurazioni consigliate

Questo documento fornisce consigli sugli acceleratori, sui tipi di consumo e sugli strumenti di deployment più adatti a diversi workload di intelligenza artificiale (AI), machine learning (ML) e computing ad alte prestazioni (HPC). Utilizza questo documento per identificare il deployment migliore per il tuo carico di lavoro.

Per informazioni e consigli sui pilastri dell'infrastruttura per i workload AI, ML e HPC, consulta i seguenti documenti:

Panoramica dei workload

L'architettura AI Hypercomputer supporta i seguenti casi d'uso:

Workload	Descrizione	Consiglio
Modelli di base preaddestrati	Ciò comporta la creazione di un modello linguistico utilizzando un set di dati di grandi dimensioni. Il risultato del pre-addestramento dei foundation model è un nuovo modello in grado di svolgere attività generali. I modelli sono classificati in base alle loro dimensioni come segue: *Modello pioneristico: questi sono modelli ML che vanno da centinaia di miliardi a trilioni di parametri o più. Questi includono modelli linguistici di grandi dimensioni (LLM) come Gemini. Modello di grandi dimensioni*: questi modelli comprendono da decine a centinaia di miliardi di parametri o più.	Visualizza i suggerimenti per i modelli di pre-addestramento
Perfezionamento	Ciò comporta l'utilizzo di un modello addestrato e il suo adattamento per eseguire attività specifiche utilizzando set di dati specializzati o altre tecniche. Il fine-tuning viene generalmente eseguito su modelli di grandi dimensioni.	Consulta i suggerimenti per l'ottimizzazione dei modelli
Inferenza o pubblicazione	Ciò comporta l'utilizzo di un modello addestrato o ottimizzato e la sua messa a disposizione per l'utilizzo da parte di utenti o applicazioni. I workload di inferenza sono classificati in base alle dimensioni dei modelli come segue: *Inferenza del foundation model multihost: esecuzione dell'inferenza con modelli di machine learning addestrati che comprendono centinaia di miliardi o trilioni di parametri o più. Per questi carichi di lavoro di inferenza, il carico di calcolo è condiviso tra più macchine host. Inferenza di foundation model su un singolo host: esecuzione dell'inferenza con modelli ML addestrati che comprendono decine o centinaia di miliardi di parametri. Per questi carichi di lavoro di inferenza, il carico computazionale è limitato a una singola macchina host. Inferenza di modelli di grandi dimensioni*: esecuzione dell'inferenza con modelli ML addestrati o ottimizzati che comprendono decine o centinaia di miliardi di parametri.	Visualizza i consigli per l'inferenza
Machine learning per modelli di dimensioni ridotte e medie	Ciò comporta l'addestramento e la gestione di modelli ML di dimensioni e complessità ridotte, in genere per attività più specializzate.	Consulta i suggerimenti per il machine learning di modelli di piccole e medie dimensioni.
HPC	Si tratta della pratica di aggregazione di risorse di calcolo per ottenere prestazioni superiori a quelle di una singola workstation, un singolo server o computer. L'HPC viene utilizzato per risolvere problemi di ricerca accademica, scienze, progettazione, simulazione e business intelligence.	Consulta i consigli per HPC

Suggerimenti per i modelli di pre-addestramento

L'addestramento dei foundation model prevede grandi cluster di acceleratori, la lettura continua di grandi volumi di dati e la regolazione dei pesi tramite passaggi in avanti e indietro per apprendere dai dati. Questi job di addestramento vengono eseguiti per settimane o persino mesi alla volta.

Le sezioni seguenti descrivono gli acceleratori e il tipo di consumo consigliato da utilizzare per il pre-addestramento dei modelli.

Acceleratori consigliati

Per pre-addestrare i modelli di base su Google Cloud, ti consigliamo di utilizzare i tipi di macchine ottimizzati per l'acceleratore A4X Max, A4 o A3 e di utilizzare un orchestratore per eseguire il deployment del cluster. Per eseguire il deployment di questi grandi cluster di acceleratori, ti consigliamo di utilizzare Cluster Director o Cluster Toolkit. Per ulteriori informazioni, consulta la guida al deployment relativa al cluster che preferisci nella tabella seguente.

Workload	Consigli		Guida al deployment del cluster
	Tipo di macchina	Orchestrator
Addestramento di modelli pioneristici Addestramento di modelli di grandi dimensioni	A4X Max A4X A4 A3 Ultra	GKE	Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita
	A4X Max A4X A4 A3 Ultra	Slurm	Crea un cluster Slurm completamente gestito per i workload di AI Crea un cluster Slurm autogestito per i carichi di lavoro AI
Addestramento di modelli pioneristici Addestramento di modelli di grandi dimensioni	A3 Mega	GKE	Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard
	A3 Mega	Slurm	Crea un cluster ottimizzato per l'AI basato su un modello Esegui il deployment di un cluster Slurm A3 Mega per l'addestramento ML
Addestramento di modelli di grandi dimensioni	A3 High	GKE	Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard
Addestramento di modelli di grandi dimensioni	A3 High	Slurm	Esegui il deployment di un cluster A3 High Slurm

Tipo di consumo consigliato

Per un elevato livello di garanzia nell'ottenimento di grandi cluster di acceleratori, ti consigliamo di utilizzare una prenotazione. In particolare, per ridurre al minimo i costi delle risorse riservate, ti consigliamo di richiedere questa prenotazione per una durata sufficientemente lunga da ricevere sconti per impegno di utilizzo. Per saperne di più sui tipi di consumo, consulta Scegliere un'opzione di consumo.

Consigli per l'ottimizzazione dei modelli

L'ottimizzazione di modelli di base di grandi dimensioni prevede cluster più piccoli di acceleratori, la lettura di volumi moderati di dati e la regolazione del modello per eseguire attività specifiche. Questi job di perfezionamento vengono eseguiti per giorni o addirittura settimane.

Le sezioni seguenti descrivono gli acceleratori e il tipo di consumo consigliati da utilizzare durante l'ottimizzazione dei modelli.

Acceleratori consigliati

Per ottimizzare i modelli su Google Cloud, ti consigliamo di utilizzare i tipi di macchina A4X Max, A4X, A4 o A3 ottimizzati per l'acceleratore e di utilizzare un orchestratore per eseguire il deployment del cluster.

Per eseguire il deployment di questi cluster di acceleratori, ti consigliamo anche di utilizzare Cluster Director o Cluster Toolkit. Per ulteriori informazioni, consulta la guida al deployment del cluster corrispondente al tipo di macchina che preferisci nella tabella seguente.

Workload	Consigli		Guida al deployment del cluster
	Tipo di macchina	Orchestrator
Ottimizzazione di modelli di grandi dimensioni	A4X Max A4X A4	GKE	Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita
Ottimizzazione di modelli di grandi dimensioni	A4X Max A4X A4	Slurm	Crea un cluster Slurm completamente gestito per i workload di AI Crea un cluster Slurm autogestito per i carichi di lavoro AI
Ottimizzazione di modelli di grandi dimensioni	A3 Mega	GKE	Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard
Ottimizzazione di modelli di grandi dimensioni	A3 Mega	Slurm	Crea un cluster ottimizzato per l'AI basato su un modello Esegui il deployment di un cluster Slurm A3 Mega per l'addestramento ML
Ottimizzazione di modelli di grandi dimensioni	A3 High	GKE	Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard
Ottimizzazione di modelli di grandi dimensioni	A3 High	Slurm	Esegui il deployment di un cluster A3 High Slurm

Tipo di consumo consigliato

Per ottimizzare i workload, ti consigliamo di utilizzare la prenotazione futura in modalità calendario per eseguire il provisioning delle risorse. Per saperne di più sulle opzioni di consumo, vedi Scegliere un'opzione di consumo.

Consigli per l'inferenza

Le sezioni seguenti descrivono gli acceleratori e il tipo di consumo consigliati da utilizzare durante l'inferenza.

Acceleratori consigliati

Gli acceleratori consigliati per l'inferenza dipendono dal tipo di inferenza che esegui: frontier multihost, frontier monohost o di modelli di grandi dimensioni.

Acceleratori consigliati (multi-host)

Per eseguire l'inferenza di modelli di frontiera o di grandi dimensioni su più host su Google Cloud, ti consigliamo di utilizzare un tipo di macchina ottimizzato per l'acceleratore A4X Max, A4X, A4 o A3 ed eseguire il deployment della macchina utilizzando un orchestratore. Per eseguire il deployment di questi cluster di acceleratori, ti consigliamo anche di utilizzare Cluster Director o Cluster Toolkit. Per iniziare a utilizzare questi cluster, viene fornito un link a una guida al deployment dei cluster per ogni tipo di macchina consigliato.

Workload	Consigli		Guida al deployment del cluster
	Tipo di macchina	Orchestrator
Inferenza della frontiera multi-host	A4X Max A4X A4 A3 Ultra	GKE	Crea un cluster GKE ottimizzato per l'AI con la configurazione predefinita
Inferenza della frontiera multi-host	A4X Max A4X A4 A3 Ultra	Slurm	Crea un cluster Slurm completamente gestito per i workload di AI Crea un cluster Slurm autogestito per i carichi di lavoro AI
Inferenza della frontiera multi-host	A3 Mega	GKE	Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard
Inferenza della frontiera multi-host	A3 Mega	Slurm	Crea un cluster ottimizzato per l'AI basato su un modello Esegui il deployment di un cluster Slurm A3 Mega per l'addestramento ML
Inferenza di modelli di grandi dimensioni	A3 High	GKE	Massimizzare la larghezza di banda di rete della GPU nei cluster in modalità Standard
Inferenza di modelli di grandi dimensioni	A3 High	Slurm	Esegui il deployment di un cluster A3 High Slurm

Acceleratori consigliati (singolo host)

La tabella seguente descrive gli acceleratori consigliati da utilizzare quando esegui l'inferenza frontier su un singolo host. Per iniziare a utilizzare queste VM, viene fornito un link a una guida al deployment delle VM per ogni tipo di macchina consigliato.

Workload	Consigli		Guida al deployment delle VM
	Tipo di macchina	Orchestrator
Inferenza di frontiera a host singolo	A4 A3 Ultra	N/D	Crea un'istanza ottimizzata per l'AI
Inferenza di frontiera a host singolo	A3 High	N/D	Crea una VM A3 in cui è abilitato GPUDirect-TCPX

Tipo di consumo consigliato

Per l'inferenza, consigliamo di utilizzare una prenotazione a lunga esecuzione o una prenotazione futura in modalità calendario. Per ulteriori informazioni sulle opzioni di consumo, consulta Scegliere un'opzione di consumo.

Suggerimenti per il machine learning di modelli di piccole e medie dimensioni

Per i carichi di lavoro di machine learning che coinvolgono modelli di dimensioni piccole e medie, il raggiungimento di un equilibrio ottimale tra prezzo e prestazioni è una considerazione primaria.

Acceleratori consigliati

La tabella seguente descrive gli acceleratori consigliati da utilizzare per i workload ML di modelli di dimensioni piccole e medie.

Workload	Consigli		Guida al deployment delle VM
	Tipo di macchina	Orchestrator
Machine learning di modelli di dimensioni ridotte e medie	G4 G2	N/D	Crea un'istanza G2 o G4

Consigli per l'HPC

Per i carichi di lavoro HPC, qualsiasi serie di macchine ottimizzata per l'acceleratore o serie di macchine ottimizzato per il calcolo è adatta. Se utilizzi una serie di macchine ottimizzata per l'acceleratore, la scelta migliore dipende dalla quantità di calcoli che devono essere scaricati sulla GPU. Per un elenco dettagliato di consigli per i carichi di lavoro HPC, consulta Best practice per l'esecuzione di carichi di lavoro HPC.

Riepilogo dei consigli

Di seguito è riportato un riepilogo dei suggerimenti su quale acceleratore e tipo di consumo consigliamo per diversi workload.

Risorsa	Consiglio
Pre-addestramento del modello
Famiglia di macchine	Utilizza uno dei seguenti tipi di macchine ottimizzate per l'acceleratore: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High
Tipo di consumo	Utilizza prenotazioni
Ottimizzazione del modello
Famiglia di macchine	Utilizza i tipi di macchine ottimizzati per l'acceleratore A4X Max, A4X, A4 o A3
Tipo di consumo	Utilizza prenotazioni
Inferenza
Famiglia di macchine	Utilizza uno dei seguenti tipi di macchine ottimizzate per l'acceleratore: A4X Max, A4X, A4, A3 Ultra, A3 Mega o A3 High
Tipo di consumo	Utilizza prenotazioni
HPC (computing ad alte prestazioni)
Consulta la sezione di riepilogo delle best practice per l'esecuzione dei carichi di lavoro HPC

Configurazioni consigliate Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Panoramica dei workload

Suggerimenti per i modelli di pre-addestramento

Acceleratori consigliati

Tipo di consumo consigliato

Consigli per l'ottimizzazione dei modelli

Acceleratori consigliati

Tipo di consumo consigliato

Consigli per l'inferenza

Acceleratori consigliati

Acceleratori consigliati (multi-host)

Acceleratori consigliati (singolo host)

Tipo di consumo consigliato

Suggerimenti per il machine learning di modelli di piccole e medie dimensioni

Acceleratori consigliati

Consigli per l'HPC

Riepilogo dei consigli

Configurazioni consigliate