Tipi di macchina GPU

Questo documento descrive i modelli di GPU NVIDIA che puoi utilizzare per accelerare il machine learning (ML), l'elaborazione dei dati e i workload a uso intensivo di grafica sulle tue istanze Compute Engine. Questo documento descrive anche quali GPU sono precollegate alle serie di macchine ottimizzate per l'acceleratore, come A4X Max, A4X, A4, A3, A2, G4 e G2, e quali GPU puoi collegare alle istanze N1 per uso generico.

Utilizza questo documento per confrontare le prestazioni, la memoria e le funzionalità di diversi modelli di GPU. Per una panoramica più dettagliata della famiglia di macchine ottimizzate per l'acceleratore, incluse informazioni su piattaforme CPU, opzioni di archiviazione e funzionalità di networking, e per trovare il tipo di macchina specifico adatto al tuo workload, consulta la pagina Famiglia di macchine ottimizzate per l'acceleratore.

Per saperne di più sulle GPU su Compute Engine, consulta Informazioni sulle GPU.

Per visualizzare le regioni e le zone disponibili per le GPU su Compute Engine, consulta Disponibilità delle GPU per regioni e zone.

Panoramica

Compute Engine offre diversi tipi di macchine per supportare i vari carichi di lavoro.

Alcuni tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX. Quando crei un'istanza che utilizza la workstation virtuale NVIDIA RTX, Compute Engine aggiunge automaticamente una licenza vWS. Per informazioni sui prezzi delle workstation virtuali, consulta la pagina dei prezzi delle GPU.

Tipi di macchine GPU
Workload AI e ML	Grafica e visualizzazione	Altri carichi di lavoro GPU
I tipi di macchina della serie A ottimizzati per l'acceleratore sono progettati per workload di computing ad alte prestazioni (HPC), intelligenza artificiale (AI) e machine learning (ML). La serie A di generazione successiva è ideale per il preaddestramento e l'ottimizzazione dei foundation model che coinvolgono grandi cluster di acceleratori, mentre la serie A2 può essere utilizzata per l'addestramento di modelli più piccoli e l'inferenza su un singolo host. Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.	I tipi di macchina della serie G ottimizzati per l'acceleratore sono progettati per carichi di lavoro come quelli di simulazione NVIDIA Omniverse, applicazioni ad alta intensità grafica, transcodifica video e desktop virtuali. Questi tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX. La serie G può essere utilizzata anche per l'addestramento di modelli più piccoli e per l'inferenza su un singolo host. Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.	Per i tipi di macchine per uso generico N1, ad eccezione di N1 con core condivisi (`f1-micro` e `g1-small`), puoi collegare un insieme selezionato di modelli di GPU. Alcuni di questi modelli di GPU supportano anche le workstation virtuali (vWS) NVIDIA RTX.
A4X Max (NVIDIA GB300 Ultra Superchips) (`nvidia-gb300`) A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	I seguenti modelli di GPU possono essere collegati ai tipi di macchine per uso generico N1: NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

Tipi di macchine GPU

Workload AI e ML Grafica e visualizzazione Altri carichi di lavoro GPU

I tipi di macchina della serie A ottimizzati per l'acceleratore sono progettati per workload di computing ad alte prestazioni (HPC), intelligenza artificiale (AI) e machine learning (ML).

La serie A di generazione successiva è ideale per il preaddestramento e l'ottimizzazione dei foundation model che coinvolgono grandi cluster di acceleratori, mentre la serie A2 può essere utilizzata per l'addestramento di modelli più piccoli e l'inferenza su un singolo host.

Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.

I tipi di macchina della serie G ottimizzati per l'acceleratore sono progettati per carichi di lavoro come quelli di simulazione NVIDIA Omniverse, applicazioni ad alta intensità grafica, transcodifica video e desktop virtuali. Questi tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX.

La serie G può essere utilizzata anche per l'addestramento di modelli più piccoli e per l'inferenza su un singolo host.

Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.

Per i tipi di macchine per uso generico N1, ad eccezione di N1 con core condivisi (f1-micro e g1-small), puoi collegare un insieme selezionato di modelli di GPU. Alcuni di questi modelli di GPU supportano anche le workstation virtuali (vWS) NVIDIA RTX.

A4X Max (NVIDIA GB300 Ultra Superchips)
(nvidia-gb300)
A4X (NVIDIA GB200 Superchips)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

I seguenti modelli di GPU possono essere collegati ai tipi di macchine per uso generico N1:

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

Puoi anche utilizzare alcuni tipi di macchine GPU su AI Hypercomputer. AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Questa opzione è consigliata per creare un'infrastruttura densamente allocata e ottimizzata per le prestazioni che dispone di integrazioni per Google Kubernetes Engine (GKE) e gli scheduler Slurm.

Serie di macchine A4X Max e A4X

Le serie di macchine A4X Max e A4X vengono eseguite su una piattaforma exascale basata sull'architettura a livello di rack di NVIDIA e sono ottimizzate per l'addestramento ML con vincoli di rete, ad alta intensità di calcolo e memoria, nonché per i workload HPC. A4X Max e A4X differiscono principalmente per i componenti GPU e di rete. A4X Max offre anche istanze bare metal, che forniscono accesso diretto alla CPU e alla memoria del server host, senza il livello hypervisor di Compute Engine.

Tipi di macchine A4X Max (bare metal)

I tipi di macchine A4X Max ottimizzate per l'acceleratore utilizzano i superchip NVIDIA GB300 Grace Blackwell Ultra (nvidia-gb300) e sono ideali per l'addestramento e la pubblicazione di modelli di base. I tipi di macchine A4X Max sono disponibili come istanze bare metal.

A4X Max è una piattaforma exascale basata su NVIDIA GB300 NVL72. Ogni macchina ha due socket con CPU NVIDIA Grace con core Arm Neoverse V2. Queste CPU sono collegate a quattro GPU NVIDIA B300 Blackwell con comunicazione chip-to-chip (NVLink-C2C) veloce.

						Superchip NVIDIA GB300 Grace Blackwell Ultra collegati
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM3e)
`a4x-maxgpu-4g-metal`	144	960	12.000	6	3600	4	1116

¹ Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
²La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori. Per saperne di più sulla larghezza di banda di rete, consulta Larghezza di banda di rete.
³ La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.

Tipi di macchine A4X

I tipi di macchine A4X ottimizzate per l'acceleratore utilizzano i superchip NVIDIA GB200 Grace Blackwell (nvidia-gb200) e sono ideali per l'addestramento e la pubblicazione di modelli di base.

A4X è una piattaforma exascale basata su NVIDIA GB200 NVL72. Ogni macchina ha due socket con CPU NVIDIA Grace con core Arm Neoverse V2. Queste CPU sono collegate a quattro GPU NVIDIA B200 Blackwell con comunicazione chip-to-chip (NVLink-C2C) veloce.

						Superchip NVIDIA GB200 Grace Blackwell collegati
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12.000	6	2000	4	744

Serie di macchine A4

I tipi di macchine A4 ottimizzate per l'acceleratore sono collegate a GPU NVIDIA B200 Blackwell (nvidia-b200) e sono ideali per l'addestramento e la pubblicazione di modelli di base.

						GPU NVIDIA B200 Blackwell collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM3e)
`a4-highgpu-8g`	224	3968	12.000	10	3600	8	1440

¹ Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
²La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori. Per ulteriori informazioni sulla larghezza di banda di rete, consulta Larghezza di banda di rete.
³ La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.

Serie di macchine A3

I tipi di macchine A3 ottimizzate per l'acceleratore sono collegate a GPU NVIDIA H100 SXM o NVIDIA H200 SXM.

Tipo di macchina A3 Ultra

I tipi di macchina A3 Ultra sono collegati a GPU NVIDIA H200 SXM (nvidia-h200-141gb) e offrono le massime prestazioni di rete nella serie A3. I tipi di macchine A3 Ultra sono ideali per l'addestramento e la pubblicazione di foundation model.

						GPU NVIDIA H200 collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM3e)
`a3-ultragpu-8g`	224	2952	12.000	10	3600	8	1128

Tipi di macchine A3 Mega, High ed Edge

Per utilizzare le GPU NVIDIA H100 SXM, hai le seguenti opzioni:

A3 Mega: questi tipi di macchine dispongono di GPU H100 SXM (nvidia-h100-mega-80gb) e sono ideali per workload di addestramento e pubblicazione su larga scala.
A3 High: questi tipi di macchine dispongono di GPU H100 SXM (nvidia-h100-80gb) e sono adatti sia per le attività di addestramento sia per quelle di pubblicazione.
A3 Edge: questi tipi di macchine sono dotati di GPU H100 SXM (nvidia-h100-80gb), sono progettati specificamente per la pubblicazione e sono disponibili in un insieme limitato di regioni.

A3 Mega

Nota: quando esegui il provisioning dei tipi di macchine a3-megagpu-8g, ti consigliamo di utilizzare un cluster di queste istanze ed eseguire il deployment con uno scheduler come Google Kubernetes Engine (GKE) o Slurm. Per istruzioni dettagliate su queste opzioni, consulta quanto segue:

Per creare un cluster Google Kubernetes Engine, consulta Esegui il deployment di un cluster A3 Mega con GKE.
Per creare un cluster Slurm, consulta Esegui il deployment di un cluster A3 Mega Slurm.

						GPU NVIDIA H100 collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM3)
`a3-megagpu-8g`	208	1872	6000	9	1800	8	640

A3 High

Nota: durante il provisioning dei tipi di macchine a3-highgpu-1g, a3-highgpu-2g o a3-highgpu-4g, devi creare istanze utilizzando VM spot o VM flessibili. Per istruzioni dettagliate su queste opzioni, consulta quanto segue:

Per creare VM spot, imposta il modello di provisioning su SPOT quando crei una VM ottimizzata per l'acceleratore.
Per creare VM con avvio flessibile, puoi utilizzare uno dei seguenti metodi:
- Crea una VM autonoma e imposta il modello di provisioning su FLEX_START quando crei una VM ottimizzata per l'acceleratore.
- Crea una richiesta di ridimensionamento in un gruppo di istanze gestite (MIG). Per istruzioni, vedi Crea un MIG con VM GPU.

						GPU NVIDIA H100 collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1500	1	50	2	160
`a3-highgpu-4g`	104	936	3000	1	100	4	320
`a3-highgpu-8g`	208	1872	6000	5	1000	8	640

A3 Edge

						GPU NVIDIA H100 collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM3)
`a3-edgegpu-8g`	208	1872	6000	5	600: per asia-south1 e northamerica-northeast2 400: per tutte le altre regioni A3 Edge	8	640

Serie di macchine A2

I tipi di macchine A2 ottimizzate per l'acceleratore sono collegate a GPU NVIDIA A100 e sono ideali per il perfezionamento dei modelli, l'inferenza di modelli di grandi dimensioni e l'inferenza ottimizzata per i costi.

La serie di macchine A2 offre due tipi:

A2 Ultra: a questi tipi di macchine sono collegate GPU A100 da 80 GB (nvidia-a100-80gb) e dischi SSD locali.
A2 Standard: a questi tipi di macchine sono collegate GPU A100 da 40 GB (nvidia-tesla-a100). Puoi anche aggiungere dischi SSD locali quando crei un'istanza A2 Standard. Per il numero di dischi che puoi collegare, vedi Tipi di macchine per cui devi scegliere un numero di dischi SSD locali.

A2 Ultra

					GPU NVIDIA A100 da 80 GB collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale collegato (GiB)	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM2e)
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1500	50	4	320
`a2-ultragpu-8g`	96	1360	3000	100	8	640

A2 Standard

					GPU NVIDIA A100 da 40 GB collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD locale supportato	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB HBM2)
`a2-highgpu-1g`	12	85	Sì	24	1	40
`a2-highgpu-2g`	24	170	Sì	32	2	80
`a2-highgpu-4g`	48	340	Sì	50	4	160
`a2-highgpu-8g`	96	680	Sì	100	8	320
`a2-megagpu-16g`	96	1360	Sì	100	16	640

Serie di macchine G4

I tipi di macchina G4 ottimizzati per l'acceleratore utilizzano GPU NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) e sono adatti per i workload di simulazione NVIDIA Omniverse, le applicazioni ad alta intensità grafica, la transcodifica video e i desktop virtuali. I tipi di macchine G4 forniscono anche una soluzione a basso costo per l'esecuzione dell'inferenza su un singolo host e l'ottimizzazione del modello rispetto ai tipi di macchine della serie A.

Una funzionalità chiave della serie G4 è il supporto della comunicazione peer-to-peer (P2P) diretta tra GPU sui tipi di macchine multi-GPU (g4-standard-96, g4-standard-192, g4-standard-384). Ciò consente alle GPU all'interno della stessa istanza di scambiare dati direttamente sul bus PCIe, senza coinvolgere l'host CPU. Per saperne di più sulla comunicazione peer-to-peer delle GPU G4, consulta Comunicazione peer-to-peer delle GPU G4.

						GPU NVIDIA RTX PRO 6000 collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza (GB)	SSD Titanium massimo supportato (GiB)²	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)³	Conteggio GPU	Memoria GPU⁴ (GB GDDR7)
`g4-standard-48`	48	180	1500	1	50	1	96
`g4-standard-96`	96	360	3000	1	100	2	192
`g4-standard-192`	192	720	6000	1	200	4	384
`g4-standard-384`	384	1440	12.000	2	400	8	768

¹ Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
²Puoi aggiungere dischi Titanium SSD quando crei un'istanza G4. Per il numero di dischi che puoi collegare, vedi Tipi di macchine per cui devi scegliere un numero di dischi SSD locali.
³ La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori. Vedi Larghezza di banda della rete.
⁴ La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.

Serie di macchine G2

I tipi di macchina G2 ottimizzati per l'acceleratore sono collegati a GPU NVIDIA L4 e sono ideali per inferenza ottimizzata per i costi, carichi di lavoro ad alta intensità di grafica e di computing ad alte prestazioni.

Ogni tipo di macchina G2 ha anche una memoria predefinita e un intervallo di memoria personalizzato. L'intervallo di memoria personalizzato definisce la quantità di memoria che puoi allocare all'istanza per ogni tipo di macchina. Puoi anche aggiungere dischi SSD locali quando crei un'istanza G2. Per il numero di dischi che puoi collegare, vedi Tipi di macchine per cui devi scegliere un numero di dischi SSD locali.

						GPU NVIDIA L4 collegate
Tipo di macchina	Numero di vCPU¹	Memoria istanza predefinita (GB)	Intervallo di memoria istanza personalizzato (GB)	SSD locale massimo supportato (GiB)	Larghezza di banda massima della rete (Gbps)²	Conteggio GPU	Memoria GPU³ (GB GDDR6)
`g2-standard-4`	4	16	16-32	375	10	1	24
`g2-standard-8`	8	32	32-54	375	16	1	24
`g2-standard-12`	12	48	48-54	375	16	1	24
`g2-standard-16`	16	64	54-64	375	32	1	24
`g2-standard-24`	24	96	96-108	750	32	2	48
`g2-standard-32`	32	128	96-128	375	32	1	24
`g2-standard-48`	48	192	192-216	1500	50	4	96
`g2-standard-96`	96	384	384-432	3000	100	8	192

Serie di macchine N1

Puoi collegare i seguenti modelli di GPU a un tipo di macchina N1, ad eccezione dei tipi di macchine N1 con core condivisi.

A differenza dei tipi di macchina della serie di macchine ottimizzate per l'acceleratore, i tipi di macchina N1 non sono dotati di un numero fisso di GPU collegate. Specifichi invece il numero di GPU da collegare durante la creazione dell'istanza.

Le istanze N1 con meno GPU limitano il numero massimo di vCPU. Di norma, un numero maggiore di GPU ti consente di creare istanze con più memoria e un numero maggiore di vCPU.

N1+GPU T4

Puoi collegare GPU NVIDIA T4 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.

Tipo di acceleratore	Conteggio GPU	Memoria GPU¹ (GB GDDR6)	Numero di vCPU	Memoria istanza (GB)	SSD locale supportato
`nvidia-tesla-t4` o `nvidia-tesla-t4-vws`	1	16	1-48	1-312	Sì
	2	32	1-48	1-312	Sì
	4	64	1-96	1-624	Sì

¹ La memoria GPU è la memoria disponibile su un dispositivo GPU che puoi utilizzare per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.

N1+GPU P4

Puoi collegare GPU NVIDIA P4 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.

Tipo di acceleratore	Conteggio GPU	Memoria GPU¹ (GB GDDR5)	Numero di vCPU	Memoria istanza (GB)	SSD locale supportato²
`nvidia-tesla-p4` o `nvidia-tesla-p4-vws`	1	8	1-24	1-156	Sì
	2	16	1-48	1-312	Sì
	4	32	1-96	1-624	Sì

¹ La memoria GPU è la memoria disponibile su una GPU che puoi utilizzare per l'archiviazione temporanea dei dati. È separata dalla memoria dell'istanza ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
² Per le istanze con GPU NVIDIA P4 collegate, i dischi SSD locali sono supportati solo nelle zone us-central1-c e northamerica-northeast1-b.

N1+GPU V100

Puoi collegare GPU NVIDIA V100 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.

Tipo di acceleratore	Conteggio GPU	Memoria GPU¹ (GB HBM2)	Numero di vCPU	Memoria istanza (GB)	SSD locale supportato²
`nvidia-tesla-v100`	1	16	1-12	1-78	Sì
	2	32	1-24	1-156	Sì
	4	64	1-48	1-312	Sì
	8	128	1-96	1-624	Sì

N1+GPU P100

Puoi collegare GPU NVIDIA P100 alle istanze N1 per uso generico con le seguenti configurazioni di istanza.

Per alcune GPU NVIDIA P100, la CPU e la memoria massime disponibili per alcune configurazioni dipendono dalla zona in cui è in esecuzione la risorsa GPU.

Tipo di acceleratore	Conteggio GPU	Memoria GPU¹ (GB HBM2)	Zona	Numero di vCPU	Memoria istanza (GB)	SSD locale supportato
`nvidia-tesla-p100` o `nvidia-tesla-p100-vws`	1	16	Tutte le zone P100	1-16	1-104	Sì
	2	32	Tutte le zone P100	Da 1 a 32	1-208	Sì
	4	64	`us-east1-c`, `europe-west1-d`, `europe-west1-b`	1-64	1-208	Sì
	4	64	Tutte le altre zone P100	1-96	1-624	Sì

Grafico di confronto generale

La seguente tabella descrive le dimensioni della memoria GPU, la disponibilità delle funzionalità e i tipi di workload ideali dei diversi modelli di GPU su Compute Engine.

Tipo di macchina (modello di GPU)	Memoria GPU	Interconnessione	Ideale per
A4X Max (GB300)	279 GB HBM3e a 8 TBps	NVLink Full Mesh a 1800 GBps	Addestramento e inferenza distribuiti su larga scala di LLM MoE, motori per suggerimenti e HPC
A4X (GB200)	186 GB HBM3e a 8 TBps	NVLink Full Mesh a 1800 GBps	Addestramento e inferenza distribuiti su larga scala di LLM, motori per suggerimenti e HPC
A4 (B200)	180 GB HBM3e a 8 TBps	NVLink Full Mesh a 1800 GBps	Addestramento e inferenza distribuiti su larga scala di LLM, motori per suggerimenti e HPC
A3 Ultra (H200)	141 GB HBM3e a 4,8 TBps	NVLink Full Mesh a 900 GBps	Modelli di grandi dimensioni con tabelle di dati estremamente grandi per addestramento ML, inferenza, HPC, BERT, DLRM
A3 Mega, A3 High, A3 Edge (H100)	HBM3 da 80 GB a 3,35 TBps	NVLink Full Mesh a 900 GBps	Modelli di grandi dimensioni con tabelle di dati estremamente grandi per addestramento ML, inferenza, HPC, BERT, DLRM
A2 Ultra (A100 da 80 GB)	HBM2e da 80 GB a 1,9 TBps	NVLink Full Mesh a 600 GBps	Modelli di grandi dimensioni con tabelle di dati estremamente grandi per addestramento ML, inferenza, HPC, BERT, DLRM
A2 Standard (A100 40GB)	HBM2 da 40 GB a 1,6 TBps	NVLink Full Mesh a 600 GBps	Addestramento ML, inferenza, HPC
G4 (RTX PRO 6000)	GDDR7 da 96 GB con ECC a 1597 GBps	N/D	Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video, HPC
G2 (L4)	GDDR6 da 24 GB a 300 GBps	N/D	Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video, HPC
N1 (T4)	GDDR6 da 16 GB a 320 GBps	N/D	Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video
N1 (P4)	GDDR5 da 8 GB a 192 GBps	N/D	Workstation di visualizzazione remota, inferenza ML e transcodifica video
N1 (V100)	HBM2 da 16 GB a 900 GBps	NVLink Ring a 300 GBps	Addestramento ML, inferenza, HPC
N1 (P100)	HBM2 da 16 GB a 732 GBps	N/D	Addestramento ML, inferenza, HPC, workstation di visualizzazione remota

Per confrontare i prezzi delle GPU per i diversi modelli e le regioni disponibili su Compute Engine, consulta Prezzi delle GPU.

Prestazioni di Tensor Core e dei core CUDA standard

Le seguenti sezioni forniscono le metriche di rendimento per ogni architettura GPU, suddivise in core CUDA vettoriali o standard e rendimento dei Tensor Core.

Tensor Core: le prestazioni di Tensor si riferiscono al throughput ottenuto dai Tensor Core specializzati. Si tratta di unità hardware dedicate (spesso chiamate unità matrice) progettate specificamente per accelerare le operazioni di moltiplicazione e accumulo di matrici di grandi dimensioni che costituiscono la base del deep learning, dell'addestramento e dell'inferenza.

Questo tipo di prestazioni è ideale per il deep learning, i modelli linguistici di grandi dimensioni (LLM) e qualsiasi carico di lavoro che può essere espresso come operazioni matriciali dense. I Tensor Core forniscono un throughput significativamente più elevato rispetto ai CUDA Core per lo stesso tipo di dati.
Core CUDA vettoriali o standard: le prestazioni vettoriali si riferiscono al throughput raggiunto dai core CUDA standard. Si tratta di unità generiche che operano utilizzando un modello di istruzione singola, più thread (SIMT), in genere eseguendo operazioni su singoli elementi di dati o vettori.

Questo tipo di prestazioni è ideale per il calcolo generico, il rendering grafico e i carichi di lavoro che non comportano calcoli di matrici dense.

Architettura di Blackwell

I tipi di macchine A4X Max, A4X, A4 e G4 vengono eseguiti sull'architettura Blackwell di NVIDIA.

Tensor Core

L'architettura Blackwell di NVIDIA, utilizzata da questi tipi di macchine, introduce il supporto di Tensor Core per la precisione FP4 e funzionalità INT4 estese per prestazioni rivoluzionarie nell'inferenza di modelli di grandi dimensioni.

Tipo di macchina (modello di GPU)	FP64 (TFLOPS)	TF32 (TFLOPS)	FP16/32 misto (TFLOPS)	INT8 (TOPS)	INT4 (TOPS)	FP8 (TFLOPS)	FP4 (TFLOPS)
A4X Max (GB300)	1.3	2500	5000	330	155	10.000	15.000
A4X (GB200)	40	2500	5000	10.000	20.000	10.000	10.000
A4 (B200)	40	1100	4500	9000	-	9000	-
G4 (RTX PRO 6000)	1.8	140	935,6	1871,2	-	-	2200

Note aggiuntive:

Per l'addestramento con precisione mista, NVIDIA GB300, GB200, B200 e RTX PRO 6000 supportano anche il tipo di dati bfloat16.
Le GPU NVIDIA GB300, GB200, B200 e RTX PRO 6000 supportano la sparsità strutturale, che può raddoppiare la velocità effettiva di calcolo. I valori di rendimento in questa sezione presuppongono la moltiplicazione di matrici dense. Se utilizzi la sparsità strutturale, il rendimento raddoppia.

Core CUDA standard

I tipi di macchina che utilizzano l'architettura Blackwell forniscono operazioni FP64 e FP32 ad alte prestazioni per workload HPC e AI impegnativi.

Per A4X Max, A4X e A4, le operazioni FP16 vengono accelerate dai Tensor Core. Per G4, le prestazioni FP16 sui core CUDA standard sono incluse perché i carichi di lavoro grafici, come il rendering e la visualizzazione, possono trarre vantaggio dai requisiti di larghezza di banda e utilizzo della memoria ridotti della precisione FP16, anche quando non si utilizzano i Tensor Core.

Tipo di macchina (modello di GPU)	FP64 (TFLOPS)	FP32 (TFLOPS)	FP16 (TFLOPS)
A4X Max (GB300)	1.3	80	-
A4X (GB200)	40	80	-
A4 (B200)	40	80	-
G4 (RTX PRO 6000)	2	117	117

Architetture Hopper, Ada Lovelace e Ampere

La serie A3 utilizza l'architettura Hopper, che ha introdotto motori specializzati per i modelli Transformer. La serie A2 utilizza l'architettura Ampere, che fornisce una base equilibrata per l'addestramento e l'inferenza ad alte prestazioni. La serie G2 utilizza l'architettura Ada Lovelace, che offre un'accelerazione versatile ed efficiente dal punto di vista energetico per l'inferenza AI, la transcodifica video e i carichi di lavoro grafici.

Tensor Core

Le architetture Hopper, Ada Lovelace e Ampere sono dotate di Tensor Core avanzati che accelerano i tipi di dati TF32, FP16, FP8 e INT8, fornendo un throughput elevato per l'addestramento e l'inferenza a precisione mista.

Tipo di macchina (modello di GPU)	FP64 (TFLOPS)	TF32 (TFLOPS)	FP16/32 misto (TFLOPS)	INT8 (TOPS)	INT4 (TOPS)	FP8 (TFLOPS)
A3 Ultra (H200)	67	989	1979	3958	-	3958
A3 Mega/High/Edge (H100)	67	989	1979	3958	-	3958
A2 Ultra (A100 da 80 GB)	19,5	156	312	624	1248	-
A2 Standard (A100 40GB)	19,5	156	312	624	1248	-
G2 (L4)	-	120	242	485	-	485

Note aggiuntive:

Per l'addestramento con precisione mista, le GPU NVIDIA H200, H100, A100 e L4 supportano anche il tipo di dati bfloat16.
Le GPU NVIDIA H200, H100, A100 e L4 supportano la sparsità strutturale, che può raddoppiare la velocità effettiva di calcolo. I valori di rendimento in questa sezione presuppongono la moltiplicazione di matrici dense. Se utilizzi la sparsità strutturale, il rendimento raddoppia.

Core CUDA standard

I tipi di macchine che utilizzano le architetture Hopper, Ada Lovelace e Ampere forniscono operazioni FP64 e FP32 ad alte prestazioni per i workload HPC e AI più impegnativi.

Tipo di macchina (modello di GPU)	FP64 (TFLOPS)	FP32 (TFLOPS)
A3 Ultra (H200)	34	67
A3 Mega, High, Edge (H100)	34	67
A2 Ultra (A100 da 80 GB)	9.7	19,5
A2 Standard (A100 40GB)	9.7	19,5
G2 (L4)	0,5	30,3

Architetture Volta, Pascal e Turing

I tipi di macchine N1 utilizzano le seguenti architetture GPU:

Volta (V100)
Pascal (P100 e P4)
Turing (T4)

Tensor Core

Le architetture Turing e Volta di NVIDIA, disponibili sulle istanze N1, forniscono il supporto di Tensor Core per operazioni a precisione mista, INT8 e INT4, offrendo un'accelerazione di base per l'inferenza del deep learning.

Queste GPU hanno introdotto le prime generazioni di Tensor Core, utilizzati principalmente per l'addestramento FP16 e la quantizzazione INT8 e INT4 nell'inferenza. Questa tabella non include i tipi di macchine N1 (P4) e N1 (P100) perché non hanno Tensor Core.

Tipo di macchina (modello di GPU)	FP16/32 misto (TFLOPS)	INT8 (TOPS)	INT4 (TOPS)
N1 (V100)	125	-	-
N1 (T4)	65	130	260

Core CUDA standard

I tipi di macchine che utilizzano le architetture Volta, Pascal e Turing sono dotati di core CUDA FP64 e FP32 per accelerare una serie di carichi di lavoro HPC e AI. Per le GPU P100 e P4, sono incluse anche le prestazioni FP16 e INT8 per supportare i carichi di lavoro di deep learning.

Tipo di macchina (modello di GPU)	FP64 (TFLOPS)	FP32 (TFLOPS)	Metriche aggiuntive
N1 (V100)	7,8	15.7	-
N1 (P100)	4,7	9.3	FP16: 18,7 TFLOPS
N1 (T4)	0,25	8.1	-
N1 (P4)	0,2	5,5	INT8: 22 TOPS

Passaggi successivi

Scopri di più sulle GPU di Compute Engine.
Controlla la disponibilità delle GPU per regioni e zone.
Esamina le larghezze di banda della rete e le GPU.
Visualizza i dettagli dei prezzi delle GPU.

Tipi di macchina GPU Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Panoramica

Serie di macchine A4X Max e A4X

Tipi di macchine A4X Max (bare metal)

Tipi di macchine A4X

Serie di macchine A4

Serie di macchine A3

Tipo di macchina A3 Ultra

Tipi di macchine A3 Mega, High ed Edge

A3 Mega

A3 High

A3 Edge

Serie di macchine A2

A2 Ultra

A2 Standard

Serie di macchine G4

Serie di macchine G2

Serie di macchine N1

N1+GPU T4

N1+GPU P4

N1+GPU V100

N1+GPU P100

Grafico di confronto generale

Prestazioni di Tensor Core e dei core CUDA standard

Architettura di Blackwell

Tensor Core

Core CUDA standard

Architetture Hopper, Ada Lovelace e Ampere

Tensor Core

Core CUDA standard

Architetture Volta, Pascal e Turing

Tensor Core

Core CUDA standard

Passaggi successivi

Tipi di macchina GPU