Informazioni sulle istanze GPU

Questo documento descrive le funzionalità e le limitazioni delle istanze di Compute Engine con GPU collegate.

Per accelerare workload specifici su Compute Engine, puoi eseguire il deployment di un'istanza ottimizzata per l'acceleratore con GPU collegate o collegare GPU a un'istanza per uso generico N1. Per la maggior parte dei workload, Compute Engine fornisce GPU per le istanze in modalità passthrough, che consente alle istanze di avere il controllo diretto sulle GPU e sulla relativa memoria. Tuttavia, per i workload ad alta intensità grafica che vengono eseguiti su GPU G4, G2 o N1, puoi utilizzare le workstation virtuali (vWS) NVIDIA RTX. Sulle istanze G4, NVIDIA RTX vWS consente l'utilizzo di tipi di macchine con GPU frazionate. Con questi tipi di macchine, una singola GPU fisica può essere condivisa da più workstation virtuali assegnando una GPU virtuale (vGPU) a ogni istanza. Le istanze G2 e N1 supportano vWS, ma non i tipi di macchine con vGPU frazionate.

Puoi anche utilizzare alcuni tipi di macchine GPU su AI Hypercomputer. AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Questa opzione è consigliata per la creazione di un'infrastruttura con allocazione densa e ottimizzata per le prestazioni che include integrazioni per gli scheduler Google Kubernetes Engine (GKE) e Slurm.

Tipi di macchine supportati

Compute Engine offre diversi tipi di macchine per supportare i vari workload.

Alcuni tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX. Quando crei un'istanza che utilizza la workstation virtuale NVIDIA RTX, Compute Engine aggiunge automaticamente una licenza vWS. Per informazioni sui prezzi delle workstation virtuali, consulta la pagina dei prezzi delle GPU.

Tipi di macchine GPU
Workload di AI e ML Grafica e visualizzazione Altri workload GPU
I tipi di macchine della serie A ottimizzati per l'acceleratore sono progettati per workload di computing ad alte prestazioni (HPC), intelligenza artificiale (AI) e machine learning (ML).

La serie A di generazione successiva è ideale per il pre-addestramento e il perfezionamento modelli di base che coinvolgono grandi cluster di acceleratori, mentre la serie A2 può essere utilizzata per l'addestramento di modelli più piccoli e l'inferenza su un singolo host.

Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.

I tipi di macchine della serie G ottimizzati per l'acceleratore sono progettati per workload come i workload di simulazione NVIDIA Omniverse, le applicazioni ad alta intensità grafica, la transcodifica video e i desktop virtuali. Questi tipi di macchine supportano le workstation virtuali (vWS) NVIDIA RTX.

La serie G può essere utilizzata anche per l'addestramento di modelli più piccoli e per l'inferenza su un singolo host.

Per questi tipi di macchine, il modello di GPU viene collegato automaticamente all'istanza.

Per i tipi di macchine per uso generico N1, ad eccezione di N1 con core condivisi (f1-micro e g1-small), puoi collegare un set selezionato di modelli di GPU. Alcuni di questi modelli di GPU supportano anche le workstation virtuali NVIDIA RTX (vWS).

  • A4X Max (NVIDIA GB300 Ultra Superchips)
    (nvidia-gb300)
  • A4X (NVIDIA GB200 Superchips)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80GB)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)
I seguenti modelli di GPU possono essere collegati ai tipi di macchine per uso generico N1: tipi:
  • NVIDIA T4
    (nvidia-tesla-t4)
    (nvidia-tesla-t4-vws)
  • NVIDIA P4
    (nvidia-tesla-p4)
    (nvidia-tesla-p4-vws)
  • NVIDIA V100
    (nvidia-tesla-v100)
  • NVIDIA P100
    (nvidia-tesla-p100)
    (nvidia-tesla-p100-vws). Il supporto per NVIDIA P100 sta per terminare, consulta la pagina relativa alla fine del supporto per NVIDIA P100.

GPU sulle VM spot

Puoi aggiungere GPU alle VM spot a prezzi di Spot inferiori. Le GPU collegate alle VM spot funzionano come normali GPU, ma rimangono attive solo per la durata della VM. Le VM spot con GPU seguono lo stesso processo di prerilascio di tutte le VM spot.

Durante gli eventi di manutenzione, le VM spot con GPU vengono prerilasciate per impostazione predefinita e non possono essere riavviate automaticamente. Se vuoi ricreare le VM dopo che sono state prerilasciate, utilizza un gruppo di istanze gestite. I gruppi di istanze gestite ricreano le istanze VM se vCPU, memoria e risorse GPU sono disponibili.

Se vuoi ricevere un avviso prima che le VM vengano prerilasciate o se vuoi configurarle in modo che si riavviino automaticamente dopo un evento di manutenzione, utilizza VM standard con una GPU. Per le VM standard con GPU, Compute Engine fornisce un preavviso di un'ora prima del prerilascio.

Compute Engine non ti addebita alcun utilizzo della GPU se le VM vengono prerilasciate nel primo minuto dall'inizio della loro esecuzione.

Per scoprire come creare VM spot con GPU collegate, leggi Crea una VM con GPU collegate e Crea VM spot. Ad esempio, consulta Crea un'istanza A3 Ultra o A4 utilizzando le VM spot.

GPU su istanze con tempi di esecuzione predefiniti

In genere, le istanze che utilizzano il modello di provisioning standard non possono utilizzare le quote di allocazione prerilasciabili. Le quote prerilasciabili sono destinate ai workload temporanei e sono in genere più disponibili. Se il progetto non dispone di una quota prerilasciabile e non l'hai mai richiesta, tutte le istanze del progetto utilizzano le quote di allocazione standard.

Se richiedi una quota di allocazione prerilasciabile, le istanze che utilizzano il modello di provisioning standard devono soddisfare tutti i seguenti criteri per utilizzare la quota di allocazione prerilasciabile:

Quando utilizzi l'allocazione prerilasciabile per i workload GPU con limiti di tempo, puoi usufruire sia del tempo di esecuzione ininterrotto sia dell'elevata ottenibilità della quota di allocazione prerilasciabile. Per ulteriori informazioni, consulta Quote prerilasciabili.

GPU e Confidential VM

Puoi utilizzare una GPU con un'istanza Confidential VM che utilizza Intel TDX sulla serie di macchine A3. Per ulteriori informazioni, consulta Configurazioni supportate di Confidential VM . Per scoprire come creare un'istanza Confidential VM con GPU, consulta Crea un'istanza Confidential VM con GPU.

GPU e archiviazione a blocchi

Quando crei un'istanza utilizzando un tipo di macchina GPU, puoi aggiungere all'istanza un'archiviazione a blocchi permanente o temporanea. Per archiviare dati non temporanei, utilizza l'archiviazione a blocchi permanente, come Hyperdisk o Persistent Disk perché questi dischi sono indipendenti dal ciclo di vita dell'istanza. I dati sull'archiviazione permanente possono essere conservati anche dopo l'eliminazione dell'istanza.

Per l'archiviazione temporanea temporanea o le cache, utilizza l'archiviazione a blocchi temporanea aggiungendo dischi SSD locali quando crei l'istanza.

Archiviazione a blocchi permanente con volumi Persistent Disk e Hyperdisk

Puoi collegare Persistent Disk e selezionare Hyperdisk i volumi alle istanze abilitate per la GPU.

Per i workload di machine learning (ML) e di serving, utilizza i volumi Hyperdisk ML, che offrono un throughput elevato e tempi di caricamento dei dati più brevi. Hyperdisk ML è un'opzione più conveniente per i workload di ML perché offre tempi di inattività della GPU inferiori.

I volumi Hyperdisk ML forniscono il supporto multi-attach di sola lettura, quindi puoi collegare lo stesso disco a più istanze, consentendo a ogni istanza di accedere agli stessi dati.

Per ulteriori informazioni sui tipi di dischi supportati per le serie di macchine che supportano le GPU, consulta le pagine delle serie di macchine N1 e ottimizzate per l'acceleratore.

Dischi SSD locali

I dischi SSD locali forniscono spazio di archiviazione temporaneo e veloce per la memorizzazione nella cache, l'elaborazione dei dati o altri dati temporanei. I dischi SSD locali forniscono spazio di archiviazione veloce perché sono collegati fisicamente al server che ospita l'istanza. I dischi SSD locali forniscono spazio di archiviazione temporaneo perché l'istanza perde i dati se si riavvia.

Evita di archiviare dati con requisiti di persistenza elevati sui dischi SSD locali. Per archiviare dati non temporanei, utilizza invece l'archiviazione permanente.

Se arresti manualmente un'istanza con una GPU, puoi conservare i dati dell'SSD locale, con alcune limitazioni. Per maggiori dettagli, consulta la documentazione relativa all'SSD locale.

Per il supporto regionale per l'SSD locale con i tipi di GPU, consulta Disponibilità dell'SSD locale.

GPU e manutenzione dell'host

Compute Engine arresta sempre le istanze con GPU collegate quando esegue eventi di manutenzione sul server host. Se all'istanza sono collegati dischi SSD locali, l'istanza perde i dati dell'SSD locale dopo l'arresto.

Per informazioni sulla gestione degli eventi di manutenzione, consulta Gestione degli eventi di manutenzione dell'host GPU.

Prenota la capacità della GPU

Le prenotazioni offrono un'elevata garanzia di capacità per le risorse specifiche della zona, incluse le GPU. Puoi utilizzare le prenotazioni per assicurarti di avere GPU disponibili quando devi utilizzarle per applicazioni ad alta intensità di prestazioni. Per i diversi metodi per prenotare risorse specifiche della zona in Compute Engine, consulta Scegli un tipo di prenotazione.

Le prenotazioni sono necessarie anche quando vuoi ricevere sconti per impegno di utilizzo (CUD) per l'utilizzo della GPU.

Prezzi delle GPU

Se richiedi a Compute Engine di eseguire il provisioning delle GPU utilizzando il modello di provisioning spot, avvio flessibile o con vincolo di prenotazione, riceverai le GPU a prezzi scontati, a seconda del tipo di GPU. Puoi anche ricevere sconti per impegno di utilizzo o sconti per utilizzo sostenuto (solo con le VM N1) per l'utilizzo della GPU.

Per i prezzi orari e mensili delle GPU, consulta la pagina dei prezzi delle GPU .

Sconti per impegno di utilizzo per le GPU

Gli impegni basati sulle risorse offrono sconti elevati per le risorse Compute Engine in cambio dell'impegno a utilizzare le risorse in una regione specifica per almeno un anno. In genere, acquisti impegni per risorse come vCPU, memoria, GPU e dischi SSD locali da utilizzare con una serie di macchine specifica. Quando utilizzi le risorse, ricevi l'utilizzo delle risorse idonee a prezzi scontati. Per scoprire di più su questi sconti, consulta Sconti per impegno di utilizzo basati sulle risorse.

Per acquistare un impegno con le GPU, devi anche prenotare le GPU e collegare le prenotazioni all'impegno. Per ulteriori informazioni sul collegamento delle prenotazioni agli impegni, consulta Collega le prenotazioni agli impegni basati sulle risorse.

Sconti per utilizzo sostenuto per le GPU

Le istanze che utilizzano tipi di macchine N1 con GPU collegate ricevono sconti per utilizzo sostenuto (SUD), simili a quelli delle vCPU. Quando selezioni una GPU per una workstation virtuale, Compute Engine aggiunge automaticamente una licenza per la workstation virtuale NVIDIA RTX all'istanza.

Limitazioni e restrizioni delle GPU

Per le istanze con GPU collegate, si applicano le seguenti limitazioni e restrizioni:

  • Solo i tipi di macchine ottimizzati per l'acceleratore (A4X Max, A4X, A4, A3, A2, G4 e G2) e i tipi di macchine N1 per uso generico supportano le GPU.

  • Per proteggere gli utenti e i sistemi Compute Engine, i nuovi progetti hanno una quota di GPU globale che limita il numero totale di GPU che puoi creare in qualsiasi zona supportata. Quando richiedi una quota GPU, devi richiederne una per i modelli di GPU che vuoi creare in ciascuna regione e una globale aggiuntiva per il numero totale di GPU di tutti i tipi in tutte le zone.

  • Le istanze con una o più GPU hanno un numero massimo di vCPU per ogni GPU che aggiungi all'istanza. Per gli intervalli di vCPU e memoria disponibili per le diverse configurazioni GPU, consulta l'elenco delle GPU.

  • Per funzionare correttamente, le GPU richiedono driver di dispositivo. Le GPU NVIDIA in esecuzione su Compute Engine devono utilizzare una versione minima del driver. Per ulteriori informazioni sulle versioni dei driver, consulta Versioni dei driver NVIDIA richieste.

  • Lo SLA di Compute Engine copre le istanze con un modello di GPU collegato solo se il modello di GPU collegato è in disponibilità generale.

    Per le regioni con più zone, lo SLA di Compute Engine copre l'istanza solo se il modello di GPU è disponibile in più di una zona all'interno della regione. Per i modelli di GPU per regione, consulta Località delle GPU.

  • Compute Engine supporta un utente simultaneo per GPU o vGPU.

  • Consulta anche le limitazioni per ogni tipo di macchina con GPU collegate.

Passaggi successivi