Informazioni sulle opzioni di consumo degli acceleratori per i workload AI/ML in GKE

Questa pagina descrive le tecniche disponibili che puoi utilizzare per ottenere acceleratori di computing, come GPU o TPU, in base ai requisiti dei tuoi workload AI/ML. Queste tecniche sono chiamate opzioni di consumo degli acceleratori in GKE. Comprendere le diverse opzioni di consumo ti aiuta a ottimizzare l'utilizzo delle risorse per evitare di sottoutilizzarle, aumentare la probabilità di ottenere risorse e bilanciare costi e prestazioni.

Questa pagina è destinata agli amministratori e agli operatori della piattaforma che si coordinano con gli ingegneri di machine learning (ML) per ottenere le risorse necessarie per eseguire il deployment dei workload AI/ML.

Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei Google Cloud contenuti, consulta Ruoli e attività comuni degli utenti GKE.

Informazioni sulle opzioni di consumo

Puoi scegliere tra le seguenti opzioni per utilizzare gli acceleratori su GKE:

  • On demand: utilizzi TPU o GPU su GKE senza organizzare la capacità in anticipo. Prima di richiedere le risorse, devi disporre di una quota on demand sufficiente per il tipo e la quantità specifici di acceleratori. L'opzione on demand è la più flessibile, ma non è garantito che siano disponibili risorse on demand sufficienti per soddisfare la tua richiesta.
  • Prenotazioni: prenoti le risorse per un periodo di tempo prestabilito. Una prenotazione può essere una delle seguenti:
    • Prenotazioni future: prenoti le risorse per periodi di tempo in genere più lunghi per un momento specifico in futuro. Hai accesso esclusivo alle risorse prenotate per quel periodo di tempo. Le prenotazioni future richiedono il coinvolgimento di un Technical Account Manager (TAM). Per ulteriori informazioni, consulta le indicazioni per TPU e GPU.
    • Prenotazioni future fino a 90 giorni (in modalità calendario): richiedi la capacità per un periodo di tempo specificato, con un advisor del calendario che suggerisce le date disponibili. Le prenotazioni future fino a 90 giorni (in modalità calendario) offrono maggiore flessibilità per durate più brevi e ricerca di capacità self-service. Per ulteriori informazioni, consulta Richieste di prenotazioni future in modalità calendario.
    • Prenotazioni on demand: puoi richiedere il provisioning di una prenotazione on demand non appena la capacità è disponibile, in modo simile all'opzione on demand. Mentre la prenotazione è attiva, paghi le risorse indipendentemente dal fatto che le utilizzi o meno.
  • Avvio flessibile: proteggi le risorse allocate in modo denso per i workload di breve durata senza una prenotazione. Richiedi un numero specifico di GPU o TPU e Compute Engine ne esegue il provisioning quando la capacità diventa disponibile. Le GPU o le TPU vengono eseguite ininterrottamente per un massimo di sette giorni. Per ulteriori informazioni, consulta Provisioning con avvio flessibile.
  • Spot: esegui il provisioning delle VM spot, che ti consentono di ottenere sconti significativi, ma le VM spot possono essere prerilasciate in qualsiasi momento, con un avviso di 30 secondi. Per ulteriori informazioni, consulta VM spot.

Informazioni sulla quota per gli acceleratori in GKE

Le quote e i limiti di sistema limitano l'utilizzo delle Google Cloud risorse per supportare la disponibilità delle risorse per tutti gli Google Cloud utenti. Le quote hanno valori predefiniti, ma in genere puoi richiedere degli adeguamenti. I limiti di sistema sono valori fissi che non possono essere modificati. Per impostazione predefinita, i progetti in genere non includono una quota significativa per gli acceleratori. Devi richiedere e ricevere l'approvazione della quota per tipi e regioni di acceleratori specifici.

Tieni presente le seguenti caratteristiche quando gestisci le quote necessarie per i tuoi workload:

  • Devi richiedere la quota necessaria per ogni opzione di consumo. Per identificare la quota richiesta per ogni opzione di consumo, consulta i parametri "Quota" corrispondenti elencati nella tabella Scegli un'opzione di consumo. Se la quota non è sufficiente, i tentativi di creare cluster, node pool o eseguire il deployment di workload che richiedono acceleratori non andranno a buon fine e verrà visualizzato un errore Quota exceeded.

  • Devi richiedere la quota quando utilizzi classi di computing personalizzate in Autopilot. I nodi di cui è stato eseguito il provisioning per soddisfare i requisiti della classe di computing consumano comunque la quota del tuo progetto per gli acceleratori specificati.

  • Google Cloud Gli account di prova senza costi hanno limitazioni per la richiesta di aumenti di quota per risorse di alto valore come GPU e TPU. Per avere accesso alla quota per gli acceleratori, esegui l'upgrade a un account a pagamento.

Per controllare e richiedere la quota, vai alla pagina Quote nella Google Cloud console. Puoi filtrare le quote per gli acceleratori e richiedere aumenti.

Scegli un'opzione di consumo

Utilizza le seguenti considerazioni per scegliere l'opzione di consumo migliore per il tuo workload AI/ML:

  • Tipo di workload: considera il tipo di workload che vuoi implementare. I requisiti di GKE variano a seconda che tu stia eseguendo un workload di addestramento o di inferenza:
    • Addestramento: richiede risorse ad alte prestazioni con una quantità di memoria significativa. I workload di addestramento in genere hanno una durata ben definita. Questi workload sono in genere più facili da pianificare perché sono meno soggetti a picchi improvvisi nel consumo di risorse.
    • Inferenza: in genere richiede acceleratori ottimizzati per la scalabilità e costi inferiori. I workload di inferenza possono richiedere una quantità significativa di memoria dell'acceleratore durante i picchi improvvisi nel consumo di risorse.
  • Durata in base alla fase di implementazione: considera il tuo obiettivo commerciale se stai eseguendo una prova di fattibilità (POC), una valutazione della piattaforma, uno sviluppo o un test dell'applicazione, una produzione o un'ottimizzazione.
  • Tempo di provisioning: determina se il tuo workload richiede l'esecuzione immediata o se può essere eseguito in futuro. Se è possibile l'esecuzione futura, determina la flessibilità dell'ora di inizio.
  • Equilibrio tra costi e prestazioni: valuta i requisiti di prestazioni del tuo workload e i vincoli di budget per selezionare l'acceleratore più conveniente. Considera il compromesso tra il costo degli acceleratori e le loro caratteristiche di prestazioni. Tieni presente che i nuovi acceleratori potrebbero migliorare i rapporti costo-prestazioni.

Utilizza la seguente tabella per scegliere un'opzione di consumo:

Tipo di workload Tempo di provisioning Durata Opzione di consumo consigliata
  • Workload di lunga durata e su larga scala, come i modelli di base di pre-addestramento o l'inferenza multi-host.
  • Workload di produzione.
Immediato (con prenotazione approvata) A lungo termine (per prenotazione)

Se vuoi utilizzare una GPU (tranne A4X, A4 o A3 Ultra) o una TPU, utilizza Prenotazioni on demand:

  • Costo: ti viene addebitato il costo per l'intero periodo di prenotazione.
  • Quota: la quota viene aumentata automaticamente prima della consegna della capacità.

Se vuoi utilizzare gli acceleratori G2, A2, A3 High con 8 GPU o A3 Mega, utilizza Prenotazioni future:

  • Costo: ti viene addebitato il costo per l'intero periodo di prenotazione.
  • Quota: la quota viene aumentata automaticamente prima della consegna della capacità.
  • Workload distribuiti di breve durata, come la messa a punto dei modelli, le simulazioni o l'inferenza batch, in cui è necessaria un'ora di inizio precisa.
  • Workload per la valutazione della piattaforma, il benchmarking o i test di ottimizzazione.
Immediato (con prenotazione approvata) Fino a 90 giorni

Prenotazioni future fino a 90 giorni (in modalità calendario):

  • Costo: scontato (fino al 53%). Ti viene addebitato il costo per il periodo di prenotazione.
  • Quota: non viene addebitata alcuna quota.
  • Acceleratori supportati: A4, A3 Ultra, A3 Mega, A3 High con 8 GPU, Ironwood (TPU7x), TPU v6e, TPU v5p o TPU v5e.
  • Workload batch come l'addestramento di modelli di piccole dimensioni, la messa a punto o l'inferenza scalabile in cui l'ora di inizio è flessibile.
  • Workload per le prove di fattibilità o i test di integrazione.
On demand (soggetto a disponibilità) Fino a 7 giorni per allocazione

Modalità di provisioning con avvio flessibile:

  • Workload a bassa priorità e a tolleranza di errore come CI/CD, analisi dei dati o computing ad alte prestazioni (HPC).
  • Workload altamente interrompibili.
On demand (soggetto a disponibilità) Variabile, può essere prerilasciato con un avviso di 30 secondi

VM spot:

  • Workload di uso generico che richiedono l'esecuzione immediata.
Immediato (soggetto a disponibilità) Nessun limite

A pedido (GPU o TPU):

  • Costo: paghi in base al consumo.
  • Quota: viene addebitata la quota on demand per le GPU o le TPU.
  • Acceleratori supportati: tutte le famiglie di GPU tranne A4X, A4 o A3 Ultra. Tutte le versioni di TPU.

Passaggi successivi