Questa pagina descrive le tecniche disponibili che puoi utilizzare per ottenere acceleratori di computing, come GPU o TPU, in base ai requisiti dei tuoi workload AI/ML. Queste tecniche sono chiamate opzioni di consumo degli acceleratori in GKE. Comprendere le diverse opzioni di consumo ti aiuta a ottimizzare l'utilizzo delle risorse per evitare di sottoutilizzarle, aumentare la probabilità di ottenere risorse e bilanciare costi e prestazioni.
Questa pagina è destinata agli amministratori e agli operatori della piattaforma che si coordinano con gli ingegneri di machine learning (ML) per ottenere le risorse necessarie per eseguire il deployment dei workload AI/ML.
Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei Google Cloud contenuti, consulta Ruoli e attività comuni degli utenti GKE.
Informazioni sulle opzioni di consumo
Puoi scegliere tra le seguenti opzioni per utilizzare gli acceleratori su GKE:
- On demand: utilizzi TPU o GPU su GKE senza organizzare la capacità in anticipo. Prima di richiedere le risorse, devi disporre di una quota on demand sufficiente per il tipo e la quantità specifici di acceleratori. L'opzione on demand è la più flessibile, ma non è garantito che siano disponibili risorse on demand sufficienti per soddisfare la tua richiesta.
- Prenotazioni: prenoti le risorse per un periodo di tempo prestabilito. Una prenotazione può essere una delle seguenti:
- Prenotazioni future: prenoti le risorse per periodi di tempo in genere più lunghi per un momento specifico in futuro. Hai accesso esclusivo alle risorse prenotate per quel periodo di tempo. Le prenotazioni future richiedono il coinvolgimento di un Technical Account Manager (TAM). Per ulteriori informazioni, consulta le indicazioni per TPU e GPU.
- Prenotazioni future fino a 90 giorni (in modalità calendario): richiedi la capacità per un periodo di tempo specificato, con un advisor del calendario che suggerisce le date disponibili. Le prenotazioni future fino a 90 giorni (in modalità calendario) offrono maggiore flessibilità per durate più brevi e ricerca di capacità self-service. Per ulteriori informazioni, consulta Richieste di prenotazioni future in modalità calendario.
- Prenotazioni on demand: puoi richiedere il provisioning di una prenotazione on demand non appena la capacità è disponibile, in modo simile all'opzione on demand. Mentre la prenotazione è attiva, paghi le risorse indipendentemente dal fatto che le utilizzi o meno.
- Avvio flessibile: proteggi le risorse allocate in modo denso per i workload di breve durata senza una prenotazione. Richiedi un numero specifico di GPU o TPU e Compute Engine ne esegue il provisioning quando la capacità diventa disponibile. Le GPU o le TPU vengono eseguite ininterrottamente per un massimo di sette giorni. Per ulteriori informazioni, consulta Provisioning con avvio flessibile.
- Spot: esegui il provisioning delle VM spot, che ti consentono di ottenere sconti significativi, ma le VM spot possono essere prerilasciate in qualsiasi momento, con un avviso di 30 secondi. Per ulteriori informazioni, consulta VM spot.
Informazioni sulla quota per gli acceleratori in GKE
Le quote e i limiti di sistema limitano l'utilizzo delle Google Cloud risorse per supportare la disponibilità delle risorse per tutti gli Google Cloud utenti. Le quote hanno valori predefiniti, ma in genere puoi richiedere degli adeguamenti. I limiti di sistema sono valori fissi che non possono essere modificati. Per impostazione predefinita, i progetti in genere non includono una quota significativa per gli acceleratori. Devi richiedere e ricevere l'approvazione della quota per tipi e regioni di acceleratori specifici.
Tieni presente le seguenti caratteristiche quando gestisci le quote necessarie per i tuoi workload:
Devi richiedere la quota necessaria per ogni opzione di consumo. Per identificare la quota richiesta per ogni opzione di consumo, consulta i parametri "Quota" corrispondenti elencati nella tabella Scegli un'opzione di consumo. Se la quota non è sufficiente, i tentativi di creare cluster, node pool o eseguire il deployment di workload che richiedono acceleratori non andranno a buon fine e verrà visualizzato un errore
Quota exceeded.Devi richiedere la quota quando utilizzi classi di computing personalizzate in Autopilot. I nodi di cui è stato eseguito il provisioning per soddisfare i requisiti della classe di computing consumano comunque la quota del tuo progetto per gli acceleratori specificati.
Google Cloud Gli account di prova senza costi hanno limitazioni per la richiesta di aumenti di quota per risorse di alto valore come GPU e TPU. Per avere accesso alla quota per gli acceleratori, esegui l'upgrade a un account a pagamento.
Per controllare e richiedere la quota, vai alla pagina Quote nella Google Cloud console. Puoi filtrare le quote per gli acceleratori e richiedere aumenti.
Scegli un'opzione di consumo
Utilizza le seguenti considerazioni per scegliere l'opzione di consumo migliore per il tuo workload AI/ML:
- Tipo di workload: considera il tipo di workload che vuoi implementare.
I requisiti di GKE variano a seconda che tu stia eseguendo un workload di addestramento o di inferenza:
- Addestramento: richiede risorse ad alte prestazioni con una quantità di memoria significativa. I workload di addestramento in genere hanno una durata ben definita. Questi workload sono in genere più facili da pianificare perché sono meno soggetti a picchi improvvisi nel consumo di risorse.
- Inferenza: in genere richiede acceleratori ottimizzati per la scalabilità e costi inferiori. I workload di inferenza possono richiedere una quantità significativa di memoria dell'acceleratore durante i picchi improvvisi nel consumo di risorse.
- Durata in base alla fase di implementazione: considera il tuo obiettivo commerciale se stai eseguendo una prova di fattibilità (POC), una valutazione della piattaforma, uno sviluppo o un test dell'applicazione, una produzione o un'ottimizzazione.
- Tempo di provisioning: determina se il tuo workload richiede l'esecuzione immediata o se può essere eseguito in futuro. Se è possibile l'esecuzione futura, determina la flessibilità dell'ora di inizio.
- Equilibrio tra costi e prestazioni: valuta i requisiti di prestazioni del tuo workload e i vincoli di budget per selezionare l'acceleratore più conveniente. Considera il compromesso tra il costo degli acceleratori e le loro caratteristiche di prestazioni. Tieni presente che i nuovi acceleratori potrebbero migliorare i rapporti costo-prestazioni.
Utilizza la seguente tabella per scegliere un'opzione di consumo:
| Tipo di workload | Tempo di provisioning | Durata | Opzione di consumo consigliata |
|---|---|---|---|
|
Immediato (con prenotazione approvata) | A lungo termine (per prenotazione) | Se vuoi utilizzare una GPU (tranne A4X, A4 o A3 Ultra) o una TPU, utilizza Prenotazioni on demand:
|
Se vuoi utilizzare gli acceleratori G2, A2, A3 High con 8 GPU o A3 Mega, utilizza Prenotazioni future:
|
|||
|
Immediato (con prenotazione approvata) | Fino a 90 giorni | Prenotazioni future fino a 90 giorni (in modalità calendario):
|
|
On demand (soggetto a disponibilità) | Fino a 7 giorni per allocazione | Modalità di provisioning con avvio flessibile:
|
|
On demand (soggetto a disponibilità) | Variabile, può essere prerilasciato con un avviso di 30 secondi |
|
|
Immediato (soggetto a disponibilità) | Nessun limite |
Passaggi successivi
- Scopri di più sulle GPU in GKE.
- Scopri di più sulle TPU in GKE.
- Scopri di più sull'inferenza AI/ML su GKE.