Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Introduzione ai workload AI/ML su GKE

Autopilot Standard

Questa pagina fornisce una panoramica concettuale di Google Kubernetes Engine (GKE) per i workload AI/ML. GKE è un'implementazione gestita da Google della piattaforma di orchestrazione dei container open source Kubernetes.

Google Kubernetes Engine fornisce una piattaforma scalabile, flessibile ed economica per l'esecuzione di tutti i workload containerizzati, incluse le applicazioni di intelligenza artificiale e machine learning (AI/ML). Che tu stia addestrando modelli di base di grandi dimensioni, gestendo richieste di inferenza su larga scala o creando una piattaforma AI completa, GKE offre il controllo e le prestazioni di cui hai bisogno.

Questa pagina è destinata a specialisti di dati e AI, architetti cloud, operatori e sviluppatori che cercano una soluzione Kubernetes gestita, scalabile e automatizzata per eseguire workload AI/ML. Per scoprire di più sui ruoli comuni, consulta Ruoli e attività utente GKE comuni.

Inizia a utilizzare i workload AI/ML su GKE

Puoi iniziare a esplorare GKE in pochi minuti utilizzando il livello senza costi di GKE, che ti consente di iniziare a utilizzare Kubernetes senza sostenere costi per la gestione dei cluster.

Inizia nella Google Cloud console
Prova queste guide rapide:
- Inferenza su GKE: esegui il deployment di un modello linguistico di grandi dimensioni (LLM) AI su GKE per l'inferenza utilizzando un'architettura predefinita.
- Addestramento su GKE: esegui il deployment di un modello di addestramento AI su GKE e archivia le previsioni in Cloud Storage.
Leggi Informazioni sulle opzioni di consumo degli acceleratori per i workload AI/ML, che contiene indicazioni e risorse per la pianificazione e l'ottenimento di acceleratori (GPU e TPU) per la tua piattaforma.

Casi d'uso comuni

GKE fornisce una piattaforma unificata in grado di supportare tutti i tuoi workload AI.

Creazione di una piattaforma AI: per i team della piattaforma aziendale, GKE offre la flessibilità necessaria per creare una piattaforma multi-tenant standardizzata che soddisfi esigenze diverse.
Erogazione online a bassa latenza: per gli sviluppatori che creano applicazioni di AI generativa, GKE con Inference Gateway fornisce il routing e la scalabilità automatica ottimizzati necessari per offrire un'esperienza utente reattiva controllando i costi.

Scegli la piattaforma giusta per il tuo workload AI/ML

Google Cloud offre una gamma di prodotti di infrastruttura AI per supportare il tuo percorso ML, da completamente gestiti a completamente configurabili. La scelta della piattaforma giusta dipende dalle tue esigenze specifiche di controllo, flessibilità e livello di gestione.

Best practice:

Scegli GKE quando hai bisogno di un controllo approfondito, portabilità e della possibilità di creare una piattaforma AI personalizzata e ad alte prestazioni.

Controllo e flessibilità dell'infrastruttura: hai bisogno di un elevato grado di controllo sulla tua infrastruttura, devi utilizzare pipeline personalizzate o richiedi personalizzazioni a livello di kernel.
Addestramento e inferenza su larga scala: vuoi addestrare modelli di grandi dimensioni o gestire modelli con una latenza minima, utilizzando la scalabilità e le prestazioni elevate di GKE.
Efficienza in termini di costi su larga scala: vuoi dare la priorità all'ottimizzazione dei costi utilizzando l'integrazione di GKE con le VM spot e le VM con inizio flessibile per gestire efficacemente i costi.
Portabilità e standard aperti: vuoi evitare i vincoli al fornitore ed eseguire i tuoi workload ovunque con Kubernetes e hai già competenze Kubernetes esistenti o una strategia multi-cloud.

Puoi anche prendere in considerazione queste alternative:

Google Cloud Servizio	Ideale per
Vertex AI	Una piattaforma end-to-end completamente gestita per accelerare lo sviluppo e scaricare la gestione dell'infrastruttura. Funziona bene per i team incentrati su MLOps e sul time-to-value rapido. Per ulteriori informazioni, guarda la sezione Scegliere tra i modelli di host AI GKE self-hosted e Vertex AI gestiti.
Cloud Run	Una piattaforma serverless per i workload di inferenza containerizzati che può scalare fino a zero. Funziona bene per le applicazioni basate su eventi e per la gestione di modelli più piccoli a costi contenuti. Per un'analisi approfondita comparativa, consulta GKE e Cloud Run.

In che modo GKE potenzia i workload AI/ML

GKE offre una suite di componenti specializzati che semplificano e accelerano ogni fase del ciclo di vita AI/ML, dall'addestramento su larga scala all'inferenza a bassa latenza.

Nel seguente diagramma, GKE si trova all'interno di Google Cloud
e può utilizzare diverse opzioni di spazio di archiviazione sul cloud (come Cloud Storage FUSE e Managed Lustre) e diverse opzioni di infrastruttura cloud
(come Cloud TPU e GPU Cloud). GKE funziona anche con software e framework open source per il deep learning (come JAX o TensorFlow), l'orchestrazione ML (come Jupyter o Ray) e l'inferenza LLM (come vLLM o NVIDIA Dynamo). — **Figura 1**: GKE come piattaforma gestita scalabile per i workload AI/ML.

La tabella seguente riassume le funzionalità di GKE che supportano i tuoi workload AI/ML o i tuoi obiettivi operativi.

Workload o operazione AI/ML	In che modo GKE ti supporta	Funzionalità principali
Inferenza e gestione	Ottimizzato per gestire i modelli di AI in modo elastico, con bassa latenza, throughput elevato ed efficienza in termini di costi.	Flessibilità dell'acceleratore: GKE supporta sia le GPU sia le TPU per l'inferenza. GKE Inference Gateway: un gateway basato sul modello che fornisce routing intelligente e bilanciamento del carico specificamente per i workload di inferenza AI. GKE Inference Quickstart: uno strumento per semplificare l'analisi delle prestazioni e il deployment fornendo un insieme di profili di benchmark per i modelli di AI più diffusi. GKE Autopilot: una modalità operativa di GKE che automatizza le operazioni del cluster e il dimensionamento della capacità, riducendo l'overhead.
Addestramento e ottimizzazione	Fornisce le funzionalità di scalabilità e orchestrazione necessarie per addestrare in modo efficiente modelli di grandi dimensioni riducendo al minimo i costi.	Nodi di avvio più veloci: un'ottimizzazione progettata specificamente per i workload GPU che riduce i tempi di avvio dei nodi fino all'80%. Modalità di provisioning con inizio flessibile basata su Dynamic Workload Scheduler: migliora la tua capacità di proteggere gli acceleratori GPU e TPU scarsi per i workload di addestramento di breve durata. Kueue: un sistema di accodamento dei job nativo di Kubernetes che gestisce l'allocazione delle risorse, la pianificazione, la gestione delle quote e la definizione delle priorità per i workload in batch. TPU multislice: un'architettura hardware e di rete che consente a più slice TPU di comunicare tra loro tramite la rete di data center (DCN) per ottenere un addestramento su larga scala.
Sviluppo AI/ML unificato	Supporto gestito per Ray, un framework open source per la scalabilità delle applicazioni Python distribuite.	Componente aggiuntivo Ray su GKE: astrae l'infrastruttura Kubernetes, consentendoti di scalare i workload come la pre-elaborazione dei dati su larga scala, l'addestramento distribuito e l'erogazione online con modifiche minime al codice.

Passaggi successivi

Per esplorare le nostre vaste raccolte di guide ufficiali, tutorial e altre risorse per l'esecuzione di workload AI/ML su GKE, visita il portale di orchestrazione AI/ML su GKE.
Scopri le tecniche per ottenere acceleratori di computing, come GPU o TPU, per i tuoi workload AI/ML su GKE.
Scopri di più sull'inferenza dei modelli di AI/ML su GKE.
Scopri di più su Ray su GKE.
Esplora gli esempi sperimentali per sfruttare GKE per accelerare le tue iniziative AI/ML in GKE AI Labs.
Visualizza i dettagli dei tuoi workload AI/ML nella Google Cloud console, incluse risorse come JobSet, RayJob, PyTorchJob e deployment per la gestione dell'inferenza.

Introduzione ai workload AI/ML su GKE Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.