Questa pagina fornisce una panoramica concettuale di Google Kubernetes Engine (GKE) per i workload AI/ML. GKE è un'implementazione gestita da Google della piattaforma di orchestrazione dei container open source Kubernetes.
Google Kubernetes Engine fornisce una piattaforma scalabile, flessibile ed economica per l'esecuzione di tutti i workload containerizzati, incluse le applicazioni di intelligenza artificiale e machine learning (AI/ML). Che tu stia addestrando modelli di base di grandi dimensioni, gestendo richieste di inferenza su larga scala o creando una piattaforma di AI completa, GKE offre il controllo e le prestazioni di cui hai bisogno.
Questa pagina è destinata a specialisti di dati e AI, architetti cloud, operatori e sviluppatori che cercano una soluzione Kubernetes gestita, scalabile e automatizzata per eseguire workload AI/ML. Per scoprire di più sui ruoli comuni, consulta Ruoli e attività utente GKE comuni.
Inizia a utilizzare i workload AI/ML su GKE
Puoi iniziare a esplorare GKE in pochi minuti utilizzando il livello senza costi di GKE, che ti consente di iniziare a utilizzare Kubernetes senza sostenere costi per la gestione dei cluster.
- Prova queste guide rapide:
- Inferenza su GKE: esegui il deployment di un modello linguistico di grandi dimensioni (LLM) di AI su GKE per l'inferenza utilizzando un'architettura predefinita.
- Addestramento su GKE: esegui il deployment di un modello di addestramento AI su GKE e archivia le previsioni in Cloud Storage.
- Leggi Informazioni sulle opzioni di consumo degli acceleratori per i workload AI/ML, che contiene indicazioni e risorse per la pianificazione e l'ottenimento di acceleratori (GPU e TPU) per la tua piattaforma.
Casi d'uso comuni
GKE fornisce una piattaforma unificata in grado di supportare tutti i tuoi workload AI.
- Creazione di una piattaforma AI: per i team della piattaforma aziendale, GKE offre la flessibilità necessaria per creare una piattaforma standardizzata e multi-tenant che soddisfi esigenze diverse.
- Erogazione online a bassa latenza: per gli sviluppatori che creano applicazioni di AI generativa, GKE con Inference Gateway fornisce il routing e la scalabilità automatica ottimizzati necessari per offrire un'esperienza utente reattiva controllando i costi.
Scegli la piattaforma giusta per il tuo workload AI/ML
Google Cloud offre una gamma di prodotti di infrastruttura AI per supportare il tuo percorso ML, da completamente gestiti a completamente configurabili. La scelta della piattaforma giusta dipende dalle tue esigenze specifiche di controllo, flessibilità e livello di gestione.
Scegli GKE quando hai bisogno di un controllo approfondito, portabilità e della possibilità di creare una piattaforma AI personalizzata e ad alte prestazioni.
- Controllo e flessibilità dell'infrastruttura: hai bisogno di un elevato grado di controllo sulla tua infrastruttura, devi utilizzare pipeline personalizzate o richiedi personalizzazioni a livello di kernel.
- Addestramento e inferenza su larga scala: vuoi addestrare modelli di grandi dimensioni o gestire modelli con una latenza minima, utilizzando la scalabilità e le prestazioni elevate di GKE.
- Efficienza in termini di costi su larga scala: vuoi dare la priorità all'ottimizzazione dei costi utilizzando l'integrazione di GKE con le VM spot e le VM con inizio flessibile per gestire efficacemente i costi.
- Portabilità e standard aperti: vuoi evitare i vincoli al fornitore ed eseguire i tuoi workload ovunque con Kubernetes e hai già competenze Kubernetes esistenti o una strategia multi-cloud.
Puoi anche prendere in considerazione queste alternative:
| Google Cloud Servizio | Ideale per |
|---|---|
| Vertex AI | Una piattaforma end-to-end completamente gestita per accelerare lo sviluppo e scaricare la gestione dell'infrastruttura. Funziona bene per i team incentrati su MLOps e sul time-to-value rapido. Per ulteriori informazioni, guarda la sezione Scegliere tra modelli di AI host GKE self-hosted e Vertex AI gestiti. |
| Cloud Run | Una piattaforma serverless per i workload di inferenza containerizzati che possono scalare fino a zero. Funziona bene per le applicazioni basate su eventi e per la gestione di modelli più piccoli a costi contenuti. Per un'analisi approfondita comparativa, consulta GKE e Cloud Run. |
In che modo GKE potenzia i workload AI/ML
GKE offre una suite di componenti specializzati che semplificano e accelerano ogni fase del ciclo di vita AI/ML, dall'addestramento su larga scala all'inferenza a bassa latenza.
La tabella seguente riassume le funzionalità di GKE che supportano i tuoi workload AI/ML o i tuoi obiettivi operativi.
| Workload o operazione AI/ML | In che modo GKE ti supporta | Funzionalità principali |
|---|---|---|
| Inferenza e gestione | Ottimizzato per gestire i modelli di AI in modo elastico, con bassa latenza, throughput elevato ed efficienza in termini di costi. |
|
| Addestramento e ottimizzazione | Fornisce le funzionalità di scalabilità e orchestrazione necessarie per addestrare in modo efficiente modelli di grandi dimensioni riducendo al minimo i costi. |
|
| Sviluppo AI/ML unificato | Supporto gestito per Ray, un framework open source per la scalabilità delle applicazioni Python distribuite. |
|
Passaggi successivi
Per esplorare le nostre vaste raccolte di guide ufficiali, tutorial e altre risorse per l'esecuzione di workload AI/ML su GKE, visita il portale di orchestrazione AI/ML su GKE.
Esplora gli esempi sperimentali per sfruttare GKE per accelerare le tue iniziative AI/ML in GKE AI Labs.
Visualizza i dettagli dei tuoi workload AI/ML nella Google Cloud console, incluse risorse come JobSet, RayJob, PyTorchJob e deployment per la gestione dell'inferenza.