Documentazione sull'orchestrazione di AI/ML su GKE
Google Kubernetes Engine (GKE) fornisce una piattaforma singola e unificata per orchestrare l'intero ciclo di vita dell'AI/ML. Ti offre la potenza e la flessibilità per potenziare i tuoi carichi di lavoro di addestramento, inferenza e agenti, in modo da semplificare l'infrastruttura e iniziare a fornire risultati. Le funzionalità di orchestrazione all'avanguardia di GKE forniscono quanto segue:
- Acceleratori hardware: accedi e gestisci le GPU e le TPU ad alta potenza di cui hai bisogno, sia per l'addestramento che per l'inferenza, su larga scala.
- Flessibilità dello stack: integrazione con i framework di elaborazione distribuita, elaborazione dei dati e gestione dei modelli che già conosci e di cui ti fidi.
- Semplicità di Kubernetes gestito: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.
Esplora i nostri blog, tutorial e best practice per scoprire come GKE può ottimizzare i tuoi carichi di lavoro AI/ML. Per saperne di più sui vantaggi e sulle funzionalità disponibili, consulta la Panoramica dell'introduzione ai carichi di lavoro AI/ML su GKE.
Inizia la tua proof of concept con 300 $ di credito gratuito
- Accedi a Gemini 2.0 Flash Thinking
- Utilizzo mensile gratuito dei prodotti più apprezzati, tra cui API di AI e BigQuery
- Nessun addebito automatico, nessun impegno
Continua a esplorare con oltre 20 prodotti sempre gratis
Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.
Risorse di documentazione
Gestire l'infrastruttura e gli acceleratori di AI
- Concept
- Concept
- Concept
- Best practice
- Video
- Video
- Guida rapida
- Best practice
Addestrare modelli di AI su larga scala
- Guida rapida
- Guida rapida
- Guida rapida
- Istruzioni
- Tutorial
Pubblica modelli di AI per l'inferenza
- Best practice
- Concept
- Istruzioni
- Tutorial
- Tutorial
- Tutorial
- Tutorial
- Tutorial
Risorse correlate
Esegui il deployment di un'applicazione di AI con agenti su GKE con Agent Development Kit (ADK) e un LLM self-hosted
Scopri come eseguire il deployment e gestire un'applicazione di AI agentica containerizzata su GKE, utilizzando Agent Development Kit (ADK) e vLLM per l'inferenza scalabile con Llama 3.1.
Esegui il deployment di un'applicazione AI agentica su GKE con l'Agent Development Kit (ADK) e Vertex AI
Scopri come eseguire il deployment e gestire un'applicazione di AI agentica containerizzata su GKE, utilizzando l'Agent Development Kit (ADK) e Vertex AI per l'inferenza scalabile con Gemini 2.0 Flash.
Gestisci modelli open source utilizzando le TPU su GKE con Optimum TPU
Scopri come eseguire il deployment di LLM utilizzando le Tensor Processing Unit (TPU) su GKE con il framework di gestione Optimum TPU di Hugging Face.
Crea e utilizza un volume supportato da un'istanza Parallelstore in GKE
Scopri come creare spazio di archiviazione supportato da istanze Parallelstore completamente gestite e come accedervi come volumi. Il driver CSI è ottimizzato per i workload di addestramento AI/ML che coinvolgono file di dimensioni più piccole e letture casuali.
Gestisci LLM su GKE con una strategia di provisioning delle GPU con ottimizzazione dei costi e alta disponibilità
Scopri come ottimizzare i costi per i carichi di lavoro di pubblicazione di LLM su GKE utilizzando DWS Flex-start.
Erogazione di modelli linguistici di grandi dimensioni con KubeRay sulle TPU
Scopri come pubblicare modelli linguistici di grandi dimensioni (LLM) con KubeRay sulle TPU e come questo può contribuire a migliorare le prestazioni dei tuoi modelli.
Accelerare il caricamento dei dati AI/ML con Hyperdisk ML
Scopri come semplificare e accelerare il caricamento dei pesi del modello di AI/ML su GKE utilizzando Hyperdisk ML.
Gestisci un LLM utilizzando le TPU su GKE con JetStream e PyTorch
Scopri come gestire un LLM utilizzando le Tensor Processing Unit (TPU) su GKE con JetStream tramite PyTorch.
Best practice per l'ottimizzazione dell'inferenza LLM con GPU su GKE
Scopri le best practice per ottimizzare le prestazioni di inferenza LLM con le GPU su GKE utilizzando i framework di gestione vLLM e Text Generation Inference (TGI).
Gestisci lo stack GPU con l'operatore GPU NVIDIA su GKE
Scopri quando utilizzare l'operatore GPU NVIDIA e come abilitarlo su GKE.
Configura la scalabilità automatica per i workload LLM sulle TPU
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando lo strumento di scalabilità automatica orizzontale dei pod (HPA) di GKE per eseguire il deployment del modello Gemma LLM utilizzando JetStream a host singolo.
Ottimizzare i modelli open Gemma utilizzando più GPU su GKE
Scopri come eseguire il fine-tuning del modello LLM Gemma utilizzando le GPU su GKE con la libreria Hugging Face Transformers.
Esegui il deployment di un'applicazione Ray Serve con un modello Stable Diffusion su GKE con TPU
Scopri come eseguire il deployment e la gestione di un modello Stable Diffusion su GKE utilizzando TPU, Ray Serve e il componente aggiuntivo Operatore Ray.
Configurare la scalabilità automatica per i carichi di lavoro LLM sulle GPU con GKE
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando GKE Horizontal Pod Autoscaler (HPA) per eseguire il deployment del modello Gemma LLM con il framework di servizio Hugging Face Text Generation Interface (TGI).
Addestra Llama2 con Megatron-LM su macchine virtuali A3 Mega
Scopri come eseguire un carico di lavoro Megatron-LM PyTorch basato su container su A3 Mega.
Esegui il deployment dei carichi di lavoro GPU in Autopilot
Scopri come richiedere acceleratori hardware (GPU) nei tuoi carichi di lavoro GKE Autopilot.
Gestisci un LLM con più GPU in GKE
Scopri come pubblicare Llama 2 70B o Falcon 40B utilizzando più GPU NVIDIA L4 con GKE.
Iniziare a utilizzare Ray su GKE
Scopri come iniziare facilmente a utilizzare Ray su GKE eseguendo un carico di lavoro su un cluster Ray.
Gestisci un LLM su GPU L4 con Ray
Scopri come gestire Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.
Orchestra i carichi di lavoro TPU Multislice utilizzando JobSet e Kueue
Scopri come orchestrare un carico di lavoro Jax su più sezioni TPU su GKE utilizzando JobSet e Kueue.
Monitoraggio dei carichi di lavoro GPU su GKE con NVIDIA Data Center GPU Manager (DCGM)
Scopri come osservare i carichi di lavoro delle GPU su GKE con NVIDIA Data Center GPU Manager (DCGM).
Guida rapida: addestra un modello con GPU sui cluster GKE Standard
Questa guida rapida mostra come eseguire il deployment di un modello di addestramento con GPU in GKE e archiviare le previsioni in Cloud Storage.
Esecuzione del machine learning su larga scala su GKE
Questo video mostra in che modo GKE aiuta a risolvere i problemi comuni dell'addestramento di modelli di AI di grandi dimensioni su larga scala e le best practice per l'addestramento e l'erogazione di modelli di machine learning su larga scala in GKE.
TensorFlow su GKE Autopilot con accelerazione GPU
Questo post del blog è una guida passo passo per la creazione, l'esecuzione e l'eliminazione di un notebook Jupiter abilitato per TensorFlow.
Implementare un sistema di accodamento dei job con condivisione della quota tra gli spazi dei nomi su GKE
Questo tutorial utilizza Kueue per mostrare come implementare un sistema di accodamento dei job e configurare la condivisione di risorse e quote dei workload tra diversi spazi dei nomi su GKE.
Crea un chatbot RAG con GKE e Cloud Storage
Questo tutorial mostra come integrare un'applicazione Large Language Model basata sulla generazione aumentata dal recupero con file PDF che carichi in un bucket Cloud Storage.
Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma
Questo tutorial mostra come analizzare set di dati di grandi dimensioni su GKE sfruttando BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e un LLM Gemma per l'analisi e le previsioni dei dati.
Preelaborazione distribuita dei dati con GKE e Ray: scalabilità per l'azienda
Scopri come sfruttare GKE e Ray per preelaborare in modo efficiente grandi set di dati per il machine learning.
Best practice per il caricamento dei dati per l'inferenza AI/ML su GKE
Scopri come velocizzare i tempi di caricamento dei dati per le tue applicazioni di machine learning su Google Kubernetes Engine.
Risparmia sulle GPU: scalabilità automatica più intelligente per i carichi di lavoro di inferenza GKE
Scopri come ottimizzare i costi di inferenza della GPU mettendo a punto lo Horizontal Pod Autoscaler di GKE per la massima efficienza.
Gestisci in modo efficiente i modelli di AI ottimizzati con i microservizi NVIDIA NIM su GKE
Scopri come eseguire il deployment dei microservizi NVIDIA NIM all'avanguardia su GKE con facilità e accelerare i carichi di lavoro di AI.
Accelerare Ray in produzione con il nuovo operatore Ray su GKE
Scopri come Ray Operator su GKE semplifica le implementazioni di produzione di AI/ML, migliorando le prestazioni e la scalabilità.
Massimizza il throughput di gestione degli LLM per le GPU su GKE: una guida pratica
Scopri come massimizzare la velocità effettiva di pubblicazione dei modelli linguistici di grandi dimensioni (LLM) per le GPU su GKE, incluse le decisioni relative all'infrastruttura e le ottimizzazioni del server dei modelli.
Best practice per l'esecuzione di carichi di lavoro batch su GKE
Scopri come creare e ottimizzare piattaforme di elaborazione batch su GKE
Archiviazione AI/ML ad alte prestazioni tramite il supporto SSD locale su GKE
Scopri come utilizzare gli SSD locali per fornire spazio di archiviazione AI/ML ad alte prestazioni su GKE.
Machine learning con JAX su Kubernetes con GPU NVIDIA
Scopri come eseguire applicazioni JAX multi-GPU e multi-nodo su GKE con GPU NVIDIA.
Motori di ricerca semplificati: un approccio low-code con GKE e Vertex AI Agent Builder
Come creare un motore di ricerca con Google Cloud utilizzando Vertex AI Agent Builder, Vertex AI Search e GKE.
LiveX AI riduce i costi di assistenza clienti con agenti AI addestrati e gestiti su GKE e NVIDIA AI
In che modo LiveX AI utilizza GKE per creare agenti AI che migliorano la soddisfazione dei clienti e riducono i costi.
Infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando GKE e Cloud SQL
Architettura di riferimento per l'esecuzione di un'applicazione di AI generativa con generazione aumentata dal recupero (RAG) utilizzando GKE, Cloud SQL, Ray, Hugging Face e LangChain.
Architettura di riferimento per una piattaforma di elaborazione batch su GKE
Architettura di riferimento per una piattaforma di elaborazione batch su GKE in modalità Standard utilizzando Kueue per gestire le quote di risorse.
Innovare nella ricerca brevettuale: come IPRally sfrutta l'AI con GKE e Ray
Come IPRally utilizza GKE e Ray per creare una piattaforma ML scalabile ed efficiente per ricerche brevettuali più rapide e accurate.
Analisi approfondita delle prestazioni di Gemma su Google Cloud
Sfrutta Gemma su GPU Cloud e Cloud TPU per un'inferenza e un addestramento efficienti su GKE.
Approfondimento di Gemma su GKE: nuove innovazioni per gestire i modelli aperti di AI generativa
Utilizza i migliori modelli aperti Gemma per creare applicazioni di AI portatili e personalizzabili ed eseguirne il deployment su GKE.
Pianificazione avanzata per AI/ML con Ray e Kueue
Orchestrare le applicazioni Ray in GKE con KubeRay e Kueue.
Come proteggere Ray su Google Kubernetes Engine
Applica tecniche di hardening e approfondimenti sulla sicurezza per l'addestramento di workload AI/ML utilizzando Ray su GKE.
Progettare l'archiviazione per i carichi di lavoro AI e ML in Google Cloud
Seleziona la migliore combinazione di opzioni di archiviazione per i carichi di lavoro AI e ML su Google Cloud.
L'installazione automatica dei driver semplifica l'utilizzo delle GPU NVIDIA in GKE
Installa automaticamente i driver GPU Nvidia in GKE.
Accelera il tuo percorso verso l'AI generativa con il framework NVIDIA NeMo su GKEE
Addestra modelli di AI generativa utilizzando GKE e il framework NVIDIA NeMo.
Perché GKE per i tuoi workload di AI Ray?
Migliora la scalabilità, l'efficienza in termini di costi, la tolleranza agli errori, l'isolamento e la portabilità utilizzando GKE per i carichi di lavoro Ray.
Semplificare le operazioni MLOps con Weights & Biases con Google Kubernetes Engine
Semplifica il processo di sviluppo e deployment dei modelli utilizzando Weights & Biases con GKE.
Esecuzione dell'AI su GKE completamente gestito, ora con nuove opzioni di calcolo, prezzi e prenotazioni di risorse
Ottieni supporto, prestazioni e prezzi migliori per le GPU per i carichi di lavoro AI/ML con GKE Autopilot.
In che modo SEEN ha aumentato l'output di 89 volte e ridotto i costi della GPU del 66% utilizzando GKE
La startup ridimensiona l'output video personalizzato con GKE.
In che modo Spotify sta liberando l'innovazione ML con Ray e GKE
In che modo Ray sta trasformando lo sviluppo di ML su Spotify.
In che modo Ordaōs Bio sfrutta l'AI generativa su GKE
Ordaōs Bio, uno dei principali acceleratori di AI per la ricerca e la scoperta biomedica, sta trovando soluzioni per nuove immunoterapie in oncologia e malattie infiammatorie croniche.
GKE da una startup in crescita basata sul machine learning
Come Moloco, una startup della Silicon Valley, ha sfruttato la potenza di GKE e Tensor Flow Enterprise per rafforzare la propria infrastruttura di machine learning (ML).
Miglioramento di quattro volte del tempo di avvio di Stable Diffusion su GKE
Scopri come migliorare il tempo di avvio di Stable Diffusion su GKE.
Esempi di Google Kubernetes Engine (GKE)
Visualizza le applicazioni di esempio utilizzate nei tutorial ufficiali sui prodotti GKE.
Esempi di GKE AI Labs
Visualizza esempi sperimentali per sfruttare GKE e accelerare le tue iniziative di AI/ML.
Piattaforme GKE accelerate
Visualizza architetture di riferimento e soluzioni per il deployment di workload accelerati su GKE.