Documentazione sull'orchestrazione di AI/ML su GKE
Google Kubernetes Engine (GKE) fornisce una piattaforma singola e unificata per orchestrare l'intero ciclo di vita dell'AI/ML. Ti offre la potenza e la flessibilità per potenziare i tuoi carichi di lavoro di addestramento, inferenza e agenti, in modo da semplificare l'infrastruttura e iniziare a fornire risultati. Le funzionalità di orchestrazione all'avanguardia di GKE forniscono quanto segue:
- Acceleratori hardware: accedi e gestisci le GPU e le TPU ad alta potenza di cui hai bisogno, sia per l'addestramento che per l'inferenza, su larga scala.
- Flessibilità dello stack: integrazione con i framework di elaborazione distribuita, elaborazione dei dati e erogazione del modello che già conosci e di cui ti fidi.
- Semplicità di Kubernetes gestito: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.
Esplora i nostri blog, tutorial e best practice per scoprire come GKE può ottimizzare i tuoi workload AI/ML. Per saperne di più sui vantaggi e sulle funzionalità disponibili, consulta la panoramica Introduzione ai workload AI/ML su GKE.
Inizia la tua proof of concept con 300 $di credito senza costi
- Sviluppa con i nostri modelli e strumenti di AI generativa più recenti.
- Usufruisci dell'utilizzo senza costi di oltre 20 tra i prodotti più apprezzati, tra cui Compute Engine e le API AI.
- Nessun addebito automatico, nessun impegno
Continua a esplorare con oltre 20 prodotti sempre senza costi.
Accedi a oltre 20 prodotti senza costi per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.
Risorse di documentazione
Gestire l'infrastruttura AI e gli acceleratori
- Concept
- Concept
- Concept
- Best practice
- Best practice
- Best practice
- Guida rapida
- Video
- Video
Addestrare modelli di AI su larga scala
- Guida rapida
- Tutorial
- Tutorial
- Tutorial
- Tutorial
- Guida rapida
- Istruzioni
- Tutorial
Erogare modelli di AI per l'inferenza
- Best practice
- Concept
- Best practice
- Istruzioni
- Guida rapida
- Tutorial
- Tutorial
- Tutorial
- Tutorial
- Tutorial
Risorse correlate
Ottimizza i workload AI e ML con Cloud Storage e GKE
Scopri come utilizzare Cloud Storage FUSE per ottimizzare le prestazioni dei carichi di lavoro AI e ML su GKE.
Ottimizza i workload AI e ML con Managed Lustre e GKE
Scopri come utilizzare Managed Lustre per ottimizzare le prestazioni dei carichi di lavoro di AI e ML su GKE.
Isola l'esecuzione del codice AI con Agent Sandbox
Scopri come installare ed eseguire il controller Agent Sandbox su GKE e come eseguire il deployment di un ambiente sandbox sul cluster per testare comandi shell non attendibili.
Esegui il deployment di un'applicazione di AI agentica su GKE con l'Agent Development Kit (ADK) e un LLM self-hosted
Scopri come eseguire il deployment e gestire un'applicazione di AI agentica containerizzata su GKE, utilizzando l'Agent Development Kit (ADK) e vLLM per l'inferenza scalabile con Llama 3.1.
Esegui il deployment di un'applicazione di AI agentica su GKE con Agent Development Kit (ADK) e Agent Platform
Scopri come eseguire il deployment e gestire un'applicazione di AI agentica containerizzata su GKE, utilizzando l'Agent Development Kit (ADK) e Agent Platform per l'inferenza scalabile con Gemini 2.0 Flash.
Eroga modelli open source utilizzando le TPU su GKE con Optimum TPU
Scopri come eseguire il deployment di LLM utilizzando le Tensor Processing Unit (TPU) su GKE con il framework di gestione Optimum TPU di Hugging Face.
Gestisci LLM su GKE con una strategia di provisioning delle GPU con ottimizzazione dei costi e alta disponibilità
Scopri come ottimizzare i costi per i carichi di lavoro di erogazione di LLM su GKE utilizzando DWS con avvio flessibile.
Serving Large Language Models with KubeRay on TPUs
Scopri come pubblicare modelli linguistici di grandi dimensioni (LLM) con KubeRay sulle TPU e come questo può contribuire a migliorare le prestazioni dei tuoi modelli.
Accelerare il caricamento dei dati AI/ML con Hyperdisk ML
Scopri come semplificare e accelerare il caricamento dei pesi dei modelli di AI/ML su GKE utilizzando Hyperdisk ML.
Erogare un LLM utilizzando le TPU su GKE con JetStream e PyTorch
Scopri come erogare un LLM utilizzando le Tensor Processing Unit (TPU) su GKE con JetStream tramite PyTorch.
Best practice per l'ottimizzazione dell'inferenza LLM con le GPU su GKE
Scopri le best practice per ottimizzare le prestazioni di inferenza LLM con le GPU su GKE utilizzando i framework di servizio vLLM e Text Generation Inference (TGI).
Gestisci lo stack GPU con l'operatore GPU NVIDIA su GKE
Scopri quando utilizzare l'operatore GPU NVIDIA e come abilitarlo su GKE.
Configura la scalabilità automatica per i workload LLM sulle TPU
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando lo strumento di scalabilità automatica orizzontale dei pod (HPA) di GKE per eseguire il deployment del modello Gemma LLM utilizzando JetStream a host singolo.
Perfeziona i modelli open Gemma utilizzando più GPU su GKE
Scopri come eseguire il fine-tuning del modello LLM Gemma utilizzando le GPU su GKE con la libreria Hugging Face Transformers.
Esegui il deployment di un'applicazione Ray Serve con un modello di diffusione stabile su GKE con TPU
Scopri come eseguire il deployment e l'erogazione di un modello di diffusione stabile su GKE utilizzando TPU, Ray Serve e il componente aggiuntivo Operatore Ray.
Configura la scalabilità automatica per i carichi di lavoro LLM sulle GPU con GKE
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando GKE Horizontal Pod Autoscaler (HPA) per eseguire il deployment del modello Gemma LLM con il framework di servizio Hugging Face Text Generation Interface (TGI).
Addestra Llama2 con Megatron-LM su macchine virtuali A3 Mega
Scopri come eseguire un carico di lavoro Megatron-LM PyTorch basato su container su A3 Mega.
Esegui il deployment dei carichi di lavoro GPU in Autopilot
Scopri come richiedere acceleratori hardware (GPU) nei tuoi carichi di lavoro GKE Autopilot.
Erogare un LLM con più GPU in GKE
Scopri come erogare Llama 2 70B o Falcon 40B utilizzando più GPU NVIDIA L4 con GKE.
Guida introduttiva a Ray su GKE
Scopri come iniziare a utilizzare facilmente Ray su GKE eseguendo un workload su un cluster Ray.
Eroga un LLM su GPU L4 con Ray
Scopri come erogare Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.
Orchestra i carichi di lavoro TPU Multislice utilizzando JobSet e Kueue
Scopri come orchestrare un carico di lavoro Jax su più sezioni TPU su GKE utilizzando JobSet e Kueue.
Monitoraggio dei carichi di lavoro GPU su GKE con NVIDIA Data Center GPU Manager (DCGM)
Scopri come osservare i carichi di lavoro delle GPU su GKE con NVIDIA Data Center GPU Manager (DCGM).
Guida rapida: addestra un modello con GPU nei cluster GKE Standard
Questa guida rapida mostra come eseguire il deployment di un modello di addestramento con GPU in GKE e archiviare le previsioni in Cloud Storage.
Esecuzione del machine learning su larga scala su GKE
Questo video mostra in che modo GKE aiuta a risolvere i problemi comuni dell'addestramento di modelli di AI di grandi dimensioni su larga scala e le best practice per l'addestramento e l'erogazione di modelli di machine learning su larga scala in GKE.
TensorFlow su GKE Autopilot con accelerazione GPU
Questo post del blog è una guida passo passo per la creazione, l'esecuzione e l'eliminazione di un notebook Jupiter abilitato per TensorFlow.
Implementa un sistema di accodamento dei job con condivisione della quota tra gli spazi dei nomi su GKE
Questo tutorial utilizza Kueue per mostrare come implementare un sistema di accodamento dei job e configurare la condivisione di risorse e quote dei workload tra diversi spazi dei nomi su GKE.
Crea un chatbot RAG con GKE e Cloud Storage
Questo tutorial mostra come integrare un'applicazione Large Language Model basata sulla Retrieval-Augmented Generation con file PDF che carichi in un bucket Cloud Storage.
Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma
Questo tutorial mostra come analizzare set di dati di grandi dimensioni su GKE sfruttando BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e un LLM Gemma per l'analisi e le previsioni dei dati.
Elaborazione preliminare dei dati distribuita con GKE e Ray: scalabilità per l'azienda
Scopri come sfruttare GKE e Ray per preelaborare in modo efficiente grandi set di dati per il machine learning.
Best practice per il caricamento dei dati per l'inferenza AI/ML su GKE
Scopri come velocizzare i tempi di caricamento dei dati per le tue applicazioni di machine learning su Google Kubernetes Engine.
Risparmia sulle GPU: scalabilità automatica più intelligente per i carichi di lavoro di inferenza GKE
Scopri come ottimizzare i costi di inferenza della GPU mettendo a punto lo Horizontal Pod Autoscaler di GKE per la massima efficienza.
Eroga in modo efficiente i modelli di AI ottimizzati con i microservizi NVIDIA NIM su GKE
Scopri come eseguire il deployment dei microservizi NVIDIA NIM all'avanguardia su GKE con facilità e accelerare i carichi di lavoro di AI.
Accelera Ray in produzione con il nuovo operatore Ray su GKE
Scopri come Ray Operator su GKE semplifica le implementazioni di produzione di AI/ML, migliorando le prestazioni e la scalabilità.
Massimizza la velocità effettiva di gestione degli LLM per le GPU su GKE: una guida pratica
Scopri come massimizzare la velocità effettiva di pubblicazione dei modelli linguistici di grandi dimensioni (LLM) per le GPU su GKE, incluse le decisioni relative all'infrastruttura e le ottimizzazioni del server dei modelli.
Best practice per l'esecuzione di workload batch su GKE
Scopri come creare e ottimizzare piattaforme di elaborazione batch su GKE
Archiviazione AI/ML ad alte prestazioni tramite il supporto SSD locale su GKE
Scopri come utilizzare gli SSD locali per fornire spazio di archiviazione AI/ML ad alte prestazioni su GKE.
Machine learning con JAX su Kubernetes con GPU NVIDIA
Scopri come eseguire applicazioni JAX multi-GPU e multi-nodo su GKE con GPU NVIDIA.
LiveX AI riduce i costi di assistenza clienti con agenti AI addestrati e serviti su GKE e NVIDIA AI
In che modo LiveX AI utilizza GKE per creare agenti AI che migliorano la soddisfazione dei clienti e riducono i costi.
Infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando GKE e Cloud SQL
Architettura di riferimento per l'esecuzione di un'applicazione di AI generativa con generazione aumentata dal recupero (RAG) utilizzando GKE, Cloud SQL, Ray, Hugging Face e LangChain.
Architettura di riferimento per una piattaforma di elaborazione batch su GKE
Architettura di riferimento per una piattaforma di elaborazione batch su GKE in modalità Standard che utilizza Kueue per gestire le quote di risorse.
Innovare nella ricerca brevettuale: come IPRally sfrutta l'AI con GKE e Ray
Come IPRally utilizza GKE e Ray per creare una piattaforma ML scalabile ed efficiente per ricerche brevettuali più rapide e accurate.
Approfondimento sul rendimento di Gemma su Google Cloud
Sfrutta Gemma su GPU Cloud e Cloud TPU per un'inferenza e un addestramento efficienti su GKE.
Approfondimento di Gemma su GKE: nuove innovazioni per erogare modelli aperti di AI generativa
Utilizza i migliori modelli aperti Gemma per creare applicazioni di AI portatili e personalizzabili ed eseguirne il deployment su GKE.
Pianificazione avanzata per AI/ML con Ray e Kueue
Orchestrare le applicazioni Ray in GKE con KubeRay e Kueue.
Come proteggere Ray su Google Kubernetes Engine
Applica tecniche di hardening e approfondimenti sulla sicurezza per l'addestramento dei workload AI/ML utilizzando Ray su GKE.
Progettare l'archiviazione per i carichi di lavoro di AI e ML in Google Cloud
Seleziona la migliore combinazione di opzioni di archiviazione per i carichi di lavoro AI e ML su Google Cloud.
L'installazione automatica dei driver semplifica l'utilizzo delle GPU NVIDIA in GKE
Installa automaticamente i driver GPU Nvidia in GKE.
Accelera il tuo percorso verso l'AI generativa con il framework NVIDIA NeMo su GKE
Addestra modelli di AI generativa utilizzando GKE e il framework NVIDIA NeMo.
Perché GKE per i tuoi workload Ray AI?
Migliora la scalabilità, l'efficienza in termini di costi, la tolleranza agli errori, l'isolamento e la portabilità utilizzando GKE per i carichi di lavoro Ray.
Semplificare le operazioni MLOps con Weights & Biases con Google Kubernetes Engine
Semplifica il processo di sviluppo e deployment dei modelli utilizzando Weights & Biases con GKE.
Esecuzione dell'AI su GKE completamente gestito, ora con nuove opzioni di calcolo, prezzi e prenotazioni di risorse
Ottieni supporto GPU, prestazioni e prezzi migliori per i workload AI/ML con GKE Autopilot.
In che modo SEEN ha aumentato l'output di 89 volte e ridotto i costi delle GPU del 66% utilizzando GKE
La startup ridimensiona l'output video personalizzato con GKE.
Come Spotify sta liberando l'innovazione ML con Ray e GKE
In che modo Ray sta trasformando lo sviluppo di ML su Spotify.
In che modo Ordaōs Bio sfrutta l'AI generativa su GKE
Ordaōs Bio, uno dei principali acceleratori di AI per la ricerca e la scoperta biomedica, sta trovando soluzioni per nuove immunoterapie in oncologia e malattie infiammatorie croniche.
GKE da una startup in crescita basata sul machine learning
Come Moloco, una startup della Silicon Valley, ha sfruttato la potenza di GKE e Tensor Flow Enterprise per rafforzare la propria infrastruttura di machine learning (ML).
Miglioramento di quattro volte del tempo di avvio di Stable Diffusion su GKE
Scopri come migliorare il tempo di avvio di Stable Diffusion su GKE.
Esempi di Google Kubernetes Engine (GKE)
Visualizza le applicazioni di esempio utilizzate nei tutorial ufficiali del prodotto GKE.
Esempi di GKE AI Labs
Visualizza esempi sperimentali per sfruttare GKE e accelerare le tue iniziative di AI/ML.
GKE Accelerated Platforms
Visualizza architetture di riferimento e soluzioni per il deployment di workload accelerati su GKE.