Inizia a utilizzare l'inferenza del modello di AI utilizzando le funzionalità di GKE Gen AI.

Questa pagina è stata tradotta dall'API Cloud Translation.

Documentazione sull'orchestrazione di AI/ML su GKE

Google Kubernetes Engine (GKE) fornisce una piattaforma singola e unificata per orchestrare l'intero ciclo di vita dell'AI/ML. Ti offre la potenza e la flessibilità per potenziare i tuoi carichi di lavoro di addestramento, inferenza e agenti, in modo da semplificare l'infrastruttura e iniziare a fornire risultati. Le funzionalità di orchestrazione all'avanguardia di GKE forniscono quanto segue:

Acceleratori hardware: accedi e gestisci le GPU e le TPU ad alta potenza di cui hai bisogno, sia per l'addestramento che per l'inferenza, su larga scala.
Flessibilità dello stack: integrazione con i framework di elaborazione distribuita, elaborazione dei dati e gestione dei modelli che già conosci e di cui ti fidi.
Semplicità di Kubernetes gestito: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.

Esplora i nostri blog, tutorial e best practice per scoprire come GKE può ottimizzare i tuoi carichi di lavoro AI/ML. Per saperne di più sui vantaggi e sulle funzionalità disponibili, consulta la Panoramica dell'introduzione ai carichi di lavoro AI/ML su GKE.

Inizia gratuitamente

Inizia la tua proof of concept con 300 $ di credito gratuito

Accedi a Gemini 2.0 Flash Thinking
Utilizzo mensile gratuito dei prodotti più apprezzati, tra cui API di AI e BigQuery
Nessun addebito automatico, nessun impegno

Visualizza le offerte di prodotti gratuiti

Continua a esplorare con oltre 20 prodotti sempre gratis

Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.

Risorse di documentazione

Trova guide rapide e guide, esamina i riferimenti principali e ricevi assistenza per i problemi comuni.

Inizia a utilizzare l'inferenza del modello di AI utilizzando le funzionalità di GKE Gen AI.

Documentazione sull'orchestrazione di AI/ML su GKE

Inizia la tua proof of concept con 300 $ di credito gratuito

Continua a esplorare con oltre 20 prodotti sempre gratis

Gestire l'infrastruttura e gli acceleratori di AI

Addestrare modelli di AI su larga scala

Pubblica modelli di AI per l'inferenza

Esegui il deployment di un'applicazione di AI con agenti su GKE con Agent Development Kit (ADK) e un LLM self-hosted

Esegui il deployment di un'applicazione AI agentica su GKE con l'Agent Development Kit (ADK) e Vertex AI

Gestisci modelli open source utilizzando le TPU su GKE con Optimum TPU

Crea e utilizza un volume supportato da un'istanza Parallelstore in GKE

Gestisci LLM su GKE con una strategia di provisioning delle GPU con ottimizzazione dei costi e alta disponibilità

Erogazione di modelli linguistici di grandi dimensioni con KubeRay sulle TPU

Accelerare il caricamento dei dati AI/ML con Hyperdisk ML

Gestisci un LLM utilizzando le TPU su GKE con JetStream e PyTorch

Best practice per l'ottimizzazione dell'inferenza LLM con GPU su GKE

Gestisci lo stack GPU con l'operatore GPU NVIDIA su GKE

Configura la scalabilità automatica per i workload LLM sulle TPU

Ottimizzare i modelli open Gemma utilizzando più GPU su GKE

Esegui il deployment di un'applicazione Ray Serve con un modello Stable Diffusion su GKE con TPU

Configurare la scalabilità automatica per i carichi di lavoro LLM sulle GPU con GKE

Addestra Llama2 con Megatron-LM su macchine virtuali A3 Mega

Esegui il deployment dei carichi di lavoro GPU in Autopilot

Gestisci un LLM con più GPU in GKE

Iniziare a utilizzare Ray su GKE

Gestisci un LLM su GPU L4 con Ray

Orchestra i carichi di lavoro TPU Multislice utilizzando JobSet e Kueue

Monitoraggio dei carichi di lavoro GPU su GKE con NVIDIA Data Center GPU Manager (DCGM)

Guida rapida: addestra un modello con GPU sui cluster GKE Standard

Esecuzione del machine learning su larga scala su GKE

TensorFlow su GKE Autopilot con accelerazione GPU

Implementare un sistema di accodamento dei job con condivisione della quota tra gli spazi dei nomi su GKE

Crea un chatbot RAG con GKE e Cloud Storage

Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma

Preelaborazione distribuita dei dati con GKE e Ray: scalabilità per l'azienda

Best practice per il caricamento dei dati per l'inferenza AI/ML su GKE

Risparmia sulle GPU: scalabilità automatica più intelligente per i carichi di lavoro di inferenza GKE

Gestisci in modo efficiente i modelli di AI ottimizzati con i microservizi NVIDIA NIM su GKE

Accelerare Ray in produzione con il nuovo operatore Ray su GKE

Massimizza il throughput di gestione degli LLM per le GPU su GKE: una guida pratica

Best practice per l'esecuzione di carichi di lavoro batch su GKE

Archiviazione AI/ML ad alte prestazioni tramite il supporto SSD locale su GKE

Machine learning con JAX su Kubernetes con GPU NVIDIA

Motori di ricerca semplificati: un approccio low-code con GKE e Vertex AI Agent Builder

LiveX AI riduce i costi di assistenza clienti con agenti AI addestrati e gestiti su GKE e NVIDIA AI

Infrastruttura per un'applicazione di AI generativa compatibile con RAG utilizzando GKE e Cloud SQL

Architettura di riferimento per una piattaforma di elaborazione batch su GKE

Innovare nella ricerca brevettuale: come IPRally sfrutta l'AI con GKE e Ray

Analisi approfondita delle prestazioni di Gemma su Google Cloud

Approfondimento di Gemma su GKE: nuove innovazioni per gestire i modelli aperti di AI generativa

Pianificazione avanzata per AI/ML con Ray e Kueue

Come proteggere Ray su Google Kubernetes Engine

Progettare l'archiviazione per i carichi di lavoro AI e ML in Google Cloud

L'installazione automatica dei driver semplifica l'utilizzo delle GPU NVIDIA in GKE

Accelera il tuo percorso verso l'AI generativa con il framework NVIDIA NeMo su GKEE

Perché GKE per i tuoi workload di AI Ray?

Semplificare le operazioni MLOps con Weights & Biases con Google Kubernetes Engine

Esecuzione dell'AI su GKE completamente gestito, ora con nuove opzioni di calcolo, prezzi e prenotazioni di risorse

In che modo SEEN ha aumentato l'output di 89 volte e ridotto i costi della GPU del 66% utilizzando GKE

In che modo Spotify sta liberando l'innovazione ML con Ray e GKE

In che modo Ordaōs Bio sfrutta l'AI generativa su GKE

GKE da una startup in crescita basata sul machine learning

Miglioramento di quattro volte del tempo di avvio di Stable Diffusion su GKE

Esempi di Google Kubernetes Engine (GKE)

Esempi di GKE AI Labs

Piattaforme GKE accelerate

Video correlati