Panoramica dei tutorial sui workload AI

Per aiutarti a eseguire workload AI/ML proof-of-concept (POC), questa pagina fornisce una panoramica dei tutorial di AI Hypercomputer che descrivono l'intero processo di deployment di modelli di AI comuni sui prodotti Google Cloud .

Questi tutorial sono pensati per ingegneri, ricercatori, amministratori e operatori di piattaforme di machine learning (ML) e specialisti di dati e AI. Per utilizzare in modo efficace questi tutorial, devi avere una conoscenza di base dei concetti di machine learning e competenze con i servizi Google Cloud . L'esperienza con il deployment e la gestione dei modelli di AI ti aiuta anche a comprendere questi contenuti.

Categorie di tutorial

I tutorial sul carico di lavoro dell'AI sono organizzati nelle seguenti categorie:

  • Esegui l'inferenza con vLLM su GKE
  • Esegui l'ottimizzazione
  • Allenamento di corsa

Eseguire l'inferenza con vLLM su Google Kubernetes Engine

Questi tutorial descrivono come eseguire il deployment e pubblicare modelli linguistici di grandi dimensioni (LLM) per l'inferenza utilizzando il framework di pubblicazione vLLM su Google Kubernetes Engine (GKE). Imparerai a utilizzare le funzionalità di orchestrazione dei container di GKE per carichi di lavoro di inferenza efficienti. Questi tutorial trattano l'accesso ai modelli utilizzando Hugging Face, la configurazione dei cluster GKE (ad esempio in modalità Autopilot), la gestione delle credenziali e il deployment dei container vLLM per l'interazione con LLM come Gemma 3, Llama 4 e Qwen3.

Esegui l'ottimizzazione

Questi tutorial descrivono come ottimizzare gli LLM per attività specifiche in vari tipi di clusterGoogle Cloud , tra cui GKE e Slurm. Ad esempio, puoi eseguire il fine-tuning di Gemma 3 su cluster GKE multi-nodo e multi-GPU (ad esempio, utilizzando istanze VM A4 con GPU NVIDIA B200) e cluster Slurm. Creerai immagini VM personalizzate, configurerai reti RDMA ed eseguirai job di messa a punto distribuita con librerie come Hugging Face Accelerate e FSDP. Alcuni tutorial trattano anche l'utilizzo di framework come Ray per attività correlate alla visione.

Allenamento di corsa

Questi tutorial descrivono come addestrare o pre-addestrare LLM su cluster ad alte prestazioni. Ad esempio, impari a preaddestrare modelli come Qwen2 su cluster Slurm multi-nodo e multi-GPU con macchine virtuali A4. Esegui il deployment di cluster Slurm utilizzando Cluster Toolkit, crea immagini VM personalizzate, configura istanze Filestore condivise, configura reti RDMA ad alta velocità ed esegui job di pre-addestramento distribuiti con Hugging Face Accelerate. Google Cloud

Passaggi successivi

Esplora i tutorial di AI Hypercomputer: