Auf dieser Seite finden Sie eine Übersicht über AI Hypercomputer-Tutorials, in denen der vollständige Prozess der Bereitstellung gängiger KI-/ML-Modelle auf Google Cloud -Produkten beschrieben wird. So können Sie POC-Arbeitslasten (Proof-of-Concept) für KI/ML ausführen.
Diese Tutorials richten sich an Entwickler von maschinellem Lernen (ML), Forscher, Plattformadministratoren und ‑betreiber sowie Daten- und KI-Spezialisten. Damit Sie diese Tutorials effektiv nutzen können, sollten Sie grundlegende Kenntnisse der Konzepte des maschinellen Lernens und der Google Cloud -Dienste haben. Erfahrung mit der Bereitstellung und Verwaltung von KI-Modellen hilft Ihnen ebenfalls, diese Inhalte zu verstehen.
Tutorial-Kategorien
Die Anleitungen für KI-Arbeitslasten sind in die folgenden Kategorien unterteilt:
- Inferenz mit vLLM in GKE ausführen
- Feinabstimmung ausführen
- Training ausführen
Inferenz mit vLLM in Google Kubernetes Engine ausführen
In diesen Anleitungen wird beschrieben, wie Sie Large Language Models (LLMs) für die Inferenz mit dem vLLM-Bereitstellungs-Framework in Google Kubernetes Engine (GKE) bereitstellen und bereitstellen. Sie lernen, wie Sie die Containerorchestrierungsfunktionen von GKE für effiziente Inferenzarbeitslasten nutzen. In diesen Anleitungen wird beschrieben, wie Sie mit Hugging Face auf Modelle zugreifen, GKE-Cluster einrichten (z. B. im Autopilot-Modus), Anmeldedaten verarbeiten und vLLM-Container für die Interaktion mit LLMs wie Gemma 3, Llama 4 und Qwen3 bereitstellen.
Feinabstimmung ausführen
In diesen Anleitungen wird beschrieben, wie Sie LLMs für bestimmte Aufgaben in verschiedenenGoogle Cloud -Clustertypen, einschließlich GKE und Slurm, feinabstimmen. Sie können Gemma 3 beispielsweise in GKE-Clustern mit mehreren Knoten und mehreren GPUs (z. B. mit A4-VM-Instanzen mit NVIDIA B200-GPUs) und in Slurm-Clustern abstimmen. Sie erstellen benutzerdefinierte VM-Images, konfigurieren RDMA-Netzwerke und führen verteilte Feinabstimmungsjobs mit Bibliotheken wie Hugging Face Accelerate und FSDP aus. In einigen Tutorials wird auch die Verwendung von Frameworks wie Ray für bildbezogene Aufgaben behandelt.
Training ausführen
In diesen Anleitungen wird beschrieben, wie Sie LLMs in leistungsstarken Clustern trainieren oder vortrainieren. Sie lernen beispielsweise, wie Sie Modelle wie Qwen2 in Slurm-Clustern mit mehreren Knoten und mehreren GPUs mit virtuellen A4-Maschinen vortrainieren. Sie stellen Slurm-Cluster mit dem Google Cloud -Cluster-Toolkit bereit, erstellen benutzerdefinierte VM-Images, konfigurieren freigegebene Filestore-Instanzen, konfigurieren Hochgeschwindigkeits-RDMA-Netzwerke und führen verteilte Pre-Training-Jobs mit Hugging Face Accelerate aus.
Nächste Schritte
Tutorials zum AI Hypercomputer ansehen:
- vLLM in GKE verwenden, um die Inferenz von Gemma 3 27B bereitzustellen
- Gemma 3 in einem A4-GKE-Cluster abstimmen
- Qwen2 in einem A4-Slurm-Cluster trainieren
- Qwen2-72B mit vLLM auf TPUs bereitstellen