Pour vous aider à exécuter des charges de travail d'IA/ML de preuve de concept (POC), cette page présente les tutoriels AI Hypercomputer qui décrivent le processus complet de déploiement de modèles d'IA courants sur les produits Google Cloud .
Ces tutoriels sont conçus pour les ingénieurs en machine learning (ML), les chercheurs, les administrateurs et opérateurs de plate-forme, ainsi que les spécialistes des données et de l'IA. Pour utiliser efficacement ces tutoriels, vous devez avoir une compréhension de base des concepts de machine learning et maîtriser les services Google Cloud . Une expérience dans le déploiement et la gestion de modèles d'IA vous aidera également à comprendre ce contenu.
Catégories de tutoriels
Les tutoriels sur les charges de travail d'IA sont organisés dans les catégories suivantes :
- Exécuter l'inférence avec vLLM sur GKE
- Exécuter l'affinage
- Exécuter l'entraînement
Exécuter l'inférence avec vLLM sur Google Kubernetes Engine
Ces tutoriels expliquent comment déployer et diffuser des grands modèles de langage (LLM) pour l'inférence à l'aide du framework de diffusion vLLM sur Google Kubernetes Engine (GKE). Vous apprendrez à utiliser les capacités d'orchestration de conteneurs de GKE pour des charges de travail d'inférence efficaces. Ces tutoriels expliquent comment accéder aux modèles à l'aide de Hugging Face, configurer des clusters GKE (par exemple, en mode Autopilot), gérer les identifiants et déployer des conteneurs vLLM pour interagir avec des LLM tels que Gemma 3, Llama 4 et Qwen3.
Exécuter l'affinage
Ces tutoriels décrivent comment affiner les LLM pour des tâches spécifiques sur différents types de clustersGoogle Cloud , y compris GKE et Slurm. Par exemple, vous pouvez affiner Gemma 3 sur des clusters GKE multi-nœuds et multi-GPU (par exemple, en utilisant des instances de VM A4 avec des GPU NVIDIA B200) et des clusters Slurm. Vous allez créer des images de VM personnalisées, configurer des réseaux RDMA et exécuter des jobs de réglage fin distribués avec des bibliothèques telles que Hugging Face Accelerate et FSDP. Certains tutoriels expliquent également comment utiliser des frameworks tels que Ray pour les tâches liées à la vision.
Exécuter l'entraînement
Ces tutoriels expliquent comment entraîner ou pré-entraîner des LLM sur des clusters hautes performances. Par exemple, vous apprendrez à pré-entraîner des modèles tels que Qwen2 sur des clusters Slurm multinœuds et multi-GPU avec des machines virtuelles A4. Vous déployez des clusters Slurm à l'aide du Cluster Toolkit Google Cloud , créez des images de VM personnalisées, configurez des instances Filestore partagées, configurez la mise en réseau RDMA à haut débit et exécutez des tâches de pré-entraînement distribuées avec Hugging Face Accelerate.
Étapes suivantes
Consultez les tutoriels sur AI Hypercomputer :
- Utiliser vLLM sur GKE pour diffuser l'inférence Gemma 3 27B
- Affiner Gemma 3 sur un cluster A4 GKE
- Entraîner Qwen2 sur un cluster Slurm A4
- Diffuser Qwen2-72B avec vLLM sur des TPU