Présentation des clusters d'entraînement Gemini Enterprise Agent Platform

Si les clusters d'entraînement Gemini Enterprise Agent Platform vous intéressent, contactez votre représentant commercial pour y accéder.

Les clusters d'entraînement Gemini Enterprise Agent Platform sont un service conçu pour simplifier et accélérer les charges de travail d'IA/ML les plus volumineuses et les plus complexes. Google Cloud Ils sont spécialement conçus pour résoudre les problèmes liés à l'entraînement à grande échelle, tels que la configuration complexe des clusters, l'optimisation des frameworks, la gestion des défaillances matérielles et l'intégration d'ensembles d'outils disparates.

Proposition de valeur et fonctionnalités clés

Les clusters d'entraînement Gemini Enterprise Agent Platform offrent plusieurs avantages principaux :

  • Expérience utilisateur Slurm Open Source et transparence des clusters: les clusters d'entraînement Gemini Enterprise Agent Platform fournissent des outils familiers et flexibles pour lancer et gérer des tâches via une expérience utilisateur Slurm Open Source. Slurm est une norme du secteur reconnue pour sa planification optimisée des GPU, sa tolérance aux pannes automatisée et le lancement simplifié de tâches parallèles.

  • Configuration et configuration automatisées des clusters: les clusters d'entraînement Gemini Enterprise Agent Platform automatisent la configuration des clusters, dans le but de passer de la réservation à l'entraînement en production en quelques heures. Les utilisateurs peuvent créer des clusters à l'aide de la Google Cloud console (en utilisant des architectures de référence ou une configuration pas à pas) ou via des appels d'API avec des fichiers JSON.

  • Recettes et workflows de science des données préconfigurés: les clusters d'entraînement Gemini Enterprise Agent Platform incluent des outils spécialement conçus et des recettes d'entraînement optimisées pour lancer l'entraînement pour des cas d'utilisation courants tels que les modèles Llama et Gemma, couvrant le pré-entraînement, l'affinage supervisé (SFT) et l'apprentissage par renforcement (RL). Ces recettes sont préconfigurées pour des performances de pointe sur Google Cloud l'infrastructure, ce qui démontre des gains de performances significatifs.

  • Résilience matérielle et haute disponibilité: les clusters d'entraînement Gemini Enterprise Agent Platform sont conçus avec une résilience matérielle pour améliorer la disponibilité des clusters. Ils résolvent automatiquement les problèmes matériels, détectent et trient différents modes de défaillance (par exemple, les vérifications d'exactitude, les vérifications de vitesse, les erreurs ECC (Error-Correcting Code), les vérifications du gestionnaire de GPU NVIDIA Data Center (DCGM), la capacité d'espace disque) et déclenchent des actions de correction telles que le redémarrage, la réinitialisation ou le remplacement des nœuds défectueux, et la reprise à partir de points de contrôle. Cela permet d'atténuer l'augmentation significative des coûts et les retards causés par les interruptions de tâches et les défaillances matérielles lors de l'entraînement à grande échelle.

  • Architecture et composants: les clusters d'entraînement Gemini Enterprise Agent Platform s'exécutent sur l'infrastructure Compute Engine compatible avec les GPU et les processeurs. Ils exploitent un orchestrateur Slurm géré pour déployer et gérer les nœuds de calcul, y compris les nœuds de connexion et de calcul. Le service s'intègre à d'autres Google Cloud services tels que la mise en réseau et le stockage.

  • MLOps et observabilité : s'intègre aux outils Vertex ML Ops tels que Gemini Enterprise Agent Platform Model Registry pour l'enregistrement, le suivi et la gestion des versions automatiques des workflows entraînés, et Vertex AI Inference pour le déploiement avec autoscaling et métriques automatisées. Les clusters d'entraînement incluent également une intégration automatique de l'observabilité avec Vertex AI TensorBoard pour visualiser les processus d'entraînement, suivre les métriques et identifier les problèmes rapidement.

Les clusters d'entraînement peuvent être créés, récupérés, listés, mis à jour et supprimés à l'aide de l'API des clusters d'entraînement Gemini Enterprise Agent Platform. Une fois le cluster créé, les utilisateurs peuvent valider son fonctionnement en se connectant aux nœuds, en exécutant des commandes Slurm de base (par exemple, sinfo, sbatch) et en exécutant des charges de travail liées aux GPU (par exemple, nvidia-smi). L' outil Cluster Health Scanner (CHS) est préinstallé pour exécuter des diagnostics tels que les tests DCGM et NCCL afin de vérifier que le cluster est prêt.

Les clusters d'entraînement Gemini Enterprise Agent Platform fournissent une API pour lancer des tâches LLM prédéfinies à l'aide de recettes optimisées pour des modèles tels que Llama et Gemma, qui prennent en charge le pré-entraînement et le pré-entraînement continu à partir de points de contrôle. La surveillance des tâches est possible en se connectant au nœud de connexion et en examinant les fichiers de sortie et les commandes Slurm telles que squeue.

Terminologie

Cette section fournit des définitions pour les termes et concepts clés essentiels à la compréhension et à l'utilisation efficace des clusters d'entraînement Gemini Enterprise Agent Platform. Ces termes couvrent les composants de service de base, les considérations architecturales, les technologies de stockage intégrées et les concepts fondamentaux de machine learning (ML) et de MLOps qui sous-tendent votre environnement d'entraînement.

Concepts de service de base

nœud
  • Machine virtuelle unique (instance Compute Engine) dans un cluster. Dans le contexte de l'entraînement géré sur des clusters réservés, un nœud fait référence à une machine virtuelle individuelle qui sert d'unité de calcul unique dans votre cluster. Considérez-le comme l'une des machines de calcul dédiées qui exécutent une partie de votre tâche d'entraînement globale. Chaque nœud est équipé de ressources spécifiques telles que le processeur, la mémoire et les accélérateurs (par exemple, les GPU A3 ou A4), et ils fonctionnent tous ensemble de manière coordonnée pour gérer les tâches d'entraînement distribuées à grande échelle.
nœud de connexion
  • Un nœud de connexion est le point d'entrée principal permettant à un utilisateur d'accéder au cluster, d'envoyer des tâches et de gérer des fichiers. Pour en savoir plus, consultez Qu'est-ce que le calcul hautes performances ?.
Partition
  • Dans Slurm, un regroupement logique de nœuds, souvent utilisé pour séparer les nœuds avec des configurations matérielles différentes.
Recette
  • Dans le contexte de l'entraînement géré, une recette est un package complet et réutilisable qui contient tout ce qui est nécessaire pour exécuter une charge de travail d'entraînement à grande échelle spécifique.
Cluster Slurm
  • Ensemble d'instances Compute Engine, géré par Slurm, qui inclut un nœud de connexion et plusieurs nœuds de calcul configurés pour exécuter des tâches d'entraînement. Pour en savoir plus, consultez Gestionnaire de charges de travail Slurm.
Nœud de calcul
  • Un nœud de calcul fait référence à une machine ou à une instance de calcul individuelle dans un cluster, chargée d'exécuter des tâches ou d'effectuer des opérations. Dans les systèmes tels que les clusters Kubernetes ou Ray, les nœuds sont les unités de calcul fondamentales. Pour en savoir plus, consultez Qu'est-ce que le calcul hautes performances (HPC) ?.

Architecture et mise en réseau

Réseau VPC consommateur
  • Un réseau VPC consommateur est un cloud privé virtuel (VPC) Google Cloud qui accède de manière privée à un service hébergé dans un autre VPC (appelé VPC producteur). Pour plus d'informations, consultez Private Service Connect.
Unité de transmission maximale (MTU)
  • Taille maximale d'un paquet de données qu'un appareil connecté au réseau peut transmettre. Des tailles de MTU plus importantes (trames jumbo) peuvent améliorer les performances du réseau pour certaines charges de travail. Pour en savoir plus, consultez Unité de transmission maximale.
Accès aux services privés
  • L'accès aux services privés est une connexion privée entre votre réseau de cloud privé virtuel (VPC) et les réseaux appartenant à Google ou à des fournisseurs de services tiers. Il permet aux instances de machines virtuelles (VM) de votre réseau VPC de communiquer avec ces services à l'aide d'adresses IP internes, en évitant l'exposition à l'Internet public. Pour en savoir plus, consultez Accès aux services privés.
Appairage de réseaux VPC
  • Connexion réseau qui permet à deux réseaux VPC de communiquer de manière privée. Dans le contexte de l'entraînement géré sur des clusters réservés, l'appairage de réseaux VPC est un composant essentiel pour l'intégration de services essentiels. Par exemple, il s'agit de la méthode requise pour connecter le VPC de votre cluster à une instance Filestore, qui fournit le répertoire `/home` partagé nécessaire pour tous les nœuds de votre cluster.
Zone
  • Zone de déploiement spécifique dans une région Google Cloud. Dans le contexte de l'entraînement géré sur des clusters réservés, pour des performances optimales, tous les composants du service (le cluster, Filestore et les instances Managed Lustre) doivent être créés dans la même zone.

Technologies de stockage intégrées

Cloud Storage FUSE
  • Adaptateur FUSE Open Source qui vous permet d'installer des buckets Cloud Storage en tant que système de fichiers sur des systèmes Linux ou macOS. Pour en savoir plus, consultez Cloud Storage FUSE.
Filestore
  • Service de stockage de fichiers hautes performances entièrement géré de Google Cloud, souvent utilisé pour les applications qui nécessitent un système de fichiers partagé. Pour en savoir plus, consultez la présentation de Filestore.
Managed Lustre
  • Système de fichiers parallèle et distribué conçu pour le calcul hautes performances. Managed Lustre de Google Cloud fournit un système de fichiers à haut débit pour les charges de travail exigeantes. Pour en savoir plus, consultez la présentation de Managed Lustre.
Niveau de performances
  • Paramètre de configuration d'une instance Managed Lustre qui définit sa vitesse de débit (en Mo/s par Tio) et affecte sa capacité minimale et maximale.

Concepts clés de ML et de MLOps

Point de contrôle
  • Données qui capturent l'état des paramètres d'un modèle pendant l'entraînement ou une fois l'entraînement terminé. Par exemple, pendant l'entraînement, vous pouvez : 1. Arrêter l'entraînement, peut-être intentionnellement ou en raison de certaines erreurs. 2. Capturer le point de contrôle. 3. Plus tard, rechargez le point de contrôle, éventuellement sur un matériel différent. 4. Redémarrer l'entraînement. Dans Gemini, un point de contrôle fait référence à une version spécifique d'un modèle Gemini entraîné sur un ensemble de données spécifique.
Affinage supervisé (SFT)
  • Technique de machine learning dans laquelle un modèle pré-entraîné est entraîné sur un ensemble de données plus petit et étiqueté pour l'adapter à une tâche spécifique.
Vertex AI Inference
Vertex AI Model Registry
  • Vertex AI Model Registry est un dépôt central dans lequel vous pouvez gérer le cycle de vie de vos modèles de ML. Vertex AI Model Registry vous offre un aperçu de vos modèles afin de mieux organiser, suivre et entraîner les nouvelles versions. Lorsque vous souhaitez déployer une version de modèle, vous pouvez l'attribuer à un point de terminaison directement à partir du registre ou, à l'aide d'alias, déployer des modèles sur un point de terminaison. Pour en savoir plus, consultez Présentation de Vertex AI Model Registry.
Vertex AI TensorBoard
  • Vertex AI TensorBoard est un service géré et évolutif sur Google Cloud qui permet aux data scientists et aux ingénieurs ML de visualiser leurs tests de machine learning, de déboguer l'entraînement des modèles et de suivre les métriques de performances à l'aide de l'interface Open Source TensorBoard. Il s'intègre de manière transparente à Vertex AI Training et à d'autres services, fournissant un stockage persistant pour les données de test et permettant une analyse collaborative du développement de modèles. Pour en savoir plus, consultez Présentation de Vertex AI TensorBoard.