Présentation de la création de clusters

Ce document explique comment créer un cluster pour vos charges de travail d'IA sur AI Hypercomputer. Plus précisément, ce document vous guide tout au long du processus et des choix à faire lorsque vous démarrez un cluster.

Avant de commencer

  • Vous devez disposer d'une charge de travail préexistante que vous souhaitez prendre en charge.

  • Vous devez connaître la terminologie couramment utilisée pour les charges de travail d'IA et de ML, comme l'entraînement et l'inférence de modèles.

Démarrer un cluster

Pour démarrer un cluster, procédez comme suit :

  1. Déterminer votre charge de travail et choisir un type de machine
  2. Choisir une option de consommation et obtenir de la capacité
  3. Choisir une option de déploiement
  4. Choisir un orchestrateur
  5. Choisir l'image du système d'exploitation et du cluster
  6. Créer votre cluster

Déterminer votre charge de travail et choisir un type de machine

Sélectionnez un type de machine pour votre charge de travail d'IA. AI Hypercomputer permet de créer des clusters à l'aide des séries de machines A4X Max, A4X, A4 et A3. Tenez compte des recommandations suivantes concernant l'utilisation des machines :

  • Pour l'entraînement et l'inférence de modèles de fondation : A4X Max ou A4X

  • Pour l'entraînement, l'affinage et l'inférence de grands modèles : A4 ou A3 Ultra

  • Pour l'inférence et l'affinage de modèles standards : A3 Mega ou A3 High (8 GPU)

  • Pour la diffusion d'inférences : A3 Edge

Pour en savoir plus sur chaque série de machines, consultez Types de machines GPU. Pour obtenir des informations détaillées sur les recommandations de charge de travail pour chaque machine, consultez Configurations recommandées.

Choisir une option de consommation et obtenir de la capacité

Sélectionnez une option de consommation pour vos ressources de GPU en fonction de la disponibilité de votre charge de travail et du type de machine choisi. Par exemple, pour utiliser les types de machines A4X Max ou A4X, vous devez réserver de la capacité pour une date et une heure spécifiques à l'aide du modèle de consommation des réservations futures. Les options suivantes récapitulent les modèles de consommation :

  • Réservations futures : disponibles pour les types de machines A4X Max, A4X, A4 et A3 Ultra, avec une allocation de ressources dense et une remise allant jusqu'à 53 % sur les vCPU et les GPU. Les réservations futures sont idéales pour les charges de travail qui nécessitent de la stabilité pendant une longue période, comme le pré-entraînement de modèles de fondation ou l'inférence multihôte de modèles de fondation. Pour utiliser cette option d'utilisation, vous devez demander de la capacité à votre équipe de compte pour une date et une heure de début ultérieures.

  • Réservations futures en mode Agenda : disponibles pour les types de machines A4, A3 Ultra, A3 Mega et A3 High (VM à huit GPU uniquement), avec une allocation de ressources dense et une remise allant jusqu'à 53 % sur les vCPU et les GPU. Les réservations futures en mode Agenda vous aident à réserver des ressources pour les charges de travail qui s'exécutent pendant 90 jours maximum et qui nécessitent de la stabilité, comme les modèles de pré-entraînement ou d'affinage. Toutefois, pour utiliser cette option de consommation, vous devez créer une demande de réservation afin de réserver des ressources à une date et une heure ultérieures, et Google Cloud doit approuver votre demande.

  • Démarrage flexible : disponible pour tous les types de machines GPU, sauf A4X Max et A4X. Le démarrage flexible vous permet de créer des clusters denses et éphémères qui durent jusqu'à sept jours et qui bénéficient de remises allant jusqu'à 53 % sur les processeurs virtuels et les GPU pour les types de machines A2 et ultérieurs. Vous pouvez créer des clusters Flex-start directement via Compute Engine, Cluster Director, Cluster Toolkit ou GKE. Toutefois, les clusters ne sont pas disponibles immédiatement. Google les crée dès que des ressources sont disponibles.

  • Spot : disponible pour tous les types de machines GPU, sauf A4X Max et A4X. Les VM Spot vous permettent de créer immédiatement des ressources de calcul en fonction de la disponibilité. Toutefois, Compute Engine peut préempter des instances de machines virtuelles (VM) à tout moment. Les VM Spot bénéficient de la remise la plus importante possible sur Compute Engine (entre 61 % et 90 %).

Pour en savoir plus sur les options de consommation, consultez Comparaison des options de consommation.

Choisir une option de déploiement

En fonction du niveau de contrôle dont vous avez besoin sur le déploiement de votre cluster, choisissez entre un déploiement hautement géré ou un déploiement moins géré qui vous donne plus de contrôle sur votre infrastructure.

Hautement géré

Si vous souhaitez que Google déploie et configure votre infrastructure, utilisez Cluster Director, Cluster Toolkit ou GKE.

  • Cluster Director : produitGoogle Cloud qui automatise la configuration complexe des clusters, vous aidant à configurer les ressources de calcul, de réseau et de stockage pour vos clusters afin de maximiser les performances et de minimiser les temps d'arrêt. Cluster Director est conçu pour les administrateurs informatiques et les chercheurs en IA qui souhaitent éviter la surcharge liée à la gestion d'un cluster et se concentrer plutôt sur l'exécution de leurs charges de travail.

  • Cluster Toolkit : outil Open Source proposé par Google qui simplifie la configuration et le déploiement de clusters pour GKE ou Compute Engine. Vous utilisez des plans prédéfinis pour déployer des configurations courantes, telles que les types de machines A4 avec Slurm. Vous pouvez modifier les plans pour personnaliser les déploiements et votre pile logicielle.

  • GKE : service Kubernetes géré et plate-forme d'orchestration de conteneurs Open Source. GKE offre des fonctionnalités telles que l'autoscaling et la haute disponibilité. Il est également capable d'orchestrer des applications conteneurisées, de prendre en charge du matériel spécialisé et d'être compatible avec l'écosystème Google Cloud. Il est donc bien adapté au déploiement et à la gestion des charges de travail d'IA ou de ML. Vous pouvez déployer des clusters GKE directement à l'aide de GKE ou à l'aide de Cluster Toolkit. Vous pouvez choisir entre le mode GKE Standard ou Autopilot.

Moins de gestion, plus de contrôle

Pour un contrôle plus précis de vos clusters et des logiciels qui y sont installés, créez un cluster Compute Engine à l'aide de groupes d'instances gérés (MIG) Compute Engine ou en créant des instances de manière groupée. Ensuite, installez manuellement les logiciels clés dont vous avez besoin sur les instances.

Choisir un orchestrateur

Un orchestrateur automatise la gestion de vos clusters. Avec un orchestrateur, vous n'avez pas besoin de gérer chaque instance de calcul du cluster. Un orchestrateur, tel que Slurm ou GKE, gère des tâches telles que la mise en file d'attente des jobs, l'allocation des ressources, l'autoscaling (dans le cas de GKE) et d'autres tâches de gestion quotidienne des clusters.

  • Slurm : Slurm est un orchestrateur Open Source couramment utilisé pour les charges de travail HPC, d'IA ou de ML. Pour utiliser Slurm, vous pouvez utiliser Cluster Toolkit (qui propose des plans de cluster qui installent automatiquement Slurm sur vos clusters) ou installer manuellement Slurm sur un cluster Compute Engine.

  • GKE : GKE est un service géré basé sur Kubernetes, une plate-forme d'orchestration de conteneurs Open Source. GKE est idéal pour déployer et gérer des charges de travail d'IA ou de ML, car il permet d'orchestrer des applications conteneurisées, prend en charge du matériel spécialisé et s'intègre à l'écosystème Google Cloud. Vous pouvez déployer des clusters GKE directement ou à l'aide de Cluster Toolkit.

  • Apportez votre propre orchestrateur : si vous souhaitez utiliser d'autres orchestrateurs, vous devez les utiliser sur vos clusters Compute Engine. Toutefois, la création d'un cluster Compute Engine est l'option la moins gérée proposée surGoogle Cloud. Cela signifie que vous êtes responsable de la configuration, de la maintenance et de la mise à jour de vos instances.

Choisir l'image du système d'exploitation

Selon que vous utilisez GKE ou Compute Engine, sélectionnez une image contenant le système d'exploitation de votre choix, tel que Container-Optimized OS pour les clusters GKE, ou une image d'OS d'accélérateur pour les clusters Compute Engine. Vous pouvez également sélectionner une image de couche logicielle de deep learning (DSLS) pour vos conteneurs.

Pour en savoir plus, consultez Images AI Hypercomputer.

Images pour les clusters GKE

Pour créer des clusters GKE, nous vous recommandons d'utiliser les images OS de conteneur par défaut pour les modes Standard et Autopilot. Toutefois, en mode Standard, vous pouvez également choisir d'utiliser d'autres images disponibles, comme Ubuntu.

Si vous utilisez Cluster Toolkit pour déployer votre cluster, vous ne pouvez utiliser que des images d'OS de conteneur, car il s'agit des images intégrées aux plans de cluster. Pour en savoir plus sur chaque image de nœud, consultez Images de nœuds dans la documentation GKE.

GKE propose également des images de conteneur DLSL (Deep Learning Software Layer) qui installent des packages tels que NVIDIA CUDA et NCCL, ainsi que des frameworks de ML tels que PyTorch, fournissant un environnement prêt à l'emploi pour les charges de travail de deep learning. Ces images de conteneurs DLSL prédéfinies sont testées et vérifiées pour fonctionner de manière fluide sur les clusters GKE.

Images d'OS pour les clusters Compute Engine

AI Hypercomputer propose des images optimisées pour exécuter des charges de travail d'IA et de ML à l'aide de Compute Engine. Choisissez l'OS que vous connaissez le mieux :

  • Accélérateur Rocky Linux 9
  • Accélérateur Rocky Linux 8
  • Accélérateur Ubuntu 24.04 LTS
  • Accélérateur Ubuntu 22.04 LTS

Si vous utilisez Cluster Toolkit, ces images d'accélérateur sont déjà incluses dans les plans Cluster Toolkit, car Cluster Toolkit crée des images personnalisées qui étendent les images d'OS Ubuntu LTS Accelerator.

Pour en savoir plus sur chaque image d'OS, consultez Détails des systèmes d'exploitation dans la documentation Compute Engine.

Créer votre cluster

Après avoir examiné le processus de création de cluster et pris des décisions préliminaires pour votre charge de travail, créez votre cluster à l'aide de l'une des options suivantes :