Pour exécuter des charges de travail d'intelligence artificielle (IA), de machine learning (ML) ou de calcul hautes performances (HPC), vous pouvez déployer des instances et des clusters Compute Engine optimisés pour l'IA qui utilisent des machines A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU). Pour en savoir plus sur les fonctionnalités de ces machines qui vous permettent d'exécuter des clusters d'IA et de ML à grande échelle, consultez la présentation de la gestion des clusters.
Vous pouvez créer des instances A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) directement à partir de Compute Engine, ou via d'autres services qui s'exécutent sur des instances Compute Engine, tels que Cluster Toolkit ou Google Kubernetes Engine.
Pour choisir l'option la plus appropriée pour créer vos instances de calcul ou vos clusters pour votre cas d'utilisation, sélectionnez l'une des options suivantes :
| Option | Cas d'utilisation |
|---|---|
| Cluster Director | Vous souhaitez un service entièrement géré qui automatise la configuration de vos clusters Slurm. Cluster Director vous aide à configurer les ressources de calcul, de réseau et de stockage de vos clusters pour maximiser les performances et réduire les temps d'arrêt. Pour en savoir plus, consultez Créer un cluster Slurm entièrement géré pour les charges de travail d'IA. |
| Cluster Toolkit | Vous souhaitez utiliser un logiciel Open Source qui simplifie le processus pour vous de déployer les clusters Slurm et GKE. Cluster Toolkit est conçu pour être hautement personnalisable et extensible. Vous pouvez utiliser des plans pour provisionner des ressources de mise en réseau et de stockage. Pour en savoir plus, consultez les ressources suivantes : |
| GKE | Vous souhaitez une flexibilité maximale pour configurer votre cluster Google Kubernetes Engine basée sur les besoins de votre charge de travail. Pour en savoir plus, consultez Créer un cluster Google Kubernetes Engine personnalisé optimisé pour l'IA. |
| Utiliser Compute Engine | Vous souhaitez un contrôle total de la couche d'infrastructure afin de pouvoir configurer votre propre orchestrateur. Pour en savoir plus, consultez les ressources suivantes :
|
Étape suivante
- Découvrez l'infrastructure optimisée pour les performances d'AI Hypercomputer :