Ce document décrit les services réseau que vous configurez pour les déploiements de clusters et de VM AI Hypercomputer. Les services réseau spécifiques que vous configurez pour AI Hypercomputer dépendent de l'option de déploiement que vous choisissez pour vos VM ou clusters.
Ce document s'adresse aux architectes, aux ingénieurs réseau et aux développeurs qui souhaitent comprendre les services réseau pour leurs déploiements AI Hypercomputer. Dans ce document, nous partons du principe que vous avez déjà acquis les connaissances de base sur les concepts de mise en réseau cloud et d'informatique distribuée. Pour en savoir plus sur les options de déploiement, consultez Présentation de la création de VM et de clusters.
Ce document décrit en détail les services réseau que vous configurez pour les options de déploiement suivantes :
- Mise en réseau pour un déploiement GKE avec une configuration par défaut
- Mise en réseau pour un déploiement GKE utilisant une configuration personnalisée
- Mise en réseau pour le déploiement de clusters Slurm
- Mise en réseau pour les instances Compute Engine
Configurer la mise en réseau pour les déploiements GKE par défaut
Lorsque vous créez un cluster GKE optimisé pour l'IA avec les paramètres par défaut, vous définissez vos paramètres réseau dans le blueprint Cluster Toolkit. Le plan change en fonction du type de machine que vous sélectionnez. Par exemple, le plan Cluster Toolkit déploie un cluster GKE avec une machine A4.
Le plan configure le réseau de la manière suivante :
- Utilise le VPC par défaut : le blueprint utilise le réseau de cloud privé virtuel par défaut pour le cluster GKE principal.
- Crée deux autres VPC : le blueprint configure deux réseaux de cloud privé virtuel distincts. L'une est destinée à une deuxième carte d'interface réseau (NIC) hôte, et l'autre au trafic RDMA (Remote Direct Memory Access) de GPU à GPU. Cette configuration à plusieurs VPC vous permet d'améliorer l'isolation du réseau. Pour en savoir plus, consultez Environnement multi-VPC.
- Définit les plages d'adresses IP : le plan définit l'espace d'adresses IP privées pour vos nœuds GKE. Il configure les plages d'adresses IP secondaires pour les pods et les services. GKE utilise l'alias d'adresse IP pour éviter les conflits d'adresses IP.
- Applique un profil réseau optimisé pour RDMA : le blueprint applique un profil réseau prédéfini et géré par Google au VPC utilisé pour le trafic GPU. Ce profil configure automatiquement le réseau pour les performances à haut débit et à faible latence dont RDMA a besoin. Pour en savoir plus, consultez Profils réseau pour des cas d'utilisation spécifiques.
- Automatisation de la création de sous-réseaux pour RDMA : pour garantir les meilleures performances, le blueprint crée automatiquement huit sous-réseaux dédiés dans le VPC RDMA. Il crée un sous-réseau pour chacune des huit cartes d'interface réseau RDMA sur une VM d'accélérateur.
- Configure les règles de pare-feu : le blueprint configure des règles de pare-feu qui autorisent tout le trafic TCP (Transmission Control Protocol), UDP (protocole de datagramme utilisateur) et ICMP (Internet Control Message Protocol) entre les nœuds du cluster. Cela permet aux nœuds de communiquer librement. Il configure également une plage CIDR (Classless Inter-Domain Routing) autorisée pour limiter l'accès au plan de contrôle du cluster GKE pour des raisons de sécurité.
Mise en réseau pour les déploiements GKE avec configuration personnalisée
Lorsque vous avez besoin d'un contrôle plus précis que celui fourni par les plans Cluster Toolkit par défaut, configurez manuellement les objets réseau pour un cluster GKE optimisé pour l'IA. Cette approche vous permet d'adapter la configuration réseau à vos besoins spécifiques en termes de charge de travail.
La configuration que vous utilisez dépend de la question de savoir si vous prévoyez d'exécuter des charges de travail d'IA distribuées :
- Pour les charges de travail non distribuées : créez un cluster GKE sans GPUDirect RDMA. Cette méthode utilise un seul réseau VPC pour toutes les communications.
- Pour les charges de travail distribuées : créez un cluster GKE avec GPUDirect RDMA activé. L'activation de GPUDirect RDMA est essentielle pour obtenir des performances optimales à grande échelle. Cette configuration implique un environnement multi-VPC qui sépare le trafic à usage général de la communication GPU à GPU à bande passante élevée et à faible latence.
Pour obtenir des instructions détaillées et pas à pas sur la création d'un cluster GKE personnalisé optimisé pour l'IA pour les deux scénarios, consultez Créer un cluster GKE personnalisé optimisé pour l'IA.
Mise en réseau pour les déploiements de clusters Slurm
Vous pouvez utiliser Cluster Toolkit pour déployer des charges de travail de calcul hautes performances (HPC), d'IA et de ML sur Google Cloud à l'aide de plans hautement personnalisables et extensibles. Par exemple, lorsque vous créez un cluster Slurm optimisé pour l'IA avec un type de machine A4. Cette section décrit les services réseau configurés dans le plan A4, qui vous aide à comprendre les paramètres réseau que vous pouvez modifier lorsque vous créez des clusters Slurm.
Lors du déploiement, le plan Cluster Toolkit utilise Packer pour créer automatiquement une image d'OS personnalisée. Packer crée l'image en lançant une VM temporaire et en exécutant des scripts pour personnaliser le disque de démarrage. Vous pouvez personnaliser l'image à l'aide de scripts de démarrage, de scripts shell ou de playbooks Ansible. Le plan utilise ensuite cette image personnalisée pour installer le logiciel système requis pour la gestion des clusters et des charges de travail sur les nœuds Slurm.
Voici les composants réseau configurés par le plan :
- Crée trois VPC distincts : le plan crée un VPC principal pour le plan de contrôle Slurm, un VPC secondaire pour le trafic général au niveau de l'hôte et un VPC dédié hautes performances pour la communication GPU à GPU. Cette séparation empêche le trafic de gestion d'interférer avec le plan de données de la charge de travail. Pour en savoir plus, consultez Environnement multi-VPC.
- Applique un profil réseau optimisé pour RDMA : pour le plan de données GPU, le blueprint applique un profil réseau préconfiguré et géré par Google, optimisé pour RoCE. Il crée automatiquement huit sous-réseaux, un pour chaque carte d'interface réseau RDMA sur les VM d'accélérateur. Pour en savoir plus, consultez Profils réseau pour des cas d'utilisation spécifiques.
- Réserve une plage d'adresses IP pour le stockage partagé : le plan définit une plage d'adresses IP dédiée requise par le service Filestore.
Filestore fournit le répertoire
/homepartagé pour le cluster. - Fournit un réseau isolé pour la création d'images : le blueprint crée un VPC temporaire utilisé uniquement lors du processus de création de l'image de VM personnalisée pour les nœuds du cluster. Cela fournit un environnement réseau isolé pour les opérations Packer.
Pour plus d'options de déploiement, consultez la documentation Cluster Toolkit.
Mise en réseau pour les instances Compute Engine
Avec Compute Engine, vous pouvez créer des VM autonomes, des instances de VM en masse et des groupes d'instances gérés (MIG) pour différents types de machines optimisés pour les accélérateurs.
Ces types de machines nécessitent une configuration réseau multi-VPC pour gérer différents types de trafic. Cette configuration sépare le trafic hôte à hôte général de la communication GPU à GPU à bande passante élevée. Les exigences réseau spécifiques varient en fonction du type de machine.
Pour obtenir des informations détaillées sur les cartes d'interface réseau et la configuration réseau de votre type de machine, consultez Examiner la bande passante réseau et la configuration des cartes d'interface réseau.
Pour obtenir des instructions détaillées sur la création de ces réseaux VPC, consultez Créer des réseaux VPC.
Étapes suivantes
- Pour identifier le meilleur déploiement pour votre charge de travail, consultez Configurations recommandées.
- Pour comprendre le cas d'utilisation de chaque option de déploiement, consultez Présentation de la création de VM et de clusters.
- Pour créer un cluster GKE optimisé pour l'IA avec la configuration par défaut, consultez Créer un cluster GKE optimisé pour l'IA avec la configuration par défaut.
- Pour créer un cluster GKE personnalisé optimisé pour l'IA, consultez Créer un cluster GKE personnalisé optimisé pour l'IA.
- Pour créer un cluster Slurm optimisé pour l'IA avec un type de machine A4, consultez Créer un cluster Slurm optimisé pour l'IA avec un type de machine A4.
- Pour créer une instance optimisée pour l'IA avec A4 ou A3 Ultra, consultez Créer une instance optimisée pour l'IA avec A4 ou A3 Ultra.
- Pour créer une instance optimisée pour l'IA avec A3 Mega ou A3 High, consultez Créer une instance optimisée pour l'IA avec A3 Mega ou A3 High.