Ce document décrit les bonnes pratiques à adopter pour créer un environnement réseau sécurisé et résilient pour les charges de travail AI Hypercomputer. Ces recommandations s'adressent aux architectes réseau, aux ingénieurs réseau et aux développeurs qui souhaitent configurer et déployer des charges de travail d'intelligence artificielle (IA) et de machine learning (ML) sur AI Hypercomputer.
Définissez des rôles IAM clairs et limités
La configuration correcte d'IAM permet d'améliorer la sécurité et le succès de vos déploiements AI Hypercomputer. Dans les environnements de production, des autorisations inadéquates ou mal configurées peuvent entraîner des échecs de déploiement. Les déploiements AI Hypercomputer, en particulier ceux qui utilisent Cluster Toolkit, échouent souvent dans les environnements avec des postures de sécurité renforcées où le compte de service Compute Engine par défaut ne dispose pas du rôle Editor étendu.
Pour atténuer les problèmes de déploiement qui peuvent survenir en raison de problèmes d'autorisation, suivez les bonnes pratiques listées dans cette section.
Utiliser des comptes de service dédiés
Pour renforcer la sécurité et le contrôle, évitez d'utiliser le compte de service Compute Engine par défaut. Créez plutôt un compte de service dédié au déploiement de votre AI Hypercomputer.
Accorder les rôles IAM nécessaires
Attribuez les rôles IAM suivants au compte de service dédié que vous avez créé :
- Administrateur Compute (
roles/compute.admin) : fournit un contrôle complet sur les ressources Compute Engine. - Utilisateur du compte de service (
roles/iam.serviceAccountUser) : permet d'associer le compte de service à d'autres ressources, ce qui est essentiel pour les outils tels que Packer lors de la création d'images personnalisées. - Administrateur de l'espace de stockage (
roles/storage.admin) : nécessite d'accéder aux buckets Cloud Storage et de les gérer, par exemple pour stocker des images Packer ou d'autres artefacts. - Administrateur Logging (
roles/logging.admin) : permet au compte de service de configurer la journalisation et d'afficher les journaux, ce qui est essentiel pour le débogage.
Vérifier les autorisations avant le déploiement
Avant de lancer un déploiement, vérifiez que votre compte de service dispose des autorisations nécessaires. Exécutez la commande gcloud projects get-iam-policy :
gcloud projects get-iam-policy PROJECT_ID \
--flatten="bindings[].members" \ format='table(bindings.role)' \
--filter="bindings.members:serviceAccount:SERVICE_ACCOUNT_EMAIL"
Remplacez les éléments suivants :
PROJECT_ID: ID de votre projet Google Cloud .SERVICE_ACCOUNT_EMAIL: adresse e-mail du compte de service que vous souhaitez valider.
Cette commande liste tous les rôles accordés à votre compte de service dans le projet spécifié. Assurez-vous que les rôles listés dans Attribuer les rôles IAM nécessaires s'affichent dans le résultat.
Restreindre l'accès au réseau public et renforcer les configurations de pare-feu
Limitez l'accès au réseau public et renforcez les configurations de pare-feu pour améliorer la sécurité. Cette pratique de sécurité fondamentale permet d'atténuer le risque de règles de pare-feu par défaut trop permissives.
Des échecs de configuration de machines virtuelles (VM) peuvent se produire dans les environnements de production en raison de configurations de pare-feu restrictives qui ne sont pas présentes dans les tests internes. Les ingénieurs peuvent avoir du mal à diagnostiquer ces échecs s'ils ne connaissent pas les règles de pare-feu spécifiques.
Examinez et mettez à jour vos règles de pare-feu pour minimiser l'exposition directe à Internet. Pour en savoir plus sur les règles de pare-feu VPC, consultez Règles de pare-feu VPC.
Standardiser les paramètres réseau internes par défaut
Standardisez les paramètres réseau internes par défaut pour réduire les risques et les difficultés de configuration. Les comportements réseau par défaut peuvent créer des risques ou des problèmes de configuration dans les environnements complexes ou renforcés en termes de sécurité. Google recommande les configurations suivantes :
- Utiliser le DNS zonal : pour les nouveaux projets, définissez le système de noms de domaine (DNS) interne sur "DNS zonal uniquement". Cette approche permet de réduire l'impact d'une éventuelle panne DNS mondiale. Pour en savoir plus sur l'utilisation du DNS zonal, consultez Présentation de l'utilisation du DNS zonal.
- Désactivez les adresses IP externes : désactivez les adresses IP externes lorsque cela est possible. Avant de désactiver les adresses IP, vous devez planifier et tester soigneusement dans un environnement de préproduction, car certains services tels que les groupes d'instances gérés (MIG) ou les clusters GKE avec des nœuds publics en dépendent. Pour en savoir plus sur la limitation des adresses IP publiques, consultez Limiter les adresses IP publiques sur Google Cloud.
Récapitulatif des bonnes pratiques
Le tableau suivant récapitule les bonnes pratiques recommandées dans ce document :
| Sujet | Tâche |
|---|---|
| IAM | Définir des rôles IAM clairs et restreints |
| Pare-feu | Restreindre l'accès au réseau public et renforcer les configurations de pare-feu |
| Valeurs par défaut du réseau | Standardiser les paramètres réseau internes par défaut |
Étapes suivantes
- En savoir plus sur les bonnes pratiques d'utilisation des comptes de service
- En savoir plus sur les règles de pare-feu VPC
- En savoir plus sur l'architecture réseau AI Hypercomputer