Avant de pouvoir déployer votre premier cluster sur les clusters d'entraînement Vertex AI, vous devez configurer votre projet et votre environnementGoogle Cloud . Ce guide couvre tous les prérequis nécessaires, qui se répartissent en trois catégories principales :
Accès au projet : accès au service, qui se fait uniquement sur invitation.
Configuration des ressources : activation des API et configuration des services de stockage et du réseau VPC requis.
Autorisations utilisateur : accordez les rôles IAM nécessaires pour la gestion des clusters et l'accès aux ressources.
Ces étapes préparent votre projet à un déploiement réussi.
Prérequis
Pour utiliser les clusters d'entraînement, vous devez :
- Ajoutez votre projet à la liste d'autorisation en contactant votre conseiller commercial pour obtenir un accès.
- Obtenez de la capacité pour les clusters de GPU dans les régions compatibles.
- Activez les API nécessaires, y compris les API Compute Engine, Filestore, Cloud Storage, Managed Lustre (facultatif), Hypercomputer Configuration Service et Vertex AI.
- Configurez la mise en réseau en vous assurant qu'un réseau existant répond à des conditions spécifiques (par exemple, l'accès privé à Google, les règles de pare-feu) ou en créant un réseau et un sous-réseau VPC.
- Configurez le stockage en créant une instance Filestore zonale ou régionale qui servira de répertoire
/home, et en configurant éventuellement une instance Lustre géréeGoogle Cloud . - Accordez des autorisations IAM aux utilisateurs pour la gestion des clusters, l'accès au stockage et l'accès SSH aux nœuds de cluster, comme décrit dans la section Autorisations IAM.
Régions où le service est disponible
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Autorisations IAM
- Attribuez le rôle
roles/aiplatform.adminaux utilisateurs qui géreront vos clusters d'entraînement. - Attribuez le rôle
roles/aiplatform.vieweraux utilisateurs qui n'ont besoin que d'afficher les clusters et leurs configurations. Attribuez les rôles IAM suivants à l'utilisateur ou au compte de service qui gérera (créera, supprimera et mettra à jour) les clusters d'entraînement gérés :
Nom du rôle ID de rôle Administrateur d'instances Compute (v1) roles/compute.instanceAdmin.v1Rédacteur de journaux roles/logging.logWriterRédacteur de métriques Monitoring roles/monitoring.metricWriterUtilisateur du compte de service roles/iam.serviceAccountUserAdministrateur pour les réseaux de services roles/servicenetworking.networksAdminPour autoriser les nœuds du cluster à lire et à écrire dans les buckets Cloud Storage à l'aide de Google Cloud Storage FUSE, accordez le rôle Utilisateur d'objets de stockage (
roles/storage.objectUser) au compte de service utilisé par les VM.Pour accéder en SSH aux nœuds de connexion Slurm, accordez les autorisations suivantes :
Autorisations Descriptions Objectif Connexion au système d'exploitation Compute Connectez-vous à une VM en tant qu'utilisateur standard (non administrateur). Si sudoest nécessaire, utilisez plutôt Compute OS Admin Login.Se connecter en SSH au nœud de connexion déployé Utilisateur de tunnels sécurisés par IAP Permet d'accéder aux ressources de tunnels qui utilisent Identity-Aware Proxy. Se connecter en SSH au nœud de connexion déployé
Activer les API
Activez l'API Google Compute Engine :
gcloud services enable compute.googleapis.comActivez le service de mise en réseau, car Filestore doit être déployé avant la création du cluster.
gcloud services enable servicenetworking.googleapis.comActivez l'API Cloud Storage :
gcloud services enable storage.googleapis.comActivez l'API Lustre (si vous utilisez Lustre) :
gcloud services enable lustre.googleapis.comActivez l'API HCS :
gcloud services enable hypercomputecluster.googleapis.comActivez l'API Vertex AI :
gcloud services enable aiplatform.googleapis.comActivez l'API Cloud Resource Manager :
gcloud services enable cloudresourcemanager.googleapis.com
Étapes suivantes
Pour obtenir un guide détaillé sur la création d'un cluster d'entraînement et l'exécution de vos charges de travail d'IA/ML, contactez votre conseiller commercial.