Premiers pas avec les clusters d'entraînement

Si vous êtes intéressé par les clusters d'entraînement Vertex AI, contactez votre représentant commercial pour y accéder.

Avant de pouvoir déployer votre premier cluster sur les clusters d'entraînement Vertex AI, vous devez configurer votre projet et votre environnementGoogle Cloud . Ce guide couvre tous les prérequis nécessaires, qui se répartissent en trois catégories principales :

  • Accès au projet : accès au service, qui se fait uniquement sur invitation.

  • Configuration des ressources : activation des API et configuration des services de stockage et du réseau VPC requis.

  • Autorisations utilisateur : accordez les rôles IAM nécessaires pour la gestion des clusters et l'accès aux ressources.

Ces étapes préparent votre projet à un déploiement réussi.

Prérequis

Pour utiliser les clusters d'entraînement, vous devez :

  1. Ajoutez votre projet à la liste d'autorisation en contactant votre conseiller commercial pour obtenir un accès.
  2. Obtenez de la capacité pour les clusters de GPU dans les régions compatibles.
  3. Activez les API nécessaires, y compris les API Compute Engine, Filestore, Cloud Storage, Managed Lustre (facultatif), Hypercomputer Configuration Service et Vertex AI.
  4. Configurez la mise en réseau en vous assurant qu'un réseau existant répond à des conditions spécifiques (par exemple, l'accès privé à Google, les règles de pare-feu) ou en créant un réseau et un sous-réseau VPC.
  5. Configurez le stockage en créant une instance Filestore zonale ou régionale qui servira de répertoire /home, et en configurant éventuellement une instance Lustre géréeGoogle Cloud .
  6. Accordez des autorisations IAM aux utilisateurs pour la gestion des clusters, l'accès au stockage et l'accès SSH aux nœuds de cluster, comme décrit dans la section Autorisations IAM.

Régions où le service est disponible

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Autorisations IAM

  1. Attribuez le rôle roles/aiplatform.admin aux utilisateurs qui géreront vos clusters d'entraînement.
  2. Attribuez le rôle roles/aiplatform.viewer aux utilisateurs qui n'ont besoin que d'afficher les clusters et leurs configurations.
  3. Attribuez les rôles IAM suivants à l'utilisateur ou au compte de service qui gérera (créera, supprimera et mettra à jour) les clusters d'entraînement gérés :

    Nom du rôle ID de rôle
    Administrateur d'instances Compute (v1) roles/compute.instanceAdmin.v1
    Rédacteur de journaux roles/logging.logWriter
    Rédacteur de métriques Monitoring roles/monitoring.metricWriter
    Utilisateur du compte de service roles/iam.serviceAccountUser
    Administrateur pour les réseaux de services roles/servicenetworking.networksAdmin
  4. Pour autoriser les nœuds du cluster à lire et à écrire dans les buckets Cloud Storage à l'aide de Google Cloud Storage FUSE, accordez le rôle Utilisateur d'objets de stockage (roles/storage.objectUser) au compte de service utilisé par les VM.

  5. Pour accéder en SSH aux nœuds de connexion Slurm, accordez les autorisations suivantes :

    Autorisations Descriptions Objectif
    Connexion au système d'exploitation Compute Connectez-vous à une VM en tant qu'utilisateur standard (non administrateur). Si sudo est nécessaire, utilisez plutôt Compute OS Admin Login. Se connecter en SSH au nœud de connexion déployé
    Utilisateur de tunnels sécurisés par IAP Permet d'accéder aux ressources de tunnels qui utilisent Identity-Aware Proxy. Se connecter en SSH au nœud de connexion déployé

Activer les API

  1. Activez l'API Google Compute Engine :

       gcloud services enable compute.googleapis.com
    
    
  2. Activez le service de mise en réseau, car Filestore doit être déployé avant la création du cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Activez l'API Cloud Storage :

        gcloud services enable storage.googleapis.com
    
  4. Activez l'API Lustre (si vous utilisez Lustre) :

    gcloud services enable lustre.googleapis.com
    
    
  5. Activez l'API HCS :

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Activez l'API Vertex AI :

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Activez l'API Cloud Resource Manager :

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Étapes suivantes

Pour obtenir un guide détaillé sur la création d'un cluster d'entraînement et l'exécution de vos charges de travail d'IA/ML, contactez votre conseiller commercial.