Premiers pas avec les clusters d'entraînement

Si vous êtes intéressé par les clusters d'entraînement Gemini Enterprise Agent Platform, contactez votre conseiller commercial pour obtenir un accès.

Avant de pouvoir déployer votre premier cluster sur les clusters d'entraînement Gemini Enterprise Agent Platform, vous devez configurer votre Google Cloud projet et votre environnement. Ce guide couvre tous les prérequis nécessaires, qui se répartissent en trois catégories principales :

  • Accès au projet : accès au service, qui se fait uniquement sur invitation.

  • Configuration des ressources : activation des API et configuration du réseau VPC et des services de stockage requis.

  • Autorisations utilisateur : attribution des rôles IAM nécessaires pour la gestion des clusters et l'accès aux ressources.

En suivant ces étapes, vous préparerez votre projet pour un déploiement réussi.

Prérequis

Pour utiliser les clusters d'entraînement, vous devez :

  1. Ajouter votre projet à la liste d'autorisation en contactant votre conseiller commercial pour obtenir un accès.
  2. Obtenir de la capacité pour les clusters GPU dans les régions compatibles.
  3. Activer les API nécessaires, y compris les API Compute Engine, Filestore, Cloud Storage, Managed Lustre (facultatif), Hypercomputer Configuration Service, et Agent Platform.
  4. Configurer le réseau en vous assurant qu'un réseau existant répond à des conditions spécifiques (par exemple, accès privé à Google, règles de pare-feu) ou en créant un réseau VPC et un sous-réseau.
  5. Configurer le stockage en créant une instance Filestore zonale ou régionale qui servira de répertoire /home et, éventuellement, en configurant une Google Cloud instance Managed Lustre.
  6. Accorder des autorisations IAM aux utilisateurs pour la gestion des clusters, l'accès au stockage et l'accès SSH aux nœuds de cluster, comme décrit dans la section Autorisations IAM.

Régions où le service est disponible

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1
  • asia-south2

Autorisations IAM

  1. Attribuez le rôle roles/aiplatform.admin aux utilisateurs qui géreront vos clusters d'entraînement.
  2. Attribuez le rôle roles/aiplatform.viewer aux utilisateurs qui n'ont besoin que d'afficher les clusters et leurs configurations.
  3. Attribuez les rôles IAM suivants à l'utilisateur ou au compte de service qui gérera (créera, supprimera et mettra à jour) les clusters d'entraînement gérés :

    Nom du rôle ID de rôle
    Administrateur d'instances Compute (v1) roles/compute.instanceAdmin.v1
    Rédacteur de journaux roles/logging.logWriter
    Rédacteur de métriques Monitoring roles/monitoring.metricWriter
    Utilisateur du compte de service roles/iam.serviceAccountUser
    Administrateur pour les réseaux de services roles/servicenetworking.networksAdmin
  4. Pour autoriser les nœuds du cluster à lire et à écrire dans les buckets Cloud Storage à l'aide de Cloud Storage FUSE, attribuez le rôle Utilisateur d'objets Storage (roles/storage.objectUser) au compte de service utilisé par les VM.

  5. Pour l'accès SSH aux nœuds de connexion Slurm, accordez les autorisations suivantes :

    Autorisations Descriptions Objectif
    Connexion au système d'exploitation Compute Connectez-vous à une VM en tant qu'utilisateur standard (hors administrateur). Si vous avez besoin de sudo, utilisez plutôt Compute OS Admin Login. Connexion SSH au nœud de connexion déployé
    Utilisateur de tunnels sécurisés par IAP Permet d'accéder aux ressources de tunnels qui utilisent Identity-Aware Proxy. Connexion SSH au nœud de connexion déployé

Activer les API

  1. Activez l'API Google Compute Engine :

       gcloud services enable compute.googleapis.com
    
    
  2. Activez le réseau de services, car Filestore doit être déployé avant la création du cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Activez l'API Cloud Storage :

        gcloud services enable storage.googleapis.com
    
  4. Activez l'API Lustre (si vous utilisez Lustre) :

    gcloud services enable lustre.googleapis.com
    
    
  5. Activez l'API HCS :

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Activez l'API Gemini Enterprise :

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Activez l'API Cloud Resource Manager :

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Étape suivante

Pour obtenir un guide détaillé sur la création d'un cluster d'entraînement et l'exécution de vos charges de travail d'IA/ML, contactez votre conseiller commercial.