Erste Schritte mit Trainingsclustern

Wenn Sie sich für Vertex AI-Trainingscluster interessieren, wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.

Bevor Sie Ihren ersten Cluster in Vertex AI-Trainingsclustern bereitstellen können, müssen Sie IhrGoogle Cloud Projekt und Ihre Umgebung konfigurieren. In diesem Leitfaden werden alle erforderlichen Voraussetzungen behandelt, die in drei Hauptkategorien unterteilt sind:

  • Projektzugriff: Zugriff auf den Dienst erhalten, der nur per Einladung möglich ist.

  • Ressourcenkonfiguration: APIs aktivieren und das erforderliche VPC-Netzwerk und die erforderlichen Speicherdienste einrichten.

  • Nutzerberechtigungen: Gewähren der erforderlichen IAM-Rollen für die Clusterverwaltung und den Ressourcenzugriff.

Wenn Sie diese Schritte ausführen, ist Ihr Projekt für eine erfolgreiche Bereitstellung vorbereitet.

Vorbereitung

Um Trainingscluster zu verwenden, müssen Sie Folgendes tun:

  1. Lassen Sie Ihr Projekt auf die Zulassungsliste setzen. Wenden Sie sich dazu an Ihren Vertriebsmitarbeiter.
  2. Kapazität für GPU-Cluster in unterstützten Regionen anfordern
  3. Aktivieren Sie die erforderlichen APIs, einschließlich der Compute Engine-, Filestore-, Cloud Storage-, Managed Lustre- (optional), Hypercomputer Configuration Service- und Vertex AI-APIs.
  4. Netzwerk konfigurieren: Prüfen Sie, ob ein vorhandenes Netzwerk bestimmte Bedingungen erfüllt (z. B. privater Google-Zugriff, Firewallregeln), oder erstellen Sie ein neues VPC-Netzwerk und ‑Subnetzwerk.
  5. Speicher konfigurieren: Erstellen Sie eine zonale oder regionale Filestore-Instanz, die als /home-Verzeichnis dient, und konfigurieren Sie optional eine Google Cloud verwaltete Lustre-Instanz.
  6. IAM-Berechtigungen für Nutzer für die Clusterverwaltung, den Speicherzugriff und den SSH-Zugriff auf Clusterknoten gewähren, wie im Abschnitt IAM-Berechtigungen beschrieben.

Unterstützte Regionen

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

IAM-Berechtigungen

  1. Weisen Sie Nutzern, die Ihre Trainingscluster verwalten sollen, die Rolle roles/aiplatform.admin zu.
  2. Weisen Sie Nutzern, die nur Cluster und ihre Konfigurationen ansehen müssen, die Rolle roles/aiplatform.viewer zu.
  3. Weisen Sie dem Nutzer oder Dienstkonto, mit dem verwaltete Trainingscluster verwaltet (erstellt, gelöscht und aktualisiert) werden, die folgenden IAM-Rollen zu:

    Rollenname Rollen-ID
    Compute-Instanzadministrator (Version 1) roles/compute.instanceAdmin.v1
    Logs Writer roles/logging.logWriter
    Monitoring Metric Writer roles/monitoring.metricWriter
    Dienstkontonutzer roles/iam.serviceAccountUser
    Dienstnetzwerkadministrator roles/servicenetworking.networksAdmin
  4. Damit die Knoten des Clusters mit Google Cloud Storage FUSE Daten aus Cloud Storage-Buckets lesen und in Cloud Storage-Buckets schreiben können, weisen Sie dem von den VMs verwendeten Dienstkonto die Rolle „Storage Object User“ (roles/storage.objectUser) zu.

  5. Gewähren Sie für den SSH-Zugriff auf die Slurm-Anmeldeknoten die folgenden Berechtigungen:

    Berechtigungen Beschreibungen Zweck
    Compute OS Login Melden Sie sich als Standardnutzer (kein Administrator) in einer VM an. Wenn sudo erforderlich ist, verwenden Sie stattdessen „Compute OS Admin Login“. SSH-Verbindung zum bereitgestellten Anmeldeknoten herstellen
    Nutzer IAP-gesicherter Tunnel Ermöglicht Zugriff auf Tunnelressourcen, die Identity-Aware Proxy verwenden. SSH-Verbindung zum bereitgestellten Anmeldeknoten herstellen

APIs aktivieren

  1. Aktivieren Sie die Google Compute Engine API:

       gcloud services enable compute.googleapis.com
    
    
  2. Aktivieren Sie das Dienstnetzwerk, da Filestore vor dem Erstellen des Clusters bereitgestellt werden muss.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Aktivieren Sie die Cloud Storage API.

        gcloud services enable storage.googleapis.com
    
  4. Aktivieren Sie die Lustre API (falls Sie Lustre verwenden):

    gcloud services enable lustre.googleapis.com
    
    
  5. Aktivieren Sie die HCS API:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Aktivieren Sie die Vertex AI API:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Aktivieren Sie die Cloud Resource Manager API:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Nächste Schritte

Eine detaillierte Anleitung zum Erstellen eines Trainingsclusters und zum Ausführen Ihrer KI-/ML-Arbeitslasten erhalten Sie von Ihrem Vertriebsmitarbeiter.