Erste Schritte mit Trainingsclustern

Wenn Sie sich für Colab Enterprise-Trainingscluster interessieren, wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.

Bevor Sie Ihren ersten Cluster in Colab Enterprise-Trainingsclustern bereitstellen können, müssen Sie Ihr Google Cloud Projekt und Ihre Umgebung konfigurieren. In diesem Leitfaden werden alle erforderlichen Voraussetzungen behandelt, die in drei Hauptkategorien unterteilt sind:

  • Projektzugriff: Zugriff auf den Dienst erhalten, der nur auf Einladung möglich ist.

  • Ressourcenkonfiguration: APIs aktivieren und die erforderlichen VPC-Netzwerk- und Speicherdienste einrichten.

  • Nutzerberechtigungen: Die erforderlichen IAM-Rollen für die Clusterverwaltung und den Ressourcenzugriff gewähren.

Wenn Sie diese Schritte ausführen, ist Ihr Projekt für eine erfolgreiche Bereitstellung vorbereitet.

Vorbereitung

Für die Verwendung von Trainingsclustern müssen Sie Folgendes tun:

  1. Ihr Projekt auf die Zulassungsliste setzen : Wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.
  2. Kapazität für GPU-Cluster in unterstützten Regionen erhalten.
  3. Die erforderlichen APIs aktivieren, einschließlich der Compute Engine API, der Filestore API, der Cloud Storage API, der Managed Lustre API (optional), der Hypercomputer Configuration Service API, und der Agent Platform API.
  4. Netzwerk konfigurieren : Prüfen Sie, ob ein vorhandenes Netzwerk bestimmte Bedingungen erfüllt (z. B. privater Google-Zugriff, Firewallregeln), oder erstellen Sie ein neues VPC-Netzwerk und ein neues Subnetz.
  5. Speicher konfigurieren: Erstellen Sie eine zonale oder regionale Filestore Instanz, die als /home Verzeichnis dient, und konfigurieren Sie optional eine Google Cloud verwaltete Lustre-Instanz.
  6. IAM-Berechtigungen gewähren : Weisen Sie Nutzern IAM-Berechtigungen für die Clusterverwaltung, den Speicherzugriff und den SSH-Zugriff auf Clusterknoten zu, wie im Abschnitt IAM-Berechtigungen beschrieben.

Unterstützte Regionen

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

IAM-Berechtigungen

  1. Weisen Sie Nutzern, die Ihre Trainingscluster verwalten, die Rolle roles/aiplatform.admin zu.
  2. Weisen Sie Nutzern, die nur Cluster und ihre Konfigurationen ansehen müssen, die Rolle roles/aiplatform.viewer zu.
  3. Weisen Sie dem Nutzer oder Dienstkonto, das verwaltete Trainingscluster verwalten (erstellen, löschen und aktualisieren) soll, die folgenden IAM-Rollen zu:

    Rollenname Rollen-ID
    Compute-Instanzadministrator (Version 1) roles/compute.instanceAdmin.v1
    Log-Autor roles/logging.logWriter
    Monitoring-Messwert-Autor roles/monitoring.metricWriter
    Dienstkontonutzer roles/iam.serviceAccountUser
    Dienstnetzwerkadministrator roles/servicenetworking.networksAdmin
  4. Damit die Knoten des Clusters mit Cloud Storage FUSE aus Cloud Storage-Buckets lesen und in sie schreiben können, weisen Sie dem vom Dienstkonto verwendeten Dienstkonto die Rolle Storage-Objekt-Nutzer (roles/storage.objectUser) zu.

  5. Für den SSH-Zugriff auf die Slurm-Anmeldeknoten gewähren Sie die folgenden Berechtigungen:

    Berechtigungen Beschreibungen Zweck
    Compute OS-Anmeldung Melden Sie sich als Standardnutzer (kein Administrator) in einer VM an. Wenn sudo erforderlich ist, verwenden Sie stattdessen Compute OS-Administrator-Login. SSH-Verbindung zum bereitgestellten Anmeldeknoten
    Nutzer IAP-gesicherter Tunnel Ermöglicht Zugriff auf Tunnelressourcen, die Identity-Aware Proxy verwenden. SSH-Verbindung zum bereitgestellten Anmeldeknoten

APIs aktivieren

  1. Aktivieren Sie die Google Compute Engine API:

       gcloud services enable compute.googleapis.com
    
    
  2. Aktivieren Sie das Dienstnetzwerk, da Filestore vor dem Erstellen des Clusters bereitgestellt werden muss.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Aktivieren Sie die Cloud Storage API:

        gcloud services enable storage.googleapis.com
    
  4. Aktivieren Sie die Lustre API (falls Sie Lustre verwenden):

    gcloud services enable lustre.googleapis.com
    
    
  5. Aktivieren Sie die HCS API:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Aktivieren Sie die Gemini Enterprise API:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Aktivieren Sie die Cloud Resource Manager API:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Nächste Schritte

Einen detaillierten Leitfaden zum Erstellen eines Trainingsclusters und zum Ausführen Ihrer KI/ML-Arbeitslasten erhalten Sie von Ihrem Vertriebsmitarbeiter.