Bevor Sie Ihren ersten Cluster in Colab Enterprise-Trainingsclustern bereitstellen können, müssen Sie Ihr Google Cloud Projekt und Ihre Umgebung konfigurieren. In diesem Leitfaden werden alle erforderlichen Voraussetzungen behandelt, die in drei Hauptkategorien unterteilt sind:
Projektzugriff: Zugriff auf den Dienst erhalten, der nur auf Einladung möglich ist.
Ressourcenkonfiguration: APIs aktivieren und die erforderlichen VPC-Netzwerk- und Speicherdienste einrichten.
Nutzerberechtigungen: Die erforderlichen IAM-Rollen für die Clusterverwaltung und den Ressourcenzugriff gewähren.
Wenn Sie diese Schritte ausführen, ist Ihr Projekt für eine erfolgreiche Bereitstellung vorbereitet.
Vorbereitung
Für die Verwendung von Trainingsclustern müssen Sie Folgendes tun:
- Ihr Projekt auf die Zulassungsliste setzen : Wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.
- Kapazität für GPU-Cluster in unterstützten Regionen erhalten.
- Die erforderlichen APIs aktivieren, einschließlich der Compute Engine API, der Filestore API, der Cloud Storage API, der Managed Lustre API (optional), der Hypercomputer Configuration Service API, und der Agent Platform API.
- Netzwerk konfigurieren : Prüfen Sie, ob ein vorhandenes Netzwerk bestimmte Bedingungen erfüllt (z. B. privater Google-Zugriff, Firewallregeln), oder erstellen Sie ein neues VPC-Netzwerk und ein neues Subnetz.
- Speicher konfigurieren: Erstellen Sie eine zonale oder regionale Filestore
Instanz, die als
/homeVerzeichnis dient, und konfigurieren Sie optional eine Google Cloud verwaltete Lustre-Instanz. - IAM-Berechtigungen gewähren : Weisen Sie Nutzern IAM-Berechtigungen für die Clusterverwaltung, den Speicherzugriff und den SSH-Zugriff auf Clusterknoten zu, wie im Abschnitt IAM-Berechtigungen beschrieben.
Unterstützte Regionen
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
IAM-Berechtigungen
- Weisen Sie Nutzern, die Ihre Trainingscluster verwalten, die Rolle
roles/aiplatform.adminzu. - Weisen Sie Nutzern, die nur Cluster und ihre Konfigurationen ansehen müssen, die Rolle
roles/aiplatform.viewerzu. Weisen Sie dem Nutzer oder Dienstkonto, das verwaltete Trainingscluster verwalten (erstellen, löschen und aktualisieren) soll, die folgenden IAM-Rollen zu:
Rollenname Rollen-ID Compute-Instanzadministrator (Version 1) roles/compute.instanceAdmin.v1Log-Autor roles/logging.logWriterMonitoring-Messwert-Autor roles/monitoring.metricWriterDienstkontonutzer roles/iam.serviceAccountUserDienstnetzwerkadministrator roles/servicenetworking.networksAdminDamit die Knoten des Clusters mit Cloud Storage FUSE aus Cloud Storage-Buckets lesen und in sie schreiben können, weisen Sie dem vom Dienstkonto verwendeten Dienstkonto die Rolle Storage-Objekt-Nutzer (
roles/storage.objectUser) zu.Für den SSH-Zugriff auf die Slurm-Anmeldeknoten gewähren Sie die folgenden Berechtigungen:
Berechtigungen Beschreibungen Zweck Compute OS-Anmeldung Melden Sie sich als Standardnutzer (kein Administrator) in einer VM an. Wenn sudoerforderlich ist, verwenden Sie stattdessen Compute OS-Administrator-Login.SSH-Verbindung zum bereitgestellten Anmeldeknoten Nutzer IAP-gesicherter Tunnel Ermöglicht Zugriff auf Tunnelressourcen, die Identity-Aware Proxy verwenden. SSH-Verbindung zum bereitgestellten Anmeldeknoten
APIs aktivieren
Aktivieren Sie die Google Compute Engine API:
gcloud services enable compute.googleapis.comAktivieren Sie das Dienstnetzwerk, da Filestore vor dem Erstellen des Clusters bereitgestellt werden muss.
gcloud services enable servicenetworking.googleapis.comAktivieren Sie die Cloud Storage API:
gcloud services enable storage.googleapis.comAktivieren Sie die Lustre API (falls Sie Lustre verwenden):
gcloud services enable lustre.googleapis.comAktivieren Sie die HCS API:
gcloud services enable hypercomputecluster.googleapis.comAktivieren Sie die Gemini Enterprise API:
gcloud services enable aiplatform.googleapis.comAktivieren Sie die Cloud Resource Manager API:
gcloud services enable cloudresourcemanager.googleapis.com
Nächste Schritte
Einen detaillierten Leitfaden zum Erstellen eines Trainingsclusters und zum Ausführen Ihrer KI/ML-Arbeitslasten erhalten Sie von Ihrem Vertriebsmitarbeiter.