Colab Enterprise Training クラスタに最初のクラスタをデプロイする前に、プロジェクトと環境を構成する必要があります。Google Cloud このガイドでは、必要な前提条件について説明します。前提条件は、次の 3 つのカテゴリに分類されます。
プロジェクト アクセス: サービスへのアクセス権を取得します。このサービスは招待制です。
リソース構成: API を有効にし、必要な VPC ネットワークとストレージ サービスを設定します。
ユーザー権限: クラスタ管理とリソース アクセスに必要な IAM ロールを付与します。
これらの手順を完了すると、プロジェクトをデプロイする準備が整います。
前提条件
Training クラスタを使用するには、次の操作を行う必要があります。
- 営業担当者に連絡してアクセス権を取得し、プロジェクトを許可リストに追加 します。
- サポートされているリージョンで GPU クラスタ の**容量を取得** します。
- 必要な API を有効にします。これには、Compute Engine、Filestore、 Cloud Storage、Managed Lustre(省略可)、 Hypercomputer Configuration Service、 Agent Platform API が含まれます。
- 既存のネットワークが特定の条件(Google 限定公開アクセス、ファイアウォール ルールなど)を満たしていることを確認するか、新しい VPC ネットワークとサブネットワークを作成してネットワークを構成 します。
- ゾーンまたはリージョンの Filestore
インスタンスを作成して
/homeディレクトリとして使用し、必要に応じて Google Cloud マネージド Lustre インスタンスを構成してストレージを構成 します。 - IAM 権限を付与します。クラスタ管理、 ストレージ アクセス、クラスタノードへの SSH アクセスを行うユーザーに、 IAM の権限セクションの説明に従って
サポートされるリージョン
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
IAM の権限
- Training クラスタを管理するユーザーに
roles/aiplatform.adminロールを付与します。 - クラスタとその構成を表示するだけでよいユーザーに
roles/aiplatform.viewerロールを付与します。 マネージド トレーニング クラスタを管理(作成、削除、更新)するユーザーまたはサービス アカウントに、次の IAM ロールを付与します。
ロール名 役割 ID Compute インスタンス管理者(v1) roles/compute.instanceAdmin.v1ログ書き込み roles/logging.logWriterモニタリング指標の書き込み roles/monitoring.metricWriterサービス アカウント ユーザー roles/iam.serviceAccountUserサービス ネットワーキング管理者 roles/servicenetworking.networksAdminクラスタのノードが Google Cloud Storage FUSE を使用して Cloud Storage バケットから読み取りと書き込みを行えるようにするには、VM で使用されるサービス アカウントに Storage オブジェクト ユーザー ロール(
roles/storage.objectUser)を付与します。Slurm ログインノードへの SSH アクセスには、次の権限を付与します。
権限 説明 目的 Compute OS Login 標準(管理者以外の)ユーザーとして VM にログインします。 sudoが必要な場合は、代わりに Compute OS 管理者ログインを使用します。デプロイされたログインノードに SSH で接続する IAP で保護されたトンネル ユーザー Identity-Aware Proxy を使用するトンネル リソースのアクセス権。 デプロイされたログインノードに SSH で接続する
API を有効にする
Google Compute Engine API を有効にします。
gcloud services enable compute.googleapis.comクラスタを作成する前に Filestore をデプロイする必要があるため、サービス ネットワーキングを有効にします。
gcloud services enable servicenetworking.googleapis.comCloud Storage API を有効にします。
gcloud services enable storage.googleapis.comLustre API を有効にします(Lustre を使用している場合)。
gcloud services enable lustre.googleapis.comHCS API を有効にします。
gcloud services enable hypercomputecluster.googleapis.comGemini Enterprise API を有効にします。
gcloud services enable aiplatform.googleapis.comCloud Resource Manager API を有効にします。
gcloud services enable cloudresourcemanager.googleapis.com
次のステップ
Training クラスタを作成して AI/ML ワークロードを実行する方法について詳しくは、営業担当者にお問い合わせください。