Vertex AI トレーニング クラスタに最初のクラスタをデプロイする前に、Google Cloud プロジェクトと環境を構成する必要があります。このガイドでは、必要な前提条件をすべて説明します。前提条件は、次の 3 つのカテゴリに分類されます。
プロジェクトへのアクセス: サービスへのアクセス権を取得します。これは招待制です。
リソース構成: API を有効にし、必要な VPC ネットワークとストレージ サービスを設定します。
ユーザー権限: クラスタ管理とリソース アクセスに必要な IAM ロールを付与します。
これらの手順を完了すると、プロジェクトを正常にデプロイできるようになります。
前提条件
トレーニング クラスタを使用するには、次の操作を行う必要があります。
- アクセスについては、営業担当者にお問い合わせのうえ、プロジェクトを許可リストに登録してください。
- サポートされているリージョンで GPU クラスタの容量を取得します。
- Compute Engine、Filestore、Cloud Storage、Managed Lustre(省略可)、Hypercomputer Configuration Service、Vertex AI API など、必要な API を有効にします。
- 既存のネットワークが特定の条件(Google 限定公開アクセス、ファイアウォール ルールなど)を満たしていることを確認するか、新しい VPC ネットワークとサブネットワークを作成して、ネットワーキングを構成します。
- ストレージを構成します。これを行うには、
/homeディレクトリとして機能するゾーンまたはリージョンの Filestore インスタンスを作成し、必要に応じて Google Cloud マネージド Lustre インスタンスを構成します。 - IAM 権限セクションの説明に従って、クラスタ管理、ストレージ アクセス、クラスタノードへの SSH アクセスを行うユーザーに IAM 権限を付与します。
サポートされるリージョン
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
IAM の権限
- トレーニング クラスタを管理するユーザーに
roles/aiplatform.adminロールを付与します。 - クラスタとその構成の表示のみが必要なユーザーには、
roles/aiplatform.viewerロールを付与します。 マネージド トレーニング クラスタの管理(作成、削除、更新)を行うユーザーまたはサービス アカウントに、次の IAM ロールを付与します。
ロール名 役割 ID Compute インスタンス管理者(v1) roles/compute.instanceAdmin.v1ログ書き込み roles/logging.logWriterモニタリング指標の書き込み roles/monitoring.metricWriterサービス アカウント ユーザー roles/iam.serviceAccountUserサービス ネットワーキング管理者 roles/servicenetworking.networksAdminクラスタのノードが Google Cloud Storage FUSE を使用して Cloud Storage バケットに対して読み取りと書き込みを行えるようにするには、VM で使用されるサービス アカウントに Storage オブジェクト ユーザー ロール(
roles/storage.objectUser)を付与します。Slurm ログインノードへの SSH アクセス権を付与するには、次の権限を付与します。
権限 説明 目的 Compute OS Login 標準(管理者以外の)ユーザーとして VM にログインします。 sudoが必要な場合は、代わりに Compute OS 管理者ログインを使用します。デプロイされたログインノードに SSH で接続する IAP で保護されたトンネル ユーザー Identity-Aware Proxy を使用するトンネル リソースへのアクセス権。 デプロイされたログインノードに SSH で接続する
API を有効にする
Google Compute Engine API を有効にします。
gcloud services enable compute.googleapis.comFilestore はクラスタを作成する前にデプロイする必要があるため、サービス ネットワーキングを有効にします。
gcloud services enable servicenetworking.googleapis.comCloud Storage API を有効にします。
gcloud services enable storage.googleapis.comLustre API を有効にします(Lustre を使用している場合)。
gcloud services enable lustre.googleapis.comHCS API を有効にします。
gcloud services enable hypercomputecluster.googleapis.comVertex AI API を有効にします。
gcloud services enable aiplatform.googleapis.comCloud Resource Manager API を有効にします。
gcloud services enable cloudresourcemanager.googleapis.com
次のステップ
トレーニング クラスタの作成と AI/ML ワークロードの実行に関する詳細なガイドについては、営業担当者にお問い合わせください。