トレーニング クラスタを使ってみる

Vertex AI トレーニング クラスタに関心をお持ちの場合は、営業担当者にお問い合わせください。

Vertex AI トレーニング クラスタに最初のクラスタをデプロイする前に、Google Cloud プロジェクトと環境を構成する必要があります。このガイドでは、必要な前提条件をすべて説明します。前提条件は、次の 3 つのカテゴリに分類されます。

  • プロジェクトへのアクセス: サービスへのアクセス権を取得します。これは招待制です。

  • リソース構成: API を有効にし、必要な VPC ネットワークとストレージ サービスを設定します。

  • ユーザー権限: クラスタ管理とリソース アクセスに必要な IAM ロールを付与します。

これらの手順を完了すると、プロジェクトを正常にデプロイできるようになります。

前提条件

トレーニング クラスタを使用するには、次の操作を行う必要があります。

  1. アクセスについては、営業担当者にお問い合わせのうえ、プロジェクトを許可リストに登録してください。
  2. サポートされているリージョンで GPU クラスタ容量を取得します。
  3. Compute Engine、Filestore、Cloud Storage、Managed Lustre(省略可)、Hypercomputer Configuration Service、Vertex AI API など、必要な API を有効にします
  4. 既存のネットワークが特定の条件(Google 限定公開アクセス、ファイアウォール ルールなど)を満たしていることを確認するか、新しい VPC ネットワークとサブネットワークを作成して、ネットワーキングを構成します。
  5. ストレージを構成します。これを行うには、/home ディレクトリとして機能するゾーンまたはリージョンの Filestore インスタンスを作成し、必要に応じて Google Cloud マネージド Lustre インスタンスを構成します。
  6. IAM 権限セクションの説明に従って、クラスタ管理、ストレージ アクセス、クラスタノードへの SSH アクセスを行うユーザーに IAM 権限を付与します。

サポートされるリージョン

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

IAM の権限

  1. トレーニング クラスタを管理するユーザーに roles/aiplatform.admin ロールを付与します。
  2. クラスタとその構成の表示のみが必要なユーザーには、roles/aiplatform.viewer ロールを付与します。
  3. マネージド トレーニング クラスタの管理(作成、削除、更新)を行うユーザーまたはサービス アカウントに、次の IAM ロールを付与します。

    ロール名 役割 ID
    Compute インスタンス管理者(v1) roles/compute.instanceAdmin.v1
    ログ書き込み roles/logging.logWriter
    モニタリング指標の書き込み roles/monitoring.metricWriter
    サービス アカウント ユーザー roles/iam.serviceAccountUser
    サービス ネットワーキング管理者 roles/servicenetworking.networksAdmin
  4. クラスタのノードが Google Cloud Storage FUSE を使用して Cloud Storage バケットに対して読み取りと書き込みを行えるようにするには、VM で使用されるサービス アカウントに Storage オブジェクト ユーザー ロール(roles/storage.objectUser)を付与します。

  5. Slurm ログインノードへの SSH アクセス権を付与するには、次の権限を付与します。

    権限 説明 目的
    Compute OS Login 標準(管理者以外の)ユーザーとして VM にログインします。sudo が必要な場合は、代わりに Compute OS 管理者ログインを使用します。 デプロイされたログインノードに SSH で接続する
    IAP で保護されたトンネル ユーザー Identity-Aware Proxy を使用するトンネル リソースへのアクセス権。 デプロイされたログインノードに SSH で接続する

API を有効にする

  1. Google Compute Engine API を有効にします。

       gcloud services enable compute.googleapis.com
    
    
  2. Filestore はクラスタを作成する前にデプロイする必要があるため、サービス ネットワーキングを有効にします。

       gcloud services enable servicenetworking.googleapis.com
    
  3. Cloud Storage API を有効にします。

        gcloud services enable storage.googleapis.com
    
  4. Lustre API を有効にします(Lustre を使用している場合)。

    gcloud services enable lustre.googleapis.com
    
    
  5. HCS API を有効にします。

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Vertex AI API を有効にします。

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Cloud Resource Manager API を有効にします。

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

次のステップ

トレーニング クラスタの作成と AI/ML ワークロードの実行に関する詳細なガイドについては、営業担当者にお問い合わせください。