トレーニング クラスタを使ってみる

Colab Enterprise Training クラスタに関心をお持ちの場合は、営業担当者にお問い合わせください。

Colab Enterprise Training クラスタに最初のクラスタをデプロイする前に、プロジェクトと環境を構成する必要があります。Google Cloud このガイドでは、必要な前提条件について説明します。前提条件は、次の 3 つのカテゴリに分類されます。

  • プロジェクト アクセス: サービスへのアクセス権を取得します。このサービスは招待制です。

  • リソース構成: API を有効にし、必要な VPC ネットワークとストレージ サービスを設定します。

  • ユーザー権限: クラスタ管理とリソース アクセスに必要な IAM ロールを付与します。

これらの手順を完了すると、プロジェクトをデプロイする準備が整います。

前提条件

Training クラスタを使用するには、次の操作を行う必要があります。

  1. 営業担当者に連絡してアクセス権を取得し、プロジェクトを許可リストに追加 します。
  2. サポートされているリージョンで GPU クラスタ の**容量を取得** します。
  3. 必要な API を有効にします。これには、Compute Engine、Filestore、 Cloud Storage、Managed Lustre(省略可)、 Hypercomputer Configuration Service、 Agent Platform API が含まれます。
  4. 既存のネットワークが特定の条件(Google 限定公開アクセス、ファイアウォール ルールなど)を満たしていることを確認するか、新しい VPC ネットワークとサブネットワークを作成してネットワークを構成 します。
  5. ゾーンまたはリージョンの Filestore インスタンスを作成して /home ディレクトリとして使用し、必要に応じて Google Cloud マネージド Lustre インスタンスを構成してストレージを構成 します。
  6. IAM 権限を付与します。クラスタ管理、 ストレージ アクセス、クラスタノードへの SSH アクセスを行うユーザーに、 IAM の権限セクションの説明に従って

サポートされるリージョン

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

IAM の権限

  1. Training クラスタを管理するユーザーに roles/aiplatform.admin ロールを付与します。
  2. クラスタとその構成を表示するだけでよいユーザーに roles/aiplatform.viewer ロールを付与します。
  3. マネージド トレーニング クラスタを管理(作成、削除、更新)するユーザーまたはサービス アカウントに、次の IAM ロールを付与します。

    ロール名 役割 ID
    Compute インスタンス管理者(v1) roles/compute.instanceAdmin.v1
    ログ書き込み roles/logging.logWriter
    モニタリング指標の書き込み roles/monitoring.metricWriter
    サービス アカウント ユーザー roles/iam.serviceAccountUser
    サービス ネットワーキング管理者 roles/servicenetworking.networksAdmin
  4. クラスタのノードが Google Cloud Storage FUSE を使用して Cloud Storage バケットから読み取りと書き込みを行えるようにするには、VM で使用されるサービス アカウントに Storage オブジェクト ユーザー ロール(roles/storage.objectUser)を付与します。

  5. Slurm ログインノードへの SSH アクセスには、次の権限を付与します。

    権限 説明 目的
    Compute OS Login 標準(管理者以外の)ユーザーとして VM にログインします。sudo が必要な場合は、代わりに Compute OS 管理者ログインを使用します。 デプロイされたログインノードに SSH で接続する
    IAP で保護されたトンネル ユーザー Identity-Aware Proxy を使用するトンネル リソースのアクセス権。 デプロイされたログインノードに SSH で接続する

API を有効にする

  1. Google Compute Engine API を有効にします。

       gcloud services enable compute.googleapis.com
    
    
  2. クラスタを作成する前に Filestore をデプロイする必要があるため、サービス ネットワーキングを有効にします。

       gcloud services enable servicenetworking.googleapis.com
    
  3. Cloud Storage API を有効にします。

        gcloud services enable storage.googleapis.com
    
  4. Lustre API を有効にします(Lustre を使用している場合)。

    gcloud services enable lustre.googleapis.com
    
    
  5. HCS API を有効にします。

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Gemini Enterprise API を有効にします。

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Cloud Resource Manager API を有効にします。

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

次のステップ

Training クラスタを作成して AI/ML ワークロードを実行する方法について詳しくは、営業担当者にお問い合わせください。