Vertex AI で Ray クラスタを作成する

このドキュメントでは、さまざまなニーズに合わせて Vertex AI に Ray クラスタを設定する手順について説明します。たとえば、イメージをビルドするには、カスタムイメージをご覧ください。一部の企業では、プライベートネットワーキングを使用しています。このドキュメントでは、Ray on Vertex AI の Private Service Connect インターフェースについても説明します。別のユースケースとして、リモートファイルをローカルファイルのようにアクセスする方法があります（Ray on Vertex AI ネットワークファイルシステムをご覧ください）。

概要

ここでは、次のトピックについて説明します。

Ray クラスタを作成する

Ray クラスタを作成するには、 Google Cloud コンソールまたは Vertex AI SDK for Python を使用します。クラスタには最大 2,000 個のノードを配置できます。1 つのワーカープール内のノード数の上限は 1,000 です。ワーカープールの数に上限はありませんが、1 ノードあたり 1,000 ワーカープールのように、ワーカープールの数が多くなると、クラスタのパフォーマンスに影響する可能性があります。

始める前に、Ray on Vertex AI の概要を読み、前提条件となるすべてのツールを設定してください。

Vertex AI の Ray クラスタを作成してから起動するまでに 10～20 分ほどかかる場合があります。

コンソール

OSS Ray のベストプラクティスの推奨事項に従い、ヘッドノードでワークロードを実行しないように、Ray ヘッドノードで論理 CPU 数を 0 に設定します。

Google Cloud コンソールで、[Vertex AI での Ray] ページに移動します。

[Vertex AI での Ray] ページに移動
[クラスタを作成] をクリックして [クラスタの作成] パネルを開きます。
[クラスタの作成] パネルの各ステップで、デフォルトのクラスタ情報を確認または置き換えます。[続行] をクリックして、各手順を完了します。
1. [名前とリージョン] で名前を指定し、クラスタのリージョンを選択します。
2. [コンピューティング設定] で、マシンタイプ、アクセラレータタイプと数、ディスクタイプとサイズ、レプリカ数など、Vertex AI のヘッドノードの Ray クラスタの構成を指定します。必要に応じて、カスタムイメージ URI を追加してカスタムコンテナイメージを指定し、デフォルトのコンテナイメージでは提供されていない Python の依存関係を追加します。カスタムイメージをご覧ください。
  
  [詳細オプション] で、次の操作を行います。
  - 独自の暗号鍵を指定します。
  - カスタムサービスアカウントを指定します。
  - トレーニング中にワークロードのリソース統計情報をモニタリングする必要がない場合は、指標の収集を無効にします。
3. （省略可）クラスタのプライベートエンドポイントをデプロイする場合は、Private Service Connect を使用する方法をおすすめします。詳細については、Ray on Vertex AI 用の Private Service Connect インターフェースをご覧ください。
[作成] をクリックします。

Ray on Vertex AI SDK

インタラクティブな Python 環境から、次のコマンドを使用して Vertex AI に Ray クラスタを作成します。

import ray
import vertex_ray
from google.cloud import aiplatform
from vertex_ray import Resources
from vertex_ray.util.resources import NfsMount

# Define a default CPU cluster, machine_type is n1-standard-16, 1 head node and 1 worker node
head_node_type = Resources()
worker_node_types = [Resources()]

# Or define a GPU cluster.
head_node_type = Resources(
  machine_type="n1-standard-16",
  node_count=1,
  custom_image="us-docker.pkg.dev/my-project/ray-custom.2-9.py310:latest",  # Optional. When not specified, a prebuilt image is used.
)

worker_node_types = [Resources(
  machine_type="n1-standard-16",
  node_count=2,  # Must be >= 1
  accelerator_type="NVIDIA_TESLA_T4",
  accelerator_count=1,
  custom_image="us-docker.pkg.dev/my-project/ray-custom.2-9.py310:latest",  # When not specified, a prebuilt image is used.
)]
# Optional. Create cluster with Network File System (NFS) setup.
nfs_mount = NfsMount(
    server="10.10.10.10",
    path="nfs_path",
    mount_point="nfs_mount_point",
)
aiplatform.init()
# Initialize Vertex AI to retrieve projects for downstream operations.
# Create the Ray cluster on Vertex AI
CLUSTER_RESOURCE_NAME = vertex_ray.create_ray_cluster(
  head_node_type=head_node_type,
  network=NETWORK, #Optional
  worker_node_types=worker_node_types,
  python_version="3.10",  # Optional
  ray_version="2.47",  # Optional
  cluster_name=CLUSTER_NAME, # Optional
  service_account=SERVICE_ACCOUNT,  # Optional
  enable_metrics_collection=True,  # Optional. Enable metrics collection for monitoring.
  labels=LABELS,  # Optional.
  nfs_mounts=[nfs_mount],  # Optional.

)

ここで

CLUSTER_NAME: Vertex AI の Ray クラスタの名前。プロジェクト全体で一意にする必要があります。
NETWORK:（省略可）VPC ネットワークの完全な名前（projects/PROJECT_ID/global/networks/VPC_NAME 形式）。クラスタのパブリックエンドポイントではなくプライベートエンドポイントを設定するには、Ray on Vertex AI で使用する VPC ネットワークを指定します。詳細については、プライベート接続とパブリック接続をご覧ください。
VPC_NAME: 省略可。VM が動作する VPC。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。プロジェクト ID は、 Google Cloud コンソールの [ようこそ] ページで確認できます。
SERVICE_ACCOUNT: 省略可。クラスタで Ray アプリケーションを実行するサービスアカウント。必要なロールを付与します。
LABELS: 省略可。Ray クラスタの編成に使用されるユーザー定義のメタデータを含むラベル。ラベルのキーと値は 64 文字（Unicode コードポイント）以下にする必要があります。使用できるのは小文字、数字、アンダースコア、ダッシュのみです。国際文字も使用できます。ラベルの詳細と例については https://goo.gl/xmQnxf をご覧ください。

ステータスが RUNNING に変わるまで、次の出力が表示されます。

[Ray on Vertex AI]: Cluster State = State.PROVISIONING
Waiting for cluster provisioning; attempt 1; sleeping for 0:02:30 seconds
...
[Ray on Vertex AI]: Cluster State = State.RUNNING

次の点にご注意ください。

最初のノードはヘッドノードです。
TPU マシンタイプはサポートされていません。

ライフサイクル管理

Vertex AI の Ray クラスタのライフサイクルでは、各アクションが状態に関連付けられます。次の表に、各状態の課金ステータスと管理オプションの概要を示します。各状態の定義については、リファレンスドキュメントをご覧ください。

アクション	状態	課金対象か	削除アクションは可能か	キャンセルアクションは可能か
ユーザーがクラスタを作成	PROVISIONING	いいえ	いいえ	いいえ
ユーザーが手動でスケールアップまたはスケールダウン	UPDATING	はい、リアルタイムのサイズに基づきます	はい	いいえ
クラスタが実行される	RUNNING	はい	はい	該当なし。削除可能
クラスタが自動的にスケールアップまたはスケールダウン	UPDATING	はい、リアルタイムのサイズに基づきます	はい	いいえ
ユーザーがクラスタを削除	STOPPING	いいえ	いいえ	該当なし。すでに停止
クラスタがエラー状態になる	エラー	いいえ	はい	該当なし。削除可能です
該当なし	STATE_UNSPECIFIED	いいえ	はい	該当なし

カスタムイメージ（省略可）

ビルド済みイメージは、ほとんどのユースケースに対応しています。イメージをビルドする場合は、Ray on Vertex AI のビルド済みイメージをベースイメージとして使用します。ベースイメージからイメージを作成する方法については、Docker のドキュメントをご覧ください。

これらのベースイメージには、Python、Ubuntu、Ray のインストールが含まれています。また、次のような依存関係も含まれます。

python-json-logger
google-cloud-resource-manager
ca-certificates-java
libatlas-base-dev
liblapack-dev
g++、libio-all-perl
libyaml-0-2.

プライベート接続とパブリック接続

デフォルトでは、Ray on Vertex AI は、Vertex AI の Ray クラスタで Ray クライアントを使用してインタラクティブな開発を行うための、安全なパブリックエンドポイントを作成します。開発や一時的なユースケースには、パブリック接続を使用します。このパブリックエンドポイントには、インターネット経由でアクセスできます。クラスタにアクセスできるのは、Ray クラスタのユーザープロジェクトに対する Vertex AI ユーザーロール権限が付与されている承認済みユーザーのみです。

クラスタへのプライベート接続が必要な場合や、VPC Service Controls を使用している場合は、Vertex AI の Ray クラスタで VPC ピアリングがサポートされています。プライベートエンドポイントを使用するクラスタには、Vertex AI とピアリングされている VPC ネットワーク内のクライアントからのみアクセスできます。

Ray on Vertex AI の VPC ピアリングを使用してプライベート接続を設定するには、クラスタの作成時に VPC ネットワークを選択します。VPC ネットワークには、VPC ネットワークと Vertex AI の間に限定公開サービス接続が必要です。コンソールで Ray on Vertex AI を使用する場合は、クラスタを作成するときにプライベートサービスアクセス接続を設定できます。

Vertex AI の Ray クラスタで VPC Service Controls と VPC ピアリングを使用する場合は、Ray ダッシュボードとインタラクティブシェルを使用するために追加の設定が必要になります。VPC-SC と VPC ピアリングを使用した Ray ダッシュボードとインタラクティブシェルの手順に沿って、ユーザープロジェクトで VPC-SC と VPC ピアリングを使用してインタラクティブシェルの設定を構成します。

Vertex AI に Ray クラスタを作成したら、Vertex AI SDK for Python を使用してヘッドノードに接続できます。接続環境（Compute Engine VM や Vertex AI Workbench インスタンスなど）は、Vertex AI とピアリングされている VPC ネットワークに存在する必要があります。プライベートサービス接続の IP アドレスの数には上限があるため、IP アドレスが枯渇する可能性があります。そのため、長時間実行されるクラスタにはプライベート接続を使用することをおすすめします。

Ray on Vertex AI の Private Service Connect インターフェース

Private Service Connect インターフェースの下り（外向き）と Private Service Connect インターフェースの上り（内向き）は、Vertex AI の Ray クラスタでサポートされています。

Private Service Connect インターフェースの下り（外向き）接続を使用するには、次の操作を行います。VPC Service Controls が有効になっていない場合、Private Service Connect インターフェースの下り（外向き）があるクラスタは、Ray クライアントで上り（内向き）に安全なパブリックエンドポイントを使用します。

VPC Service Controls が有効になっている場合、Private Service Connect インターフェースの入力は、デフォルトで Private Service Connect インターフェースの出力とともに使用されます。Ray クライアントに接続するか、Private Service Connect インターフェースの入力があるクラスタのノートブックからジョブを送信するには、ノートブックがユーザープロジェクトの VPC とサブネットワーク内にあることを確認してください。VPC Service Controls の設定方法の詳細については、Vertex AI を使用した VPC Service Controls をご覧ください。

Private Service Connect インターフェースの有効化の図

Private Service Connect インターフェースを有効にする

リソースの設定ガイドに沿って、Private Service Connect インターフェースを設定します。リソースを設定したら、Vertex AI の Ray クラスタで Private Service Connect インターフェースを有効にできます。

コンソール

クラスタの作成時に、[名前とリージョン] と [コンピューティング設定] を指定すると、[ネットワーキング] オプションが表示されます。
次のいずれかの方法でネットワークアタッチメントを設定します。
- Private Service Connect のリソースを設定したときに指定した NETWORK_ATTACHMENT_NAME 名を使用します。
- プルダウンに表示される [ネットワークアタッチメントを作成] ボタンをクリックして、新しいネットワークアタッチメントを作成します。
[ネットワークアタッチメントの作成] をクリックします。
表示されたサブタスクで、新しいネットワークアタッチメントの名前、ネットワーク、サブネットワークを指定します。
[作成] をクリックします。

Ray on Vertex AI SDK

Ray on Vertex AI SDK は、Vertex AI SDK for Python の一部です。Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。詳細については、Vertex AI SDK for Python API のリファレンスドキュメントをご覧ください。

from google.cloud import aiplatform
import vertex_ray

# Initialization
aiplatform.init()

# Create a default cluster with network attachment configuration

psc_config = vertex_ray.PscIConfig(network_attachment=NETWORK_ATTACHMENT_NAME)
cluster_resource_name = vertex_ray.create_ray_cluster(
   psc_interface_config=psc_config,
)

ここで

NETWORK_ATTACHMENT_NAME: ユーザープロジェクトで Private Service Connect のリソースを設定するときに指定した名前。

Ray on Vertex AI ネットワークファイルシステム（NFS）

リモートファイルをクラスタで使用できるようにするには、ネットワークファイルシステム（NFS）共有をマウントします。これにより、ジョブはローカルファイルのようにリモートファイルにアクセスできるようになり、高スループットと低レイテンシが実現します。

VPC の設定

VPC の設定には次の 2 つの方法があります。

NFS インスタンスを設定する

Filestore インスタンスの作成方法の詳細については、インスタンスを作成するをご覧ください。Private Service Connect インターフェースを使用する場合は、Filestore の作成時にプライベートサービスアクセスモードを選択する必要はありません。

ネットワークファイルシステム（NFS）を使用する

ネットワークファイルシステムを使用するには、ネットワークまたはネットワークアタッチメント（推奨）を指定します。

コンソール

作成ページの [ネットワーキング] ステップで、ネットワークまたはネットワークアタッチメントのいずれかを指定した後。これを行うには、[ネットワークファイルシステム（NFS）] セクションの [NFS マウントを追加] をクリックし、NFS マウント（サーバー、パス、マウントポイント）を指定します。

フィールド	説明
`server`	NFS サーバーの IP アドレス。これは VPC 内のプライベートアドレスである必要があります。
`path`	NFS 共有パス。`/` で始まる絶対パスを指定する必要があります。
`mountPoint`	ローカルマウントポイント。有効な UNIX ディレクトリ名を指定してください。たとえば、ローカルマウントポイントが `sourceData` の場合、トレーニング VM インスタンスからのパス `/mnt/nfs/ sourceData` を指定します。

詳細については、コンピューティングリソースを指定する場所をご覧ください。

サーバー、パス、マウントポイントを指定します。

注: 複数の NFS 共有をマウントできます。[NFS マウントを追加] をクリックして、別の NFS 共有を指定します。
[作成] をクリックします。これにより、Ray クラスタが作成されます。

VPC-SC と VPC ピアリングを使用した Ray ダッシュボードとインタラクティブシェル

peered-dns-domains を構成します。

{
  VPC_NAME=NETWORK_NAME
  REGION=LOCATION
  gcloud services peered-dns-domains create training-cloud \
  --network=$VPC_NAME \
  --dns-suffix=$REGION.aiplatform-training.cloud.google.com.

  # Verify
  gcloud beta services peered-dns-domains list --network $VPC_NAME;
}

NETWORK_NAME: ピアリングされたネットワークに変更します。
LOCATION: 目的のロケーション（例: us-central1）。

DNS managed zone を構成します。

{
  PROJECT_ID=PROJECT_ID
  ZONE_NAME=$PROJECT_ID-aiplatform-training-cloud-google-com
  DNS_NAME=aiplatform-training.cloud.google.com
  DESCRIPTION=aiplatform-training.cloud.google.com

  gcloud dns managed-zones create $ZONE_NAME  \
  --visibility=private  \
  --networks=https://www.googleapis.com/compute/v1/projects/$PROJECT_ID/global/networks/$VPC_NAME  \
  --dns-name=$DNS_NAME  \
  --description="Training $DESCRIPTION"
}

PROJECT_ID: 実際のプロジェクト ID。これらの ID は、 Google Cloud コンソールの [ようこそ] ページで確認できます。

DNS トランザクションを記録します。

{
  gcloud dns record-sets transaction start --zone=$ZONE_NAME

  gcloud dns record-sets transaction add \
  --name=$DNS_NAME. \
  --type=A 199.36.153.4 199.36.153.5 199.36.153.6 199.36.153.7 \
  --zone=$ZONE_NAME \
  --ttl=300

  gcloud dns record-sets transaction add \
  --name=*.$DNS_NAME. \
  --type=CNAME $DNS_NAME. \
  --zone=$ZONE_NAME \
  --ttl=300

  gcloud dns record-sets transaction execute --zone=$ZONE_NAME
}

インタラクティブシェル、VPC-SC、VPC ピアリングを有効にしてトレーニングジョブを送信します。

責任の共有

Vertex AI でのワークロードの保護は共有責任です。Vertex AI はセキュリティの脆弱性に対処するためにインフラストラクチャ構成を定期的にアップグレードしますが、実行中のワークロードをプリエンプトしないように、既存の Ray on Vertex AI クラスタと永続リソースは自動的にアップグレードされません。そのため、次のようなタスクはユーザーの責任となります。

最新のインフラストラクチャバージョンを使用するには、Ray on Vertex AI クラスタと永続リソースを定期的に削除して再作成します。Vertex AI では、クラスタと永続リソースを少なくとも 30 日に 1 回再作成することをおすすめします。
使用するカスタムイメージを適切に構成します。

詳しくは、責任の共有をご覧ください。

次のステップ

Vertex AI で Ray アプリケーションを開発する

Vertex AI で Ray クラスタを作成する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

Ray クラスタを作成する

コンソール

Ray on Vertex AI SDK

ライフサイクル管理

カスタム イメージ（省略可）

プライベート接続とパブリック接続

Ray on Vertex AI の Private Service Connect インターフェース

Private Service Connect インターフェースを有効にする

コンソール

Ray on Vertex AI SDK

Ray on Vertex AI ネットワーク ファイル システム（NFS）

VPC の設定

NFS インスタンスを設定する

ネットワーク ファイル システム（NFS）を使用する

コンソール

VPC-SC と VPC ピアリングを使用した Ray ダッシュボードとインタラクティブ シェル

責任の共有

次のステップ

Vertex AI で Ray クラスタを作成する

カスタムイメージ（省略可）

Ray on Vertex AI ネットワークファイルシステム（NFS）

ネットワークファイルシステム（NFS）を使用する

VPC-SC と VPC ピアリングを使用した Ray ダッシュボードとインタラクティブシェル