Vertex AI Training クラスタは、VPC 内の Compute Engine インスタンスとしてプロビジョニングされるマネージド Google Cloudサービスです。このデプロイモデルにより、サービスが VPC 内の他のワークロード、Google マネージド サービス、マルチクラウド ネットワークに安全に接続できます。
ネットワーク MTU の要件
トレーニング インフラストラクチャで最適なネットワーク パフォーマンスを実現するには、VPC ネットワークの最大伝送単位(MTU)を構成する必要があります。
おすすめの MTU 設定
推奨される MTU 値は、クラスタ内の GPU マシンタイプによって異なります。
- A3 Ultra ノードと A4 ノードの場合: MTU に 8896 を使用します。
- A3 Mega ノードの場合: MTU に 8244 を使用します。
新しい VPC を作成することも、既存の VPC を使用することもできます。
新しい VPC にトレーニング クラスタをデプロイする(推奨)
推奨される方法は、トレーニング クラスタを新しい事前構成済みの VPC ネットワークにデプロイすることです。これにより、正しい MTU 設定が自動的に適用され、既存のワークロードに影響を与えることがなくなります。
新しい VPC にトレーニング クラスタをデプロイするための主要な手順は次の 2 つです。
VPC ネットワークを作成する: 新しい VPC ネットワークを作成するをご覧ください。ジャンボ フレームを有効にするには、MTU を 8896 に設定します。
クラスタをデプロイする: 新しく構成されたネットワークにトレーニング クラスタをデプロイします。
この順序で手順を行うことにより、クラスタの VM インスタンスは最初の起動時に正しい MTU 設定を自動的に継承します。
新しい VPC を作成して設定する
- VPC ネットワークを作成します。ジャンボ フレームを有効にするには、NETWORK_MTU を 8896 に設定します。
# create VPC network gcloud compute networks create NETWORK \ --project=PROJECT_ID \ --subnet-mode=custom \ --mtu=NETWORK_MTU - トレーニング クラスタのデプロイに使用するサブネットを作成し、環境の要件に基づいて範囲を更新します。この例では、サブネット 192.168.0.0/19 がトレーニング クラスタのデプロイに使用されます。
# create VPC subnet gcloud compute networks subnets create SUBNETWORK \ --project=PROJECT_ID \ --network=NETWORK \ --region=REGION \ --enable-private-ip-google-access \ --range=192.168.0.0/19
- トレーニング クラスタへの SSH 接続を許可する IAP ファイアウォール ルールを作成します。
gcloud compute firewall-rules create allow-ssh-ingress-from-iap \ --direction=INGRESS --action=allow --rules=tcp:22 \ --source-ranges=35.235.240.0/20 --network NETWORK - すべてのポートとプロトコルをトレーニング クラスタ サブネットに許可する上り(内向き)ファイアウォール ルールを作成します。
gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \ --direction=INGRESS --priority=1000 --network=NETWORK \ --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \ --source-ranges=192.168.0.0/19 --enable-logging
既存の VPC にトレーニング クラスタをデプロイする
Cloud Storage インスタンスを含む既存のネットワークにトレーニング クラスタをデプロイする場合は、最適なパフォーマンスを確保するためにジャンボ フレーム(MTU 8896)を使用することを強くおすすめします。開始する前に、既存の VM のオペレーティング システムとアプリケーションがこの変更をサポートできることを確認します。
ジャンボ フレームを実装するには、VPC の MTU を更新する必要があります。ネットワークの不安定化を防ぐため、これは計画されたメンテナンスの時間枠内で行う必要があります。
安全な手順は、まずそのネットワークで実行中のすべての VM インスタンスを停止することです。VM がアクティブな状態で MTU を変更すると、設定の不一致や接続の不安定化が発生します。
すべての VM を停止してから、次の手順に進みます。
- ネットワークの MTU を選択した設定(8896 など)に変更します。
- ネットワークの更新が完了したら、すべての VM を再起動します。
- Linux 以外の VM を手動で更新します。この再起動は、すべてのオペレーティング システムに対して十分なわけではないことに注意してください。公開 Linux イメージの VM は新しい MTU を自動的に採用しますが、すべての Windows VM と、MTU 構成に DHCP を使用しないカスタム イメージ VM については、OS 内の MTU 設定を手動で更新する必要があります。
その他の要件:
- クラスタのデプロイに使用するサブネットでプライベート Google アクセスを有効にします。
- 上り(内向き)ファイアウォール ルールを作成して、IAP にクラスタへのアクセス権を付与します。
- クラスタへのトラフィックをすべて許可する上り(内向き)ファイアウォール ルールを作成します。
次のステップ
正しい MTU 設定とファイアウォール ルールで VPC ネットワークを準備したら、次にトレーニング クラスタを作成して保護します。
- ネットワーク構成を確認する: クラスタを作成する前に、接続テストを行って、VPC ネットワークと MTU の設定を確認してください。特に、既存の VPC を変更した場合はこれを行うことが推奨されます。
- サービス境界によってクラスタを保護する: データ セキュリティを強化するには、VPC Service Controls を使用して Vertex AI リソースの周囲にサービス境界を作成します。これにより、データの引き出しを防ぐことができます。
- Vertex AI を使用した VPC Service Controls の詳細を確認してください。
- ハイブリッド環境またはマルチクラウド環境から接続する: オンプレミスのデータセンターまたはパブリック クラウドからトレーニング クラスタにアクセスするには、Google Cloudのハイブリッド接続オプションを使用します。