ネットワーキング

Vertex AI Training クラスタに関心をお持ちの場合は、営業担当者にお問い合わせください。

Vertex AI Training クラスタは、VPC 内の Compute Engine インスタンスとしてプロビジョニングされるマネージド Google Cloudサービスです。このデプロイモデルにより、サービスが VPC 内の他のワークロード、Google マネージド サービス、マルチクラウド ネットワークに安全に接続できます。

ネットワーク MTU の要件

トレーニング インフラストラクチャで最適なネットワーク パフォーマンスを実現するには、VPC ネットワークの最大伝送単位(MTU)を構成する必要があります。

推奨される MTU 値は、クラスタ内の GPU マシンタイプによって異なります。

  • A3 Ultra ノードと A4 ノードの場合: MTU に 8896 を使用します。
  • A3 Mega ノードの場合: MTU に 8244 を使用します。

新しい VPC を作成することも、既存の VPC を使用することもできます。

新しい VPC にトレーニング クラスタをデプロイする(推奨)

推奨される方法は、トレーニング クラスタを新しい事前構成済みの VPC ネットワークにデプロイすることです。これにより、正しい MTU 設定が自動的に適用され、既存のワークロードに影響を与えることがなくなります。

新しい VPC にトレーニング クラスタをデプロイするための主要な手順は次の 2 つです。

  1. VPC ネットワークを作成する: 新しい VPC ネットワークを作成するをご覧ください。ジャンボ フレームを有効にするには、MTU を 8896 に設定します。

  2. クラスタをデプロイする: 新しく構成されたネットワークにトレーニング クラスタをデプロイします。

この順序で手順を行うことにより、クラスタの VM インスタンスは最初の起動時に正しい MTU 設定を自動的に継承します。

新しい VPC を作成して設定する

  1. VPC ネットワークを作成します。ジャンボ フレームを有効にするには、NETWORK_MTU を 8896 に設定します。
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. トレーニング クラスタのデプロイに使用するサブネットを作成し、環境の要件に基づいて範囲を更新します。この例では、サブネット 192.168.0.0/19 がトレーニング クラスタのデプロイに使用されます。
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. トレーニング クラスタへの SSH 接続を許可する IAP ファイアウォール ルールを作成します。
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. すべてのポートとプロトコルをトレーニング クラスタ サブネットに許可する上り(内向き)ファイアウォール ルールを作成します。
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

既存の VPC にトレーニング クラスタをデプロイする

Cloud Storage インスタンスを含む既存のネットワークにトレーニング クラスタをデプロイする場合は、最適なパフォーマンスを確保するためにジャンボ フレーム(MTU 8896)を使用することを強くおすすめします。開始する前に、既存の VM のオペレーティング システムとアプリケーションがこの変更をサポートできることを確認します。

ジャンボ フレームを実装するには、VPC の MTU を更新する必要があります。ネットワークの不安定化を防ぐため、これは計画されたメンテナンスの時間枠内で行う必要があります。

安全な手順は、まずそのネットワークで実行中のすべての VM インスタンスを停止することです。VM がアクティブな状態で MTU を変更すると、設定の不一致や接続の不安定化が発生します。

すべての VM を停止してから、次の手順に進みます。

  1. ネットワークの MTU を選択した設定(8896 など)に変更します。
  2. ネットワークの更新が完了したら、すべての VM を再起動します。
  3. Linux 以外の VM を手動で更新します。この再起動は、すべてのオペレーティング システムに対して十分なわけではないことに注意してください。公開 Linux イメージの VM は新しい MTU を自動的に採用しますが、すべての Windows VM と、MTU 構成に DHCP を使用しないカスタム イメージ VM については、OS 内の MTU 設定を手動で更新する必要があります。

その他の要件:

  • クラスタのデプロイに使用するサブネットでプライベート Google アクセスを有効にします。
  • 上り(内向き)ファイアウォール ルールを作成して、IAP にクラスタへのアクセス権を付与します。
  • クラスタへのトラフィックをすべて許可する上り(内向き)ファイアウォール ルールを作成します。

次のステップ

正しい MTU 設定とファイアウォール ルールで VPC ネットワークを準備したら、次にトレーニング クラスタを作成して保護します。

  • ネットワーク構成を確認する: クラスタを作成する前に、接続テストを行って、VPC ネットワークと MTU の設定を確認してください。特に、既存の VPC を変更した場合はこれを行うことが推奨されます。
  • サービス境界によってクラスタを保護する: データ セキュリティを強化するには、VPC Service Controls を使用して Vertex AI リソースの周囲にサービス境界を作成します。これにより、データの引き出しを防ぐことができます。
  • ハイブリッド環境またはマルチクラウド環境から接続する: オンプレミスのデータセンターまたはパブリック クラウドからトレーニング クラスタにアクセスするには、Google Cloudのハイブリッド接続オプションを使用します。