MIG を使用して Cloud TPU VM を作成する

マネージド インスタンス グループ(MIG)は、VM のコレクションの作成、構成、ライフサイクル管理を自動化します。MIG は、自動修復とリージョン(マルチゾーン)デプロイによる高可用性、変動する負荷を処理するための自動スケーリング、アプリケーションのローリング更新の簡素化などのメリットを提供します。詳細については、マネージド インスタンス グループをご覧ください。

MIG を使用して、TPU バージョン v5p 以降の TPU VM を作成して管理できます。単一の TPU VM を使用した MIG、独立した TPU VM(単一ホスト スライスとも呼ばれます)、相互接続された TPU VM を使用した MIG(マルチホスト スライスとも呼ばれます)を作成できます。

単一ホスト MIG の各スライスには、最大で 1 つの TPU VM があります。MIG 内の TPU VM は、チップ間相互接続(ICI)リンクで接続されていません。

マルチホスト スライスには、ICI リンクで相互接続された複数の TPU VM が含まれています。

単一ホスト TPU スライスを含む MIG

複数の独立した TPU インスタンスを含むマネージド インスタンス グループ(MIG)を作成することは、複数の個々の TPU VM を必要とするが、分散ワークロード用に ICI リンクで相互接続する必要がないワークロードに役立ちます。次に例を示します。

  • 推論サービング: MIG の各 VM は、推論リクエストを個別に処理できます。MIG を使用すると、需要に基づいてサービング インスタンスの数をスケーリングし、グループとして管理できます。
  • 並列独立タスク: MIG は、単一の TPU VM で並列実行できる、多数の小規模で独立したトレーニング ジョブやその他の計算を管理する方法を提供します。
  • 管理: MIG には次の機能があります。
    • デプロイ: インスタンス テンプレートを 1 回定義し、MIG を使用して複数の同一の TPU VM を作成します。
    • スケーラビリティ: MIG のサイズを変更して、TPU VM の数を調整します。
    • ローリング アップデート: すべての VM でソフトウェアまたはマシンタイプを制御された方法で更新します。
  • 費用対効果: 大規模な TPU スライスのフルパワーや相互接続を必要としないタスクでは、複数の独立した小規模な TPU スライスを使用する方が費用対効果が高くなることがあります。

詳細については、単一ホスト TPU スライスで MIG を作成するをご覧ください。

マルチホスト スライスを含む MIG

独立した TPU スライスのグループとは異なり、マルチホスト スライス用に構成された MIG は、ICI リンクを介して緊密に結合された TPU VM のセットを管理します。これにより、単一の論理 TPU スライスが作成されます。

特典とパフォーマンス

マルチホスト TPU スライスの MIG は、集中的な機械学習ワークロードに必要なスケーリングとパフォーマンスを提供します。

  • 分散トレーニング: 機械学習モデルのトレーニングでは、単一の TPU VM で提供できるよりも多くの TPU パワーが必要になることがよくあります。大規模な TPU スライスでは、ICI リンクによって高速通信が可能になり、多くの TPU チップと VM に計算が分散されます。これはトレーニングのパフォーマンスにとって非常に重要です。
  • 高い相互接続帯域幅: ICI ネットワークは、標準のデータセンター ネットワーク(DCN)よりも、スライス内の TPU チップ間の帯域幅が広く、レイテンシが低くなります。これは、大規模なモデル トレーニングで一般的な同期オペレーションに不可欠です。

アトミック ライフサイクル オペレーション

相互接続されたトポロジの完全性を確保するため、MIG はライフサイクル全体を通じてスライス全体を単一の不可分な単位として管理します。

  • 作成: スライス内のすべての VM がまとめてプロビジョニングされます。リクエストされたトポロジ全体で十分な正常な相互接続容量が利用できない場合、スライスは作成されません。
  • 削除: MIG はスライス全体を単位として削除します。
  • サイズ変更: サイズ変更は、0 からフルスライス サイズへのスケーリング、またはフルスライス サイズから 0 へのスケーリングに制限されます。マルチ VM スライスのサイズを部分的に変更することはできません。

設定要件

マルチホスト MIG を構成するには、物理相互接続トポロジと個々のインスタンス プロパティの両方を定義する必要があります。

  • ワークロード ポリシー: accelerator-topology パラメータ(4x4、8x8、4x4x4 など)を使用してワークロード ポリシーを指定する必要があります。これにより、インスタンスを相互接続された単一のスライスとして扱うように MIG が構成されます。トポロジについては、システム アーキテクチャをご覧ください。
  • インスタンス テンプレート: スライス内の各 VM のマシンタイプ、ディスク イメージ、その他の設定などのプロパティを定義します。

スライスの可用性と障害復旧

MIG を使用してマルチホスト TPU スライスを作成すると、MIG はスライス復元プロセスを自動的に管理します。ホストまたは ICI の障害が発生すると、スライスは REACTIVATING 状態に移行します。スライス内のすべての VM が REPAIRING 状態に移行します。ただし、必ずしも同時に移行するとは限りません。MIG は、正常な容量で VM を自動的に再起動して、スライスを復元します。

ただし、Spot VM を使用すると、プリエンプションによってインスタンスが終了します。MIG はスライスを自動的に再アクティブ化しません。

インスタンスの中断からの障害復旧

TPU インスタンスを削除または停止した場合、またはオペレーティング システム内からインスタンスを停止した場合、スライスは FAILED 状態に移行します。このシナリオでは、スライスを再作成するまで、スライスは FAILED 状態のままになります。スライスを再作成するには、MIG を削除して再作成するか、MIG のサイズを 0 に変更してからサイズを増やす必要があります。

スライスの状態の詳細については、TPU スライスのステータスを表示するをご覧ください。

制限事項

TPU を使用する MIG には次の制限があります。

  • ライフサイクル オペレーション: TPU インスタンスの停止、開始、再開、一時停止はできません。再起動が必要な構成を変更する場合や、課金を停止する場合は、インスタンスを削除する必要があります。

  • リージョン MIG のゾーン分布: ターゲット分配形態ANY_SINGLE_ZONE に設定する必要があります。

  • MIG での構成の更新:

    • 定義されたアクセラレータ トポロジのため、マルチホスト TPU スライスを形成する MIG を更新することはできません。
    • 自動または選択的メソッドを使用して、単一ホスト TPU スライスを形成する MIG を更新できます。ただし、単一ホスト TPU スライスの更新では、再起動(RESTART)アクションはサポートされていません。再起動が必要で、許容される最も大がかりなアクションが置換(REPLACE)の場合、Updater はインスタンスを置き換えます。それ以外の場合、更新の試行はエラーで失敗します。

  • マルチホスト TPU スライスを形成する MIG には、次の制限も適用されます。

    • ターゲット サイズ ポリシー: ターゲット サイズ ポリシーモードを BULK に設定する必要があります。このモードを設定すると、変更できません。

    • ターゲット サイズ: バルクモードでは、ターゲット サイズを 0 またはアクセラレータ トポロジの形成に必要なインスタンス数に設定できます。

    • ワークロード ポリシー: アクセラレータ トポロジが定義されているワークロード ポリシーを指定する必要があります。ワークロード ポリシーを設定すると、MIG からポリシーを変更または削除できなくなります。

  • サポートされていない機能: TPU を使用する MIG は、次の機能をサポートしていません。

次のステップ