マネージド インスタンス グループ(MIG)は、VM のコレクションの作成、構成、ライフサイクル管理を自動化します。MIG には、自動修復とリージョン(マルチゾーン)デプロイによる高可用性、変動する負荷に対応する自動スケーリング、アプリケーションのローリング アップデートの簡素化などのメリットがあります。 詳細については、マネージド インスタンス グループをご覧ください。
MIG を使用して、TPU バージョン v5p 以降の TPU VM を作成して管理できます。 単一の TPU VM を使用する MIG、独立した TPU VM(単一ホスト スライスとも呼ばれます)、相互接続された TPU VM を使用する MIG(マルチホスト スライスとも呼ばれます)を作成できます。
単一ホスト MIG の各スライスには、最大で 1 つの TPU VM があります。MIG 内の TPU VM は、チップ間相互接続(ICI)リンクで接続されていません。
マルチホスト スライスには、ICI リンクで相互接続された複数の TPU VM が含まれています。
単一の TPU VM インスタンスを使用する MIG
MIG のターゲット サイズを 1 に設定することで、MIG を使用して個々の TPU VM を作成して管理できます。この方法は、単一のインスタンスに自動修復などの MIG 機能を使用する場合に便利です。詳細については、 単一ホスト TPU スライスで MIG を作成するをご覧ください。
単一ホスト TPU スライスを使用する MIG
複数の独立した TPU インスタンスでマネージド インスタンス グループ(MIG)を作成することは、複数の個別の TPU VM を必要とするが、分散ワークロードのために ICI リンクで相互接続する必要がないワークロードに役立ちます。次に例を示します。
- 推論サービング: MIG 内の各 VM は、推論 リクエストを個別に処理できます。MIG を使用すると、需要に基づいてサービング インスタンスの数をスケーリングし、グループとして管理できます。
- 並列の独立したタスク: MIG は、単一の TPU VM で並列実行できる多くの小規模で 独立したトレーニング ジョブやその他の計算を管理する方法を提供します。
- 管理: MIG には次の機能があります。
- デプロイ: インスタンス テンプレートを一度定義し、MIG を使用して 複数の同一の TPU VM を作成します。
- スケーラビリティ: MIG のサイズを変更して、TPU VM の数を調整します。
- ローリング アップデート: すべての VM でソフトウェアまたはマシンタイプを 制御された方法で更新します。
- 費用対効果: 大規模な TPU スライスの完全な能力や 相互接続を必要としないタスクの場合、複数の小規模で独立した TPU スライスを使用する方が費用対効果が高くなる可能性があります。
詳細については、単一ホスト TPU スライスで MIG を作成するをご覧ください。
マルチホスト スライスを使用する MIG
独立した TPU スライスのグループとは異なり、マルチホスト スライス用に構成された MIG は、ICI リンクを介して緊密に結合された TPU VM のセットを管理します。これにより、単一の論理 TPU スライスが作成されます。
特典とパフォーマンス
マルチホスト TPU スライスの MIG は、集中的な機械学習ワークロードに必要なスケールとパフォーマンスを提供します。
- 分散トレーニング: 機械学習モデルのトレーニングには、単一の TPU VM で提供できるよりも多くの TPU 能力が必要になることがよくあります。大規模な TPU スライスは、多くの TPU チップと VM に計算を分散し、ICI リンクによりそれらの間で高速な通信が可能になります。これはトレーニングのパフォーマンスにとって非常に重要です。
- 高い相互接続帯域幅: ICI ネットワークは、標準のデータセンター ネットワーク(DCN)よりも、スライス内の TPU チップ間の帯域幅が広く、 レイテンシが低くなります。これは、大規模なモデル トレーニングで一般的な同期オペレーションに不可欠です。
アトミック ライフサイクル オペレーション
相互接続されたトポロジの整合性を確保するため、MIG はライフサイクル全体を通じてスライス全体を単一の不可分ユニットとして管理します。
- 作成: スライス内のすべての VM がまとめてプロビジョニングされます。リクエストされたトポロジ全体に十分な正常な相互接続容量がない場合、スライスは作成されません。
- 削除: MIG はスライス全体をユニットとして削除します。
- サイズ変更: サイズ変更は、0 からスライス全体のサイズへのスケーリング、 またはスライス全体のサイズから 0 へのスケーリングに制限されます。マルチ VM スライスを部分的にサイズ変更することはできません。
構成要件
マルチホスト MIG を構成するには、物理的な相互接続トポロジと個々のインスタンス プロパティの両方を定義する必要があります。
- ワークロード ポリシー:
accelerator-topologyパラメータ(4x4、8x8、4x4x4 など)を使用してワークロード ポリシーを指定する必要があります。これにより、インスタンスを単一の相互接続されたスライスとして扱うように MIG が構成されます。 トポロジについては、TPU トポロジをご覧ください。 - インスタンス テンプレート: スライス内の各 VM のマシンタイプ、ディスク イメージ、 その他の設定などのプロパティを定義します。
スライスの可用性と障害復旧
MIG を使用してマルチホスト TPU スライスを作成すると、MIG はスライスの復旧プロセスを自動的に管理します。ホストまたは ICI の障害が発生すると、スライスは REACTIVATING 状態に移行します。スライス内のすべての VM が REPAIRING 状態に移行しますが、必ずしも同時に移行するとは限りません。その後、MIG は正常な容量で VM を自動的に再起動して、スライスを復元します。
ただし、Spot VM を使用すると、プリエンプションによりインスタンスが終了します。MIG はスライスを自動的に再アクティブ化しません。
インスタンスの中断からの障害復旧
TPU インスタンスを削除または停止した場合、またはオペレーティング システム内からインスタンスを停止した場合、スライスは FAILED 状態に移行します。このシナリオでは、スライスを再作成するまで、スライスは FAILED 状態のままになります。
スライスを再作成するには、MIG を削除して再作成するか、MIG のサイズを 0 に変更してからサイズを増やす必要があります。
スライスの状態の詳細については、 TPU スライスのステータスを表示するをご覧ください。
制限事項
以降のセクションでは、TPU VM を使用して MIG を作成する場合の制限事項について説明します。
インスタンス テンプレートの制限事項
TPU マシンタイプを指定するインスタンス テンプレートには、次の制限があります。
予約で制限されたプロビジョニング モデルを使用する場合は、インスタンスの終了アクションを削除に設定する必要があります。
TPU は、 明示的にターゲット設定された予約のみを使用できます。
プレースメント ポリシーは指定できません。
インスタンス テンプレートを使用してマルチホスト TPU スライスの MIG を作成する場合、 自動再起動 を無効にすることはできません。
scheduling.automaticRestartフィールドをfalseに設定します。この制限は、標準、Flex Start、予約で制限されたプロビジョニング モデルに適用されます。
MIG の制限事項
TPU を使用する MIG には次の制限があります。
ライフサイクル オペレーション: TPU インスタンスを停止、開始、再開、一時停止することはできません。再起動が必要な構成を変更する場合や、課金を停止する場合は、インスタンスを削除する必要があります。
リージョン MIG ゾーンの分散: ターゲット分配形態を
ANY_SINGLE_ZONEに設定する必要があります。MIG の構成の更新:
- 定義されたアクセラレータ トポロジのため、マルチホスト TPU スライスを形成する MIG を更新することはできません。
- 自動または選択の方法を使用して、単一ホスト TPU スライスを形成する MIG を更新できます。ただし、単一ホスト TPU スライスの更新では、再起動(
RESTART)アクションはサポートされていません。再起動が必要で、許可されている最も破壊的なアクションが置換(REPLACE)の場合、Updater はインスタンスを置き換えます。それ以外の場合、更新の試行はエラーで失敗します。
マルチホスト TPU スライスを形成する MIG には、次の制限も適用されます。
ターゲット サイズ ポリシー: ターゲット サイズ ポリシー モードを
BULKに設定する必要があります。このモードを設定すると、変更することはできません。ターゲット サイズ: バルクモードでは、ターゲット サイズを
0または アクセラレータ トポロジの形成に必要なインスタンス数に設定できます。ワークロード ポリシー: アクセラレータ トポロジが定義されているワークロード ポリシーを指定する必要があります。ワークロード ポリシーを設定した後、MIG からポリシーを変更または削除することはできません。
サポートされていない機能: TPU を使用する MIG は、次の 機能をサポートしていません。
- インスタンスの柔軟性
- リソースを一度に取得するための サイズ変更リクエスト
- ステートフル構成
- マルチホスト TPU スライスを形成する MIG では、次の機能もサポートされていません。