Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

マネージドキャパシティモードの TPU のメンテナンスイベントを管理する

TPU VM は、TPU ハードウェアが割り当てられた Compute Engine VM のインスタンスです。 Compute Engine VM は Compute Engine VM のメンテナンスイベントの対象となります。各 TPU は Compute Engine VM に割り当てられているため、使用する TPU（TPU スライスなど）を増やすと、いずれかの VM でメンテナンスイベントが発生する可能性があります。

このドキュメントでは、TPU で長時間実行トレーニングジョブのメンテナンスイベントを処理する方法について説明します。Google Kubernetes Engine（GKE）で TPU のメンテナンスイベントを処理する方法については、GPU と TPU の GKE ノードの停止を管理するをご覧ください。

今後のメンテナンスに関する通知を表示する

インスタンスの今後のメンテナンスの時間枠をモニタリングすると、中断を最小限に抑えながら、今後のメンテナンスを処理するワークロードをプロアクティブに準備できます。詳細については、Compute Engine のドキュメントのホストメンテナンスイベントのモニタリングと計画をご覧ください。

チェックポイントを使用してメンテナンスイベントから迅速に復元する

チェックポイントは、メンテナンスイベントから短時間で復元するうえで重要であるため、頻繁に保存する必要があります。チェックポイントは 1 時間ごとに保存することをおすすめします。チェックポイントが不十分であると、メンテナンスイベントやその他のトレーニングの中断が原因となり、多くのトレーニングの進行状況が失われるリスクが発生します。

一般に、チェックポイントはトレーニングで使用されるすべての保存済みパラメータ（モデルの重みなど）を参照します。チェックポイントの保存にかかる時間は、数秒から数分です。

TPU はメンテナンスイベントから自動的に復元されることが多いですが、ジョブが自動的に再起動しないケースもあります。この場合は、TPU リソースを削除して再作成し、保存したチェックポイントからトレーニングジョブを再開する必要があります。

チェックポイントの保存と読み込みのメカニズムは、ML フレームワークごとに異なります。通常、サポートされている Cloud TPU モデルにはチェックポインティングが組み込まれています。チェックポインティングの詳細については、次のドキュメントをご覧ください。

メンテナンスイベントを検出する

TPU でメンテナンスイベントが発生したかどうかと、そのタイミングを検出するには、Cloud Logging のシステムイベント監査ログを確認します。詳細については、メンテナンスイベントログを表示するをご覧ください。

gcloud compute instances describe コマンドを使用して、今後のメンテナンスイベントを確認することもできます。詳細については、Compute Engine のドキュメントのホストメンテナンスイベントのモニタリングと計画をご覧ください。

メンテナンスイベントログを表示する

TPU のメンテナンスイベントの過去のログは、システムイベント監査ログで確認できます。

Google Cloud コンソールのナビゲーションメニューで、[ログエクスプローラ] ページに移動します。

[ログエクスプローラ] に移動
次の検索クエリを使用して、メンテナンスのために終了した TPU VM を表示します。

"compute.instances.terminateOnHostMaintenance"

検索期間内の TPU ワーカーの中断と修復のログが結果に表示されます。ログには次のものが含まれます。
- イベントの発生日時
- イベントのタイプ
- protoPayload.metadata.terminateReason フィールドの終了理由

メンテナンスを手動で開始する

TPU VM で保留中のホストメンテナンスイベントを手動で開始して、中断を最小限に抑えながら、今後のメンテナンスにプロアクティブに対応できます。詳細については、Compute Engine のドキュメントのホストメンテナンスイベントを手動で開始するをご覧ください。

マネージド キャパシティ モードの TPU のメンテナンス イベントを管理する

今後のメンテナンスに関する通知を表示する

チェックポイントを使用してメンテナンス イベントから迅速に復元する

メンテナンス イベントを検出する

メンテナンス イベントログを表示する

メンテナンスを手動で開始する

次のステップ

マネージドキャパシティモードの TPU のメンテナンスイベントを管理する

チェックポイントを使用してメンテナンスイベントから迅速に復元する

メンテナンスイベントを検出する

メンテナンスイベントログを表示する