All Capacity モードの TPU ホストの障害を報告して修復する
All Capacity モードの VM で、他の方法では解決できない問題(ICI レイテンシ指標が一貫して高い、ピアと比較して温度が一貫して高いなど)が発生した場合は、そのホストを障害として報告することをおすすめします。ホストに障害があると報告すると、Compute Engine はホストに障害があるとマークし、ホスト メンテナンスを実行して VM を自動的に修復します。All Capacity モードでは、修復中に TPU VM が別のホストに移行されません。十分な容量がある場合は、同じホストで再起動されます。障害のあるホストとして報告できるのは、実行中の VM があるホストだけです。
障害のあるホストを報告するには、report-host-as-faulty コマンドを使用します。--fault-behavior パラメータを使用して、問題に関する追加情報を提供します。
gcloud compute instance report-host-as-faulty example-tpu-vm
--fault-behavior \ # required
--description="silent data corruption affecting our ML job…"
[--disruption_policy=FUTURE | IMMEDIATE]
--fault-behavior には、次のいずれかの値を渡すことができます。
PERFORMANCE: インスタンスのパフォーマンス低下を報告する場合に使用しますSILENT_DATA_CORRUPTION: インスタンスでのサイレント データ破損の疑いを報告する場合に使用しますCHIP_ERROR: アクセラレータが応答しなくなった TPU エラーまたは障害を報告する場合に使用します。BEHAVIOR_UNSPECIFIED: 他の 3 つの動作グループに該当しない問題を報告する場合に使用します。
通常、ホストの障害を報告するオペレーションが完了するまでに 10~12 分かかります。中断ポリシーが immediate に設定されている場合、報告オペレーションが完了して 1 分以内にホストの修復が開始します。中断ポリシーが future に設定されている場合、修復アクションはすぐには実行されません。代わりに、Compute Engine は、今後障害が検出された際の修復をスケジュールします。修復が開始すると、VM の電源が切れます。ホストが修復されるまで、VM は pending 状態のままになることがあります。障害のあるホストの修復には 3~14 日以上かかることがあります。TPU All Capacity モードでは、修復中に TPU VM が別のホストに移行されません。十分な容量がある場合は、同じホストで再起動されます。