障害のあるホストを報告する

A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 個の GPU）インスタンスで、自分で解決できない問題が発生した場合は、ホストに障害があると報告できます。このような問題の例としては、クラスタ内のパフォーマンスの低下や、GPU 温度が常に高い状態などが挙げられます。

ホストに障害があると報告すると、Compute Engine はホストメンテナンスを実行してコンピューティングインスタンスを自動的に修復します。

A4 インスタンスと A3 Ultra インスタンスの場合、未使用の予約済み容量がある場合や、インスタンスのゾーンで容量が使用可能な場合、メンテナンスが開始されると、Compute Engine はインスタンスを別のホストに移行しようとします。ホストを障害として報告すると、ワークロードのダウンタイムを最小限に抑えることができます。
A3 Mega インスタンスと A3 High インスタンスの場合、Compute Engine はインスタンスを停止し、必要なホストの修復を実行してから、同じホストでインスタンスを再起動します。

このドキュメントでは、Slurm クラスタまたは他のコンピューティングインスタンスベースのクラスタに属する障害のあるホストインスタンスを報告して修復する方法について説明します。Google Kubernetes Engine（GKE）クラスタで障害のあるホストを報告するには、GKE を介して障害のあるホストを報告するをご覧ください。

制限事項

障害のあるホストを報告する場合、次の制限が適用されます。

ホストで実行されているコンピューティングインスタンスが次の条件をすべて満たしている場合にのみ、障害のあるホストを報告できます。
- コンピューティングインスタンスが実行されている。
- コンピューティングインスタンスは、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 GPU）マシンタイプを使用します。
- コンピューティングインスタンスが予約にバインドされたプロビジョニングモデルを使用している。
  
  注: 実行中の A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High（8 個の GPU）インスタンスが別のプロビジョニングモデルを使用しているが、そのホストに障害があると報告する場合は、アカウントチームにお問い合わせください。
reportHostAsFaulty オペレーションの進行中にコンピューティングインスタンスを削除すると、reportHostAsFaulty オペレーションは失敗します。
Google Cloud は、障害のあるホストの報告リクエストをすべて満たすためにベストエフォートで試行します。ただし、容量の制約やレート制限により、リクエストが常に満たされるとは限りません。

始める前に

Select the tab for how you plan to use the samples on this page:

Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

REST

このページの REST API サンプルをローカル開発環境で使用するには、gcloud CLI に指定した認証情報を使用します。

Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:

gcloud init

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

詳細については、 Google Cloud 認証ドキュメントの REST を使用して認証するをご覧ください。

必要なロール

障害のあるホストを報告するために必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

コンピューティングインスタンスまたはプロジェクトに対する Compute インスタンス管理者（v1）（roles/compute.instanceAdmin.v1）
Cloud Logging を使用して障害のあるホストの報告オペレーションの状態を表示するには: プロジェクトに対するログ閲覧者（roles/logging.viewer）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、障害のあるホストを報告するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

障害のあるホストを報告するには、次の権限が必要です。

障害のあるホストの報告を作成する: コンピューティングインスタンスに対する compute.instances.update
Logging を使用してオペレーションのリストを表示する: プロジェクトに対する logging.operations.list
Logging を使用してオペレーションの詳細を表示する: プロジェクトに対する logging.operations.get
Compute Engine のオペレーションの一覧を表示する: プロジェクトに対する compute.zoneOperations.list
Compute Engine のオペレーションの詳細を表示する: プロジェクトに対する compute.zoneOperations.describe

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

障害のあるホストの報告プロセスについて

コンピューティングインスタンスの障害のあるホストを報告した後、コンピューティングインスタンスが再起動するタイミングは、コンピューティングインスタンスが使用する予約で指定された予約オペレーションモードによって異なります。予約の運用モードを確認するには、予約の reservationOperationalMode フィールドを表示します。次の表に、利用可能な 2 つの予約運用モード（すべての容量モードとマネージドモード）の障害のあるホストプロセスをまとめます。

All Capacity モード（ALL_CAPACITY）マネージドモード（HIGHLY_AVAILABLE_CAPACITY）

サポートされているマシンタイプ A4X Max と A4X A4、A3 Ultra、A3 Mega、A3 High

Faulty host report API のレート制限レート制限は適用されません。 API の呼び出しにはレート制限が適用される場合があります。

障害のあるホストの報告プロセス

	All Capacity モード（`ALL_CAPACITY`）	マネージドモード（`HIGHLY_AVAILABLE_CAPACITY`）
サポートされているマシンタイプ	A4X Max と A4X	A4、A3 Ultra、A3 Mega、A3 High
Faulty host report API のレート制限	レート制限は適用されません。	API の呼び出しにはレート制限が適用される場合があります。
障害のあるホストの報告プロセス	全容量モードで実行されているコンピューティングインスタンスの障害のあるホストを報告すると、次のようになります。障害のあるホストを報告する: インスタンスは、障害のあるホストの報告オペレーション全体で `RUNNING` 状態のままになります。通常、報告オペレーションの完了には 10 ～ 12 分かかります。オペレーションの状態を確認するには、このドキュメントの障害のあるホストの報告オペレーションを確認するをご覧ください。ホストを修復する: 障害のあるホストの報告オペレーションが完了すると、1 分以内にホストの修復オペレーションが開始されます。ホストの修復オペレーションが開始されると、インスタンスが停止し、インスタンスに指定された自動再起動（`automaticRestart`）設定に応じて状態が変化します。インスタンスで自動再起動が有効になっている場合、インスタンスの状態は `REPAIRING` に変わります。ホストが正常な場合、インスタンスは自動的に再起動します。ただし、それまでにインスタンスを停止した場合を除きます。インスタンスで自動再起動が無効になっている場合、インスタンスの状態は `TERMINATED` に変わります。ホストが正常になったら、インスタンスを手動で再起動する必要があります。障害のあるホストの修復には 3 ～ 14 日、またはそれ以上かかることがあります。インスタンスを再起動する: ホストの修復オペレーションが完了すると（通常は 3 ～ 14 日）、次のいずれかが発生します。インスタンスが `REPAIRING` 状態にあり、修復が完了したときにリソースが使用可能な場合、Compute Engine は修復されたホストでインスタンスを自動的に再起動します。それ以外の場合、インスタンスが `TERMINATED` 状態の場合、または修復が完了したときにリソースが使用できない場合には、インスタンスの状態は `TERMINATED` のままになるか、`TERMINATED` に変更されます。インスタンスを実行する場合は、インスタンスを手動で再起動する必要があります。ただし、インスタンスの再起動時にリソースが使用できない場合（修復されたホストを他のインスタンスがすでに使用している場合など）、インスタンスの再起動が失敗することがあります。	マネージドモードで実行されているコンピューティングインスタンスの障害のあるホストを報告すると、次のようになります。障害のあるホストを報告する: インスタンスは、障害のあるホストの報告オペレーション全体で `RUNNING` 状態のままになります。通常、報告オペレーションの完了には 10 ～ 12 分かかります。オペレーションの状態を確認するには、このドキュメントの障害のあるホストの報告オペレーションを確認するをご覧ください。ホストの修復を開始する: 障害のあるホストの報告オペレーションが完了すると、1 分以内にホストの修復オペレーションが開始されます。ホストの修復オペレーションが開始されると、インスタンスが停止し、インスタンスに指定された自動再起動（`automaticRestart`）設定に応じて状態が変化します。インスタンスで自動再起動が有効になっている場合、インスタンスの状態は `REPAIRING` に変わります。ホストが正常な場合、インスタンスは自動的に再起動します。ただし、それまでにインスタンスを停止した場合を除きます。インスタンスで自動再起動が無効になっている場合、インスタンスの状態は `TERMINATED` に変わります。ホストが正常になったら、インスタンスを手動で再起動する必要があります。障害のあるホストの修復には 3～14 日、またはそれ以上かかることがあります。インスタンスを移行して再起動する: ホストの修復オペレーションが開始されると（通常は 10 ～ 12 分）、Compute Engine は、予約済み容量で報告された障害のあるホストを置き換えるために、別のホストを予約しようとします。Compute Engine が正常なホストを見つけた場合（障害のあるホストの置き換えに成功した場合や、予約済み容量で一致する正常なホストを見つけた場合など）、Compute Engine はインスタンスをそのホストに移行します。インスタンスの再起動は、次のいずれかで行われます。インスタンスが `REPAIRING` 状態にあり、修復が完了する前または完了時にリソースが使用可能な場合、Compute Engine は正常なホストでインスタンスを自動的に再起動します。それ以外の場合、インスタンスが `TERMINATED` 状態の場合、または修復が完了する前または完了時にリソースが使用できない場合には、インスタンスの状態は `TERMINATED` のままになるか、`TERMINATED` に変更されます。インスタンスを実行する場合は、インスタンスを手動で再起動する必要があります。ただし、インスタンスの再起動時にリソースが使用できない場合（修復されたホストを他のインスタンスがすでに使用している場合など）、インスタンスの再起動が失敗することがあります。

全容量モードで実行されているコンピューティングインスタンスの障害のあるホストを報告すると、次のようになります。

障害のあるホストを報告する: インスタンスは、障害のあるホストの報告オペレーション全体で RUNNING 状態のままになります。通常、報告オペレーションの完了には 10 ～ 12 分かかります。オペレーションの状態を確認するには、このドキュメントの障害のあるホストの報告オペレーションを確認するをご覧ください。
ホストを修復する: 障害のあるホストの報告オペレーションが完了すると、1 分以内にホストの修復オペレーションが開始されます。

ホストの修復オペレーションが開始されると、インスタンスが停止し、インスタンスに指定された自動再起動（automaticRestart）設定に応じて状態が変化します。
- インスタンスで自動再起動が有効になっている場合、インスタンスの状態は REPAIRING に変わります。ホストが正常な場合、インスタンスは自動的に再起動します。ただし、それまでにインスタンスを停止した場合を除きます。
- インスタンスで自動再起動が無効になっている場合、インスタンスの状態は TERMINATED に変わります。ホストが正常になったら、インスタンスを手動で再起動する必要があります。
障害のあるホストの修復には 3 ～ 14 日、またはそれ以上かかることがあります。
インスタンスを再起動する: ホストの修復オペレーションが完了すると（通常は 3 ～ 14 日）、次のいずれかが発生します。
- インスタンスが REPAIRING 状態にあり、修復が完了したときにリソースが使用可能な場合、Compute Engine は修復されたホストでインスタンスを自動的に再起動します。
- それ以外の場合、インスタンスが TERMINATED 状態の場合、または修復が完了したときにリソースが使用できない場合には、インスタンスの状態は TERMINATED のままになるか、TERMINATED に変更されます。インスタンスを実行する場合は、インスタンスを手動で再起動する必要があります。ただし、インスタンスの再起動時にリソースが使用できない場合（修復されたホストを他のインスタンスがすでに使用している場合など）、インスタンスの再起動が失敗することがあります。

マネージドモードで実行されているコンピューティングインスタンスの障害のあるホストを報告すると、次のようになります。

障害のあるホストを報告する: インスタンスは、障害のあるホストの報告オペレーション全体で RUNNING 状態のままになります。通常、報告オペレーションの完了には 10 ～ 12 分かかります。オペレーションの状態を確認するには、このドキュメントの障害のあるホストの報告オペレーションを確認するをご覧ください。
ホストの修復を開始する: 障害のあるホストの報告オペレーションが完了すると、1 分以内にホストの修復オペレーションが開始されます。

ホストの修復オペレーションが開始されると、インスタンスが停止し、インスタンスに指定された自動再起動（automaticRestart）設定に応じて状態が変化します。
- インスタンスで自動再起動が有効になっている場合、インスタンスの状態は REPAIRING に変わります。ホストが正常な場合、インスタンスは自動的に再起動します。ただし、それまでにインスタンスを停止した場合を除きます。
- インスタンスで自動再起動が無効になっている場合、インスタンスの状態は TERMINATED に変わります。ホストが正常になったら、インスタンスを手動で再起動する必要があります。
障害のあるホストの修復には 3～14 日、またはそれ以上かかることがあります。
インスタンスを移行して再起動する: ホストの修復オペレーションが開始されると（通常は 10 ～ 12 分）、Compute Engine は、予約済み容量で報告された障害のあるホストを置き換えるために、別のホストを予約しようとします。Compute Engine が正常なホストを見つけた場合（障害のあるホストの置き換えに成功した場合や、予約済み容量で一致する正常なホストを見つけた場合など）、Compute Engine はインスタンスをそのホストに移行します。インスタンスの再起動は、次のいずれかで行われます。
- インスタンスが REPAIRING 状態にあり、修復が完了する前または完了時にリソースが使用可能な場合、Compute Engine は正常なホストでインスタンスを自動的に再起動します。
- それ以外の場合、インスタンスが TERMINATED 状態の場合、または修復が完了する前または完了時にリソースが使用できない場合には、インスタンスの状態は TERMINATED のままになるか、TERMINATED に変更されます。インスタンスを実行する場合は、インスタンスを手動で再起動する必要があります。ただし、インスタンスの再起動時にリソースが使用できない場合（修復されたホストを他のインスタンスがすでに使用している場合など）、インスタンスの再起動が失敗することがあります。