排解回報主機 API 錯誤

本文說明如何解決使用回報主機故障 API 時可能遇到的錯誤。

錯誤訊息

使用回報故障主機 API 時,您可能會遇到下列其中一種錯誤。

在作業執行期間刪除運算執行個體

如果刪除運算執行個體時,錯誤主機報告作業仍在進行中,就會發生這個錯誤。

錯誤訊息

INTERNAL_ERROR

解決方法:刪除運算執行個體前,請先確認 reportHostAsFaulty 作業已完成。否則回報出錯的主機作業就會失敗。

運算執行個體不屬於預留項目

如果您回報的運算執行個體是在沒有預訂的情況下建立,就會發生這個錯誤。

錯誤訊息:

INSTANCES_WITHOUT_RESERVATION_NOT_SUPPORTED

解決方法:確認您是使用與預留項目綁定的佈建模式建立運算執行個體。如要回報使用彈性啟動或 Spot 佈建模式的 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體主機故障,請與帳戶團隊聯絡。

重複回報出錯的主機

當您向修復故障主機 API 傳送要求時,如果同一運算執行個體已有其他要求正在進行中,就會發生這項錯誤。此外,運算執行個體可能會維持在 REPAIRING 狀態。

錯誤訊息:

FAILED_WITH_UNEXPECTED_STATUS

解決方法:請等待第一個回報主機故障作業完成,再向 API 傳送其他要求。如果運算執行個體沒有回應,請先重新啟動運算執行個體,再將其他要求傳送至 API。

缺少故障原因

如果未在錯誤的主機要求中指定 faultReasons 欄位,就會發生這項錯誤。

錯誤訊息:

FAULT_REASONS_EMPTY_SHOULD_BE_SPECIFIED

解析度faultReasons 欄位為必填欄位。如要解決這個問題,請在要求中指定 faultReasons 欄位

機型不正確

如果運算執行個體使用的機型不受支援,就會發生這個錯誤。

錯誤訊息:

MACHINE_TYPE_NOT_SUPPORTED

解決方式:回報主機 API 故障的作業僅支援 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型。

超出頻率限制

錯誤訊息:

RATE_LIMIT_EXCEEDED

原因:您超出 instances.reportHostAsFaulty 方法的要求上限,或 Google 容量不足,無法滿足您的要求。

不支援的運算執行個體狀態

如果運算執行個體處於不支援的狀態,就會發生這個錯誤。

錯誤訊息:

INSTANCE_SHOULD_BE_RUNNING

解決方法:向回報主機故障 API 傳送要求前,請先確認運算執行個體處於 RUNNING 狀態