本文說明如何解決使用回報主機故障 API 時可能遇到的錯誤。
錯誤訊息
使用回報故障主機 API 時,您可能會遇到下列其中一種錯誤。
在作業執行期間刪除運算執行個體
如果刪除運算執行個體時,錯誤主機報告作業仍在進行中,就會發生這個錯誤。
錯誤訊息:
INTERNAL_ERROR
解決方法:刪除運算執行個體前,請先確認 reportHostAsFaulty 作業已完成。否則回報出錯的主機作業就會失敗。
運算執行個體不屬於預留項目
如果您回報的運算執行個體是在沒有預訂的情況下建立,就會發生這個錯誤。
錯誤訊息:
INSTANCES_WITHOUT_RESERVATION_NOT_SUPPORTED
解決方法:確認您是使用與預留項目綁定的佈建模式建立運算執行個體。如要回報使用彈性啟動或 Spot 佈建模式的 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 執行個體主機故障,請與帳戶團隊聯絡。
重複回報出錯的主機
當您向修復故障主機 API 傳送要求時,如果同一運算執行個體已有其他要求正在進行中,就會發生這項錯誤。此外,運算執行個體可能會維持在 REPAIRING 狀態。
錯誤訊息:
FAILED_WITH_UNEXPECTED_STATUS
解決方法:請等待第一個回報主機故障作業完成,再向 API 傳送其他要求。如果運算執行個體沒有回應,請先重新啟動運算執行個體,再將其他要求傳送至 API。
缺少故障原因
如果未在錯誤的主機要求中指定 faultReasons 欄位,就會發生這項錯誤。
錯誤訊息:
FAULT_REASONS_EMPTY_SHOULD_BE_SPECIFIED
解析度:faultReasons 欄位為必填欄位。如要解決這個問題,請在要求中指定 faultReasons 欄位。
機型不正確
如果運算執行個體使用的機型不受支援,就會發生這個錯誤。
錯誤訊息:
MACHINE_TYPE_NOT_SUPPORTED
解決方式:回報主機 API 故障的作業僅支援 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機型。
超出頻率限制
錯誤訊息:
RATE_LIMIT_EXCEEDED
原因:您超出 instances.reportHostAsFaulty 方法的要求上限,或 Google 容量不足,無法滿足您的要求。
不支援的運算執行個體狀態
如果運算執行個體處於不支援的狀態,就會發生這個錯誤。
錯誤訊息:
INSTANCE_SHOULD_BE_RUNNING
解決方法:向回報主機故障 API 傳送要求前,請先確認運算執行個體處於 RUNNING 狀態。