Cloud TPU 錯誤字彙表

這份文件提供 Cloud TPU 服務常見錯誤的解決方法。


加速器類型無效

錯誤訊息

generic::invalid_argument: Accelerator type v2-512 as preemptible (false) and
reserved (false) is not available in zone us-central1-a, please contact support.

解決方案

您為建立指令提供的參數無效。區域中加速器的可用性取決於下列參數:類型、preemptible 旗標、spot 旗標和 reserved 旗標。如要變更 preemptiblespotreserved 標記,請在建立指令中加入或排除這些標記。

使用 reserved 標記建立的 TPU 會使用預留容量。加入 spotpreemptible 旗標,即可允許優先順序較高的 TPU 先占 TPU。如果未提供任何這些標記,TPU 將為隨選。啟用多個這類標記並非有效設定。詳情請參閱建立指令說明文件

如要瞭解各區域可用的加速器類型,請參閱 TPU 區域和可用區說明文件,或使用 accelerator-types list 指令查詢。將建立指令變更為使用其中一種加速器類型,然後再試一次。如果問題持續發生,請與支援團隊聯絡。

找不到網路

錯誤訊息

  Cloud TPU received a bad request. The field "Network" cannot be "NETWORK_NAME":
  requested resource not found

解決方案

找不到「網路」NETWORK_NAME。確認已建立並正確設定電視網。詳情請參閱「建立及管理虛擬私有雲網路」。

服務帳戶權限遭拒

錯誤訊息

  generic::permission_denied: Cloud TPU got permissions denied when trying to
  access the customer project. Make sure that the IAM account
  'service-[project number]@cloud-tpu.iam.gserviceaccount.com' has the 'Cloud
  TPU API Service Agent' role by following https://cloud.google.com/iam/docs/manage-access-service-accounts

解決方案

如果使用者嘗試在專案中建立或列出節點,但沒有 IAM 授權,就會發生這個錯誤。這個問題的可能原因,是 Cloud TPU API 服務帳戶沒有專案的必要角色。管理存取帳戶文件簡要說明如何管理存取權。按照「授予或撤銷單一角色」步驟,將「Cloud TPU API 服務代理人」角色授予帳戶「service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com」(請務必將 PROJECT_NUMBER 替換為您的專案編號,您可以在 Google Cloud 控制台的專案設定中找到該編號)。如要進一步瞭解服務代理,請參閱「服務代理說明文件」。

超過配額

錯誤訊息

You have reached XXXX limit. Please request an increase for the 'YYYY' quota for
Compute Engine API by following https://cloud.google.com/docs/quotas/view-manage#requesting_higher_quota.

解決方案

您的專案已達配額上限。如要進一步瞭解如何使用配額,請參閱 Cloud Quotas 說明文件。請勿與 TPU 配額混淆,後者控管 TPU Pod 的用量。

如要申請提高適當的限制,請按照「申請調整配額」一節的步驟操作。在配額頁面中,您可以搜尋這則訊息的「YYYY」部分所指定的配額。部分配額會依區域或服務劃分。錯誤訊息會指出需要增加哪一個值。

訊息中的「XXXX」和「YYYY」部分可能是下列其中一項:

  • HEALTH_CHECKS -「健康狀態檢查」配額
  • 防火牆 -「防火牆規則」配額
  • NETWORK_ENDPOINT_GROUPS - 這個區域的「網路端點群組」配額
  • READ_REQUESTS - Compute Engine API 服務的「每分鐘讀取要求數」配額
  • OPERATION_READ_REQUESTS -「每分鐘作業讀取要求數」配額

這項要求通常會在 2 到 3 個工作天內處理完畢。如果要求緊急,請與客戶工程師或客戶技術顧問聯絡。

嚴重錯誤

錯誤訊息

!!!! FATAL ERROR !!!! observed errors are: [ERROR_TYPE]. Now taking a TPU core dump...

解決方案

這項錯誤表示 TPU 節點發生重大問題。訊息中的錯誤類型 ([ERROR_TYPE]) 會指定錯誤的性質。建議採取的行動取決於觀察到的錯誤:

HARDWARE

  • 原因:TPU、記憶體 (HBM) 或主體機器發生硬體問題。例如無法修正的記憶體錯誤 (ECC HBM) 或內部連結品質問題。常見的硬體問題包括:v6e ECC HBM 錯誤、v6e 執行階段 Intra Link Quality 錯誤,以及 v5e ECC HBM 錯誤。
  • 解決方法: Google Cloud 通常會自動偵測並解決這類問題,但硬體錯誤通常不是暫時性的。如果同一 TPU 節點多次發生這項錯誤,請與Google Cloud 支援團隊聯絡。如果您預訂的是「所有容量模式」,請考慮回報並更換節點。

USER

  • 原因:程式碼或設定發生問題,可能與記憶體管理、API 使用方式有誤,或機器學習工作負載的其他方面有關。
  • 解決方案:檢查機器學習程式碼和工作設定,找出潛在錯誤或資源問題。請重試工作負載。如果這個錯誤在同一個節點上持續發生,請聯絡Google Cloud 支援團隊。如果您預訂的是「所有容量模式」,請考慮回報並更換節點。

POWER

  • 原因:TPU 硬體或韌體發生電源相關問題。
  • 解決方法: Google Cloud 會自動處理這個問題,您無須採取任何行動。請重試工作負載,如果問題仍未解決,請與Google Cloud 支援團隊聯絡。

NETWORK

  • 原因:TPU 系統內的網路相關問題。這類問題可能是暫時性異常,也可能是晶片間互連 (ICI) 連結的持續性問題。
  • 解決方案: Google Cloud 自動嘗試解決硬體相關的網路問題。由於部分網路相關問題是暫時性的,請重試工作負載。如果問題持續發生在不同節點,或是在重新建立節點後仍未解決,請與Google Cloud 支援團隊聯絡。如果您預訂的是「所有容量模式」,請考慮回報並更換節點。