本頁面說明疑難排解步驟,解決您在 Gemini Enterprise Agent Platform 上使用機器學習服務時可能遇到的問題。
如要篩選這個頁面的內容,請按一下主題:
透過 Cloud Assist 調查功能排解問題
將 Agent Platform 與其他 Google Cloud 產品連結時,您可能會發現 Cloud Assist Investigations 有助於排解複雜的整合問題。
- 啟用及設定 Cloud Assist Investigations API。
- 判斷工作負載名稱所依附的產品是否出現在支援產品清單中
- 建立調查並詳細說明症狀。請務必提及管道所依附的任何資源。
- 輸入時,對話方塊會建議要新增至調查的資源。請先查看這份清單,並新增所有相關資源,再執行調查。
AutoML 模型
本節說明疑難排解步驟,解決您使用 AutoML 時可能遇到的問題。
測試集、驗證集或訓練集中缺少標籤
問題
訓練 AutoML 分類模型時,如果使用預設資料分割方式,Agent Platform 可能會將某個類別的執行個體分配到特定集合 (測試、驗證或訓練) 的數量過少,導致訓練期間發生錯誤。如果類別不平衡或訓練資料量較少,就更容易發生這個問題。
解決方案
如要解決這個問題,請新增更多訓練資料、手動分割資料,為每個資料集指派足夠的類別,或是從資料集中移除較少出現的標籤。詳情請參閱「AutoML 模型資料分割作業簡介」。
Vertex AI Studio
使用 Vertex AI Studio 時,您可能會收到下列錯誤訊息:
嘗試調整模型時會傳回 Internal error encountered
問題
嘗試微調模型時發生 Internal error encountered 錯誤。
解決方案
執行下列 curl 指令,建立空白的 Gemini Enterprise Agent Platform 資料集。 請務必在指令中設定專案 ID。
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
指令完成後,請等待五分鐘,然後再次嘗試調整模型。
錯誤代碼:429
問題
您會遇到下列錯誤:
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
解決方案
請稍後再試,並使用退避演算法。如果錯誤持續發生,請與 Gemini Enterprise Agent Platform 支援團隊聯絡。
錯誤代碼:410
問題
您會遇到下列錯誤:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
解決方案
詳情請參閱「驗證總覽」。
錯誤代碼:403
問題
您會遇到下列錯誤:
403: Permission denied.
解決方案
確認存取 API 的帳戶具備適當權限。
Agent Platform Pipelines
本節說明疑難排解步驟,解決您使用 Agent Platform Pipelines 時可能遇到的問題。
您沒有以服務帳戶身分進行操作的權限
問題
執行 Gemini Enterprise Agent Platform Pipelines 工作流程時,可能會遇到以下錯誤訊息:
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
解決方案
這項錯誤表示執行工作流程的服務帳戶無法存取所需資源。
如要解決這個問題,請授予使用者服務帳戶的 iam.serviceAccounts.actAs 權限。
錯誤:Gemini Enterprise Agent Platform Pipelines 元件中的 Python 套件雜湊不符
問題
執行 Gemini Enterprise Agent Platform Pipelines 工作流程時,可能會遇到下列錯誤:
ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.
這是因為 Gemini Enterprise Agent Platform Pipelines 元件基本映像檔中的 Python 程式庫,與管線嘗試安裝的程式庫發生版本衝突。
解決方案
將這則訊息中列出的所有依附元件建構到 Gemini Enterprise Agent Platform Pipelines 元件使用的映像檔中。
錯誤 Internal error happened
問題
如果管道失敗並顯示 Internal error happened 訊息,請檢查 Logs Explorer,並搜尋管道名稱。您可能會看到類似下列內容的錯誤:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
這表示 Agent Platform 的 VPC 對等互連包含已刪除的 IP 範圍。
解決方案
如要解決這個問題,請使用 update 指令更新虛擬私有雲對等互連,並加入有效的 IP 範圍。
提供的 OAuth 範圍或 ID 權杖目標對象無效
問題
執行 Gemini Enterprise Agent Platform Pipelines 工作流程時,您會看到下列錯誤訊息:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
解決方案
這表示您未在其中一個管道元件中提供憑證,或未使用 ai_platform.init() 設定憑證。
如要解決這個問題,請為相關管道元件設定憑證,或設定環境憑證,並在程式碼開頭使用 ai_platform.init()。
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
Agent Platform Pipelines 元件需要的磁碟空間超過 100 GB
問題
分配給 Agent Platform Pipelines 元件的預設磁碟空間為 100 GB,且不支援增加磁碟空間。如要瞭解這個問題,請參閱公開 Issue Tracker。
解決方案
如要讓元件使用超過 100 GB 的磁碟空間,請使用元件方法將元件轉換為自訂工作。使用這個運算子,您可以指派元件使用的機型和磁碟大小。
如需如何使用這個運算子的範例,請參閱「將元件轉換為 Agent Platform 自訂工作」一節中的「Agent Platform Pipelines:使用預先建構的 Pipeline 元件進行自訂訓練 Google Cloud 」。
Agent Platform 網路問題
本節說明 Agent Platform 網路問題的疑難排解步驟,或許有所助益。
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
為 Gemini Enterprise Agent Platform 使用私用公開 IP 範圍時,工作負載無法存取虛擬私有雲網路中的端點
問題
預設不會匯入私人使用的公開 IP 範圍。
解決方案
如要使用私人使用的公開 IP 範圍,您必須啟用私人使用的公開 IP 範圍匯入功能
com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project
問題
執行工作負載或部署端點時,您會收到 com.google.api.tenant.error.TenantManagerException:
Reserved range: nnn not found for consumer project 形式的錯誤。
當您變更工作負載的私人服務連線預留項目時,就會發生這種情況。刪除的範圍可能未透過 Agent Platform API 註冊。
解決方案
更新私人服務連線存取權分配後,請執行 gcloud services vpc-peerings update
for servicenetworking。
管道或作業無法存取對等互連虛擬私有雲網路中的端點
問題
Gemini Enterprise Agent Platform 管道嘗試連線至虛擬私有雲網路中的資源時,會發生逾時問題。
解決方案
請嘗試下列方法解決問題:
- 請確認您已完成「設定虛擬私有雲網路對等互連」中的所有步驟。
檢查對等互連虛擬私有雲網路的設定。請確保網路在作業執行期間,從正確的服務網路範圍匯入路徑。
請確認您有防火牆規則,允許從這個範圍連線至網路中的目標。
如果對等互連連線在工作執行期間未匯入任何路徑,表示系統未使用服務網路設定。這可能是因為您使用預設網路以外的網路完成對等互連設定。如果是這種情況,請務必在啟動工作時指定網路。請使用下列格式的完整網路名稱:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME。詳情請參閱「路徑總覽」。
管道或作業無法存取網路以外的其他網路端點
問題
您的管道或工作無法存取網路以外的網路端點。
解決方案
根據預設,對等互連設定只會將路徑匯出至 VPC 中的本機子網路。
此外,系統不支援遞移對等互連,只有直接對等互連網路可以通訊。
- 如要允許 Gemini Enterprise Agent Platform 透過您的網路連線,並連上其他網路中的端點,您必須將網路路徑匯出至對等互連連線。編輯對等互連虛擬私有雲網路的設定,並啟用
Export custom routes。
前往「VPC Network Peering」(虛擬私有雲網路對等互連)
由於系統不支援遞移對等互連,即使啟用 Export Custom Routes,Gemini Enterprise Agent Platform 也不會學習其他對等互連網路和服務的路徑。如需解決方法,請參閱「擴展 Agent Platform Pipelines 的網路可連線範圍」。
No route to host,且 Google Cloud 控制台中沒有明顯的轉送設定衝突
問題
您在 Google Cloud 控制台中看到的路由,僅限於您自己的 VPC 所知的路由,以及完成 VPC 網路對等互連設定時保留的範圍。
在極少數情況下,Gemini Enterprise Agent Platform 工作可能會在嘗試連線至 VPC 匯出至 Gemini Enterprise Agent Platform 網路的 IP 位址時,擲回no route to host抱怨
。
這可能是因為 Gemini Enterprise Agent Platform 工作是在受管理 GKE 叢集的網路命名空間中執行,而該叢集的 IP 範圍與目標 IP 衝突。如需進一步討論,請參閱 GKE 網路基礎知識。
在這些情況下,工作負載會嘗試連線至自身網路命名空間內的 IP,如果無法連線,就會擲回錯誤。
解決方案
設計工作負載,傳回本機命名空間 IP 位址,並確認這不會與您透過對等互連連線匯出的任何路徑衝突。如有衝突,請在工作參數中傳遞 reservedIpRanges[] 清單,該清單不得與虛擬私有雲網路中的任何範圍重疊。這項工作會使用這些範圍做為工作負載的內部 IP 位址。
RANGES_EXHAUSTED、RANGES_NOT_RESERVED
問題
RANGES_EXHAUSTED、RANGES_NOT_RESERVED 和 RANGES_DELETED_LATER 形式的錯誤表示底層的虛擬私有雲網路對等互連設定有問題。這些是網路錯誤,並非 Agent Platform 服務本身的錯誤。
解決方案
遇到 RANGES_EXHAUSTED 錯誤時,請先確認這項申訴是否有效。
前往 Cloud 控制台的「網路分析器」,並在虛擬私有雲網路中尋找「IP 位址分配摘要」形式的洞察資訊。如果這些指標顯示分配率已達或接近 100%,請採取下列其中一項行動:
- 為預留項目新增範圍或延長現有範圍。請注意,所有範圍都必須是連續的。
- 如果您有已分配但未使用的不連續 IP 範圍,請在其他區域啟動新的 Gemini Enterprise Agent Platform 工作負載。
此外,請考量可透過特定大小的預留項目執行的平行工作數量上限。
詳情請參閱「服務基礎架構驗證錯誤」。
如果錯誤持續發生,請與支援團隊聯絡。
Router status is temporarily unavailable
問題
啟動 Agent Platform Pipelines 時,您會收到類似以下的錯誤訊息:
Router status is temporarily unavailable. Please try again later
解決方案
錯誤訊息指出這是暫時性狀況。請嘗試再次啟動 Agent Platform Pipelines。
如果錯誤持續發生,請與支援團隊聯絡。
工作負載無法解析虛擬私有雲中 DNS 網域的主機名稱
問題
Gemini Enterprise Agent Platform 工作負載無法連線至虛擬私有雲中設定的主機名稱。您已確認這些主機名稱可從虛擬私有雲內的用戶端存取。
這是因為工作負載是在 Google 管理的專案中執行。如要使用任何網路資源,這個管理環境中的 VPC 必須與您的 VPC 對接。此外,這些工作負載需要存取的任何 DNS 區域,都必須與 Google 管理的 VPC 共用。
解決方案
- 請確認您已在虛擬私有雲網路中設定 Gemini Enterprise Agent Platform 的虛擬私有雲網路對等互連。
完成相關步驟,與 Gemini Enterprise Agent Platform 生產者網路共用私人 DNS 區域。請注意,這項程序取決於您的用途:
請務必使用
--network旗標啟動 Gemini Enterprise Agent Platform 工作負載,指定虛擬私有雲網路。這樣一來,工作負載就能在 Google 管理的網路中執行,並存取您共用的 DNS 區域。在 DNS 伺服器政策中啟用 DNS 記錄,重現問題,然後執行另一項測試。如果工作負載的 DNS 回應成功,
resource.type="dns_query"的 Cloud Logging 篩選器會顯示此表單的項目;"resource": { "type": "dns_query", "labels": { "location": REGION, "project_id": PROJECT_ID, "source_type": "peering-zone", "target_name": "QUERY_TARGET, "target_type": "forwarding-zone" } }確認相同子網路中執行個體的 DNS 查詢,可以使用您的 DNS 伺服器解析主機名稱。
如果 DNS 伺服器不在 Google Cloud中,請確保遠端防火牆規則允許來自
35.199.192.0/19的連線。從測試執行個體對 DNS 伺服器的 IP 位址和通訊埠
53/UDP執行連線測試。舉例來說,如果路徑導向轉送規則,請確認下列事項:- 如果是區域轉送規則,則必須與用戶端位於相同區域。
- 它會接受
53/UDP的連線,並將連線轉送至正確的 DNS 伺服器。
用戶端行為導致連線問題
如果嘗試使用 API 時發生連線問題,根本原因可能在於用戶端。 Google Cloud本節提供用戶端解決方案建議,可協助您提升體驗。
連線重設和捨棄的封包
問題
嘗試使用 Google Cloud API 時,連線會重設,封包也會遺失。
解決方案
如要解決這個問題,請考慮下列事項:
- 如果交易流量很大,且延遲時間必須很短,請考慮是否因內部部署用戶端的線路卡有已知問題,而導致 TCP 連線重設或封包遺失。
- 請考慮要求路徑中的任何用戶端服務是否使用 iptables,包括 Kubernetes 叢集,或某些具狀態的防火牆和 NAT 裝置。根據預設,Linux 連線追蹤 (conntrack) 子系統會嚴格遵守 TCP 通訊協定規格,並捨棄順序錯誤的 TCP 封包。如要關閉這項行為,請開啟 Linux 核心參數
net.netfilter.nf_conntrack_tcp_be_liberal或其對等項目。
連線不完整
問題
嘗試使用 Google Cloud API 時,連線不完整。
解決方案
如要解決這個問題,請考慮下列事項:
- 如果轉送路徑有多條返回用戶端的路徑,請務必瞭解反向路徑轉送的概念。如果懷疑這項行為會封鎖連線,請關閉這項功能。
- 如果是負載平衡連線,請確認傳入防火牆規則是否允許回應封包傳送至兩個負載平衡器。
其他非 API 連線問題
如要解決非 API 連線問題,請考慮下列事項:
- 如果要求路徑中有任何 Proxy,請考慮是否會導致您遇到的問題。請參閱說明文件,並在遇到不明延遲、連線中斷、DNS 覆寫、跨來源封鎖和其他類似問題時,務必排解 Proxy 問題。
- 特別是在處理 Google Cloud API 的
429回應時,如果用戶端邏輯立即重試連線,可能會使問題更加嚴重。請務必瞭解並導入指數輪詢,再實作重試。
Agent Platform 推論
本節說明疑難排解步驟,解決您使用 Agent Platform 推論時可能遇到的問題。
超出批次配額錯誤
問題
執行批次推論工作時,您會收到類似下列內容的錯誤。
Quota exhausted. Please reach out to ai-platform-unified-feedback@google.com for
batch prediction quota increase.
Gemini Enterprise Agent Platform 批次預測工作會耗用批次預測租戶專案的配額。如要進一步瞭解如何要求增加配額,請參閱「Gemini Enterprise Agent Platform 配額與限制」。
超過重試次數上限錯誤
問題
執行批次推論工作時,您會收到下列錯誤訊息,表示執行自訂模型的機器可能無法在時限內完成推論。
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
當 Agent Platform 推論服務向 Google Front End 服務註冊時,可能會發生這種情況,因為該服務會將用戶端連線代理至 Agent Platform 推論 API。
如果 Google Front End 服務在 10 分鐘內未收到 API 回應,就會使連線逾時,並向用戶端傳回 500 HTTP 回應代碼。
解決方案
如要解決這個問題,請嘗試下列任一做法:
- 增加運算節點,或變更機型。
- 設計推論容器,定期傳送 102 HTTP 回應碼。這會重設 Google Front End 服務的 10 分鐘計時器。
專案已連結至 VPC
問題
部署端點時,您可能會看到類似下列的錯誤訊息,表示 Agent Platform 端點先前使用過虛擬私有雲網路,但資源未適當清除。
Currently only one VPC network per user project is supported. Your project is
already linked to
"projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Agent Platform deployment
resources, delete all endpoint resources, and then retry creating resources in
30 mins.
解決方案
如要解決這個問題,請嘗試在 Cloud Shell 中執行這項指令。
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
手動將舊的虛擬私有雲網路與 Service Networking VPC 中斷連線。
部署失敗或端點遭到刪除
問題
模型部署作業意外失敗、系統發現端點已遭刪除,或是先前部署的模型已取消部署。
您的帳單帳戶可能無效。如果長期處於無效狀態,與該帳戶相關聯的專案中的某些資源可能會遭到移除。舉例來說,端點和模型可能會遭到刪除。遭移除的資源無法復原。
解決方案
如要解決這個問題,請嘗試下列做法:
- 確認專案的帳單狀態。
- 如要申請協助處理帳單問題,請與 Cloud Billing 支援團隊聯絡。
詳情請參閱帳單問題。
Agent Platform 自訂服務帳戶問題
本節說明服務帳戶問題的實用疑難排解步驟。
模型部署失敗,並顯示服務帳戶 serviceAccountAdmin 錯誤
問題
模型部署作業失敗,並顯示下列錯誤訊息:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
解決方案
這項錯誤表示自訂服務帳戶可能未正確設定。如要建立具備正確 IAM 權限的自訂服務帳戶,請參閱「使用自訂服務帳戶」。
使用自訂服務帳戶時,無法擷取身分識別權杖
問題
使用自訂服務帳戶時,在單一副本上執行的訓練工作無法連線至 Compute Engine 中繼資料服務,因此無法擷取權杖。
您會看到類似以下的錯誤訊息:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
解決方案
如要使用自訂服務帳戶擷取身分識別權杖,請使用 iamcredentials.googleapis.com。
自訂訓練模型
本節說明實用的疑難排解步驟,解決您在使用自訂訓練模型時遇到的問題。
自訂訓練問題
自訂訓練期間可能會發生下列問題。這些問題適用於 CustomJob 和 HyperparameterTuningJob 資源,包括由 TrainingPipeline 資源建立的資源。
錯誤代碼:400
問題
您會遇到下列錯誤:
400 Machine type MACHINE_TYPE is not supported.
如果所選機型不支援 Gemini Enterprise Agent Platform 訓練,或所選區域沒有特定資源,您可能會看到這則錯誤訊息。
解決方案
副本結束,傳回非零狀態碼
問題
在分散式訓練期間,任何工作者發生錯誤都會導致訓練失敗。
解決方案
如要檢查 Worker 的堆疊追蹤記錄,請在Google Cloud 控制台中查看自訂訓練記錄。
請查看其他疑難排解主題,修正常見錯誤,然後建立新的 CustomJob、HyperparameterTuningJob 或 TrainingPipeline 資源。在許多情況下,錯誤代碼是由訓練程式碼中的問題所致,而非 Agent Platform 服務。如要判斷是否為這種情況,您可以在本機或 Compute Engine 上執行訓練程式碼。
副本記憶體不足
問題
如果訓練虛擬機器 (VM) 執行個體在訓練期間記憶體不足,可能會發生錯誤。
解決方案
您可以在 Google Cloud 控制台中查看訓練 VM 的記憶體用量。
即使發生這項錯誤,VM 上的記憶體用量可能也不會達到 100%,因為 VM 上執行的服務 (訓練應用程式除外) 也會消耗資源。對於記憶體較少的機器類型,其他服務可能會耗用相對較高的記憶體百分比。舉例來說,在 n1-standard-4 VM 上,服務最多可消耗 40% 的記憶體。
您可以最佳化訓練應用程式的記憶體用量,也可以選擇記憶體較大的機型。
區域資源不足
問題
你在某個區域遇到缺貨問題。
解決方案
Agent Platform 會使用 Compute Engine 資源訓練模型。如果 Compute Engine 在某個區域的特定 CPU 或 GPU 達到容量上限,Agent Platform 就無法排定工作負載。這個問題與專案配額無關。
達到 Compute Engine 容量上限時,Agent Platform 會自動重試 CustomJob 或 HyperparameterTuningJob 最多三次。如果所有重試都失敗,工作就會失敗。
缺貨通常發生在使用 GPU 時。如果使用 GPU 時發生這項錯誤,請嘗試切換至其他 GPU 類型。如果可以,請嘗試在其他地區訓練模型。
存取其他 Google Cloud 服務時發生權限錯誤
如果從訓練程式碼存取其他 Google Cloud服務時發生權限錯誤 (例如:google.api_core.exceptions.PermissionDenied: 403),則可能發生下列其中一個問題:
-
問題
執行程式碼的服務代理程式或服務帳戶 (專案的 Gemini Enterprise Agent Platform Custom Code Service Agent 或自訂服務帳戶) 沒有必要權限。
解決方案
瞭解如何授予 Gemini Enterprise Agent Platform Custom Code Service Agent 權限,或設定具備必要權限的自訂服務帳戶。
-
問題
執行程式碼的服務代理或服務帳戶確實具備必要權限,但程式碼嘗試存取錯誤專案中的資源。如果錯誤訊息參照的專案 ID 結尾為
-tp,就特別有可能發生這個問題。解決方案
由於 Agent Platform 執行訓練程式碼的方式,如果您未在程式碼中明確指定專案 ID 或專案編號,就可能不慎發生這個問題。
如要瞭解如何修正這個問題,請指定專案 ID 或專案編號。
-
問題
Vertex AI Training 工作可順利使用本機資料執行,但無法使用 Cloud Storage 中的資料。
解決方案
為專案的 Gemini Enterprise Agent Platform Custom Code Service Agent 角色新增
storage.buckets.create權限。瞭解如何為 Agent Platform 的服務代理程式新增特定角色,修正這個問題。
使用 Cloud Storage FUSE 時發生效能問題
問題
Cloud Storage FUSE 工作執行速度緩慢。
解決方案
請參閱「將 Cloud Storage 做為掛接的檔案系統」一文中的「效能最佳化指南」。
搭配 VPC Service Controls 使用 KFP 時,pip install 會失敗
問題
您會看到下列錯誤:
ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10>, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/
解決方案
VPC Service Controls 服務範圍會封鎖從 Agent Platform 存取網際網路上第三方 API 和服務的行為。如要安裝套件,請使用 packageUris 從 Cloud Storage 值區安裝依附元件。如要一般討論使用這項技術,請參閱「VPC Service Controls with Agent Platform」中的「Use custom containers」。
發生內部錯誤
問題
系統發生錯誤,因此訓練失敗。
解決方案
問題可能只是暫時性,請嘗試重新提交 CustomJob、HyperparameterTuningJob 或 TrainingPipeline。如果錯誤持續發生,請與支援團隊聯絡。
使用自訂容器映像檔時發生錯誤代碼 500
問題
記錄中顯示 500 錯誤。
解決方案
這類錯誤可能是自訂容器映像檔的問題,而非 Agent Platform 錯誤。
部署至端點時,服務帳戶無法存取 Cloud Storage 值區
問題
嘗試將模型部署至端點時,如果服務帳戶沒有相關 Cloud Storage 值區的 storage.objects.list 存取權,可能會看到下列錯誤訊息:
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
根據預設,部署模型的自訂容器會使用無法存取 Cloud Storage 值區的服務帳戶。
解決方案
如要解決這個問題,請嘗試下列任一做法:
上傳模型時,請將您要從容器存取的檔案複製到模型構件。Gemini Enterprise Agent Platform 會將模型複製到預設服務帳戶可存取的位置,與所有其他模型構件類似。
在容器建構程序中,將檔案複製到容器。
指定自訂服務帳戶。
Agent Platform 類神經架構搜尋
已知問題
- 取消 NAS 工作後,主要工作 (父項) 會停止,但部分子項試驗仍會顯示「執行中」狀態。請忽略顯示「執行中」的子項試用狀態。試驗已停止,但 UI 仍顯示「執行中」狀態。只要主要工作停止,就不會產生額外費用。
- 在訓練師中回報獎勵後,請等待 (休眠) 10 分鐘,再結束試用工作。
使用 Cloud Shell 執行
TensorBoard時,產生的輸出連結可能無法運作。在這種情況下,請記下通訊埠號碼,使用「網頁預覽」工具,然後選取正確的通訊埠號碼來顯示繪圖。存取
Web Preview工具:
如果訓練記錄中顯示類似下列內容的錯誤訊息:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]使用 RAM 較多的機器,因為 OOM 狀況會導致這個錯誤。
如果自訂訓練程式找不到工作目錄
job-dirFLAG,請匯入job_dir,並使用底線而非連字號。教學課程 1 中的附註說明瞭這一點。訓練期間發生 NaN 錯誤 訓練工作可能會發生 NaN 錯誤,例如
NaN : Tensor had NaN values。建議架構的學習率可能過高。詳情請參閱「記憶體不足 (OOM) 和學習率相關錯誤」。訓練期間發生 OOM 錯誤 訓練工作可能發生 OOM (記憶體不足) 錯誤。 批量可能超過加速器記憶體容量。詳情請參閱「記憶體不足 (OOM) 和學習率相關錯誤」。
Proxy-task model selection controller job dies 在極少數情況下,proxy-task model selection controller job 會終止,您可以按照這些步驟繼續執行工作。
Proxy-task search controller job dies 在極少數情況下,proxy-task search controller job 會終止, 您可以按照這些步驟繼續執行工作。
服務帳戶沒有存取 Artifact Registry 或值區的權限。 如果收到類似
Agent Platform Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas的錯誤訊息,或是值區存取權的類似錯誤訊息,請在專案中授予這個服務帳戶儲存空間編輯者角色。
Vertex AI 特徵儲存庫
本節說明實用的疑難排解步驟,協助您解決 Vertex AI 特徵儲存庫的問題。
傳送串流擷取或線上提供要求時發生 Resource not found 錯誤
問題
設定特徵商店、實體類型或特徵資源後,這些資源會延遲一段時間,才會傳播至 FeaturestoreOnlineServingService 服務。有時,如果您在建立資源後立即提交串流擷取或線上放送要求,這種延遲傳播可能會導致 resource not found 錯誤。
解決方案
如果收到這項錯誤訊息,請稍候幾分鐘,然後再次提出要求。
新建立的特徵批次擷取作業成功,但線上服務要求傳回空值
問題
如果是新建立的功能,系統會延遲一段時間,才會將這些功能傳播至 FeaturestoreOnlineServingService 服務。功能和值存在,但需要時間才能傳播。這可能會導致線上服務要求傳回空值。
解決方案
如果發現不一致,請稍候幾分鐘,然後再試一次線上放送要求。
線上提供節點的 CPU 使用率偏高
問題
線上提供節點的 CPU 使用率偏高。
解決方案
如要解決這個問題,您可以手動增加節點數量或啟用自動調整規模功能,藉此增加線上服務節點數量。請注意,即使啟用自動調整規模功能,Vertex AI 特徵儲存庫在新增或移除節點時,仍需要時間重新平衡資料。如要瞭解如何查看特徵值分布指標的變化趨勢,請參閱「查看特徵值指標」。
最繁忙的線上服務節點 CPU 使用率偏高
問題
如果最繁忙節點的 CPU 使用率偏高,您可以增加服務節點數量,或將實體存取模式變更為偽隨機。
解決方案
將實體存取模式設為偽隨機,可減少因頻繁存取位於特徵商店中彼此靠近的實體,而導致 CPU 使用率偏高的情況。如果這兩種解決方案都無效,請實作用戶端快取,避免重複存取相同實體。
QPS 偏低時,線上提供延遲時間較長
問題
如果 QPS 較低,一段時間的閒置或低活動量可能會導致部分伺服器端快取過期。當線上提供節點的流量以正常或較高的 QPS 恢復時,可能會導致高延遲。
解決方案
如要緩解這個問題,請傳送至少 5 QPS 的人為流量至特徵儲存庫,維持連線狀態。
批次擷取工作在六小時後失敗
問題
批次擷取工作可能會失敗,因為讀取工作階段會在六小時後過期。
解決方案
為避免逾時,請增加工作站數量,在六小時內完成擷取工作。
匯出特徵值時發生 Resource exceeded 錯誤
問題
如果匯出工作超過內部配額,匯出大量資料可能會失敗,並顯示資源超出上限的錯誤訊息。
解決方案
為避免發生這項錯誤,您可以設定時間範圍參數 start_time 和 end_time,一次處理較少的資料量。如要瞭解完整匯出功能,請參閱完整匯出。
Vertex AI Vizier
使用 Vertex AI Vizier 時,可能會遇到下列問題。
發生內部錯誤
問題
發生系統錯誤時,就會出現內部錯誤。
解決方案
這可能是暫時性錯誤。請嘗試重新傳送要求,如果錯誤持續發生,請與支援團隊聯絡。
使用服務帳戶角色搭配 Vertex AI 時發生權限錯誤
問題
使用服務帳戶角色搭配 Vertex AI 時,發生一般權限錯誤。
這些錯誤可能會出現在 Cloud Logging 的產品元件記錄或稽核記錄中,也可能出現在受影響專案的任何組合中。
這些問題可能是由下列一或多項原因所致:
使用
Service Account Token Creator角色,但應該使用Service Account User角色,反之亦然。這些角色會授予服務帳戶不同的權限,且無法互換。如要瞭解Service Account Token Creator和Service Account User角色之間的差異,請參閱服務帳戶角色。您已授予服務帳戶跨多個專案的權限, 這項操作預設不允許。
解決方案
如要解決這個問題,請嘗試下列一或多個方法:
判斷是否需要
Service Account Token Creator或Service Account User角色。如要瞭解詳情,請參閱您使用的 Vertex AI 服務,以及您使用的任何其他產品整合項目的身分與存取權管理說明文件。如果您已跨多個專案授予服務帳戶權限,請確保
iam.disableCrossProjectServiceAccountUsage,啟用跨專案附加服務帳戶。目前不會強制執行這項規則。如要確保系統不會強制執行iam.disableCrossProjectServiceAccountUsage,請執行下列指令:gcloud resource-manager org-policies disable-enforce \ iam.disableCrossProjectServiceAccountUsage \ --project=PROJECT_ID