Dataproc 是擴充性極高的全代管服務,可執行開放原始碼分散式處理平台,例如 Apache Hadoop、Apache Spark、Apache Flink 和 Trino。您可以使用下列章節討論的工具和檔案,調查、排解及監控 Dataproc 叢集和工作。
透過 Gemini Cloud Assist (預先發布版) 進行 AI 輔助調查
總覽
Gemini Cloud Assist Investigations 預先發布版功能會運用 Gemini 進階功能,協助建立及執行 Dataproc 叢集和作業。這項功能會分析失敗的叢集和失敗/執行緩慢的作業,找出根本原因並建議修正方式。這項功能會建立持續性分析,方便您查看、儲存及與支援團隊共用,以利協作並加快解決問題。 Google Cloud
功能
使用這項功能,從 Google Cloud 控制台建立調查:
- 建立調查前,請先為問題新增自然語言背景資訊說明。
- 分析失敗的叢集,以及執行緩慢和失敗的工作。
- 取得問題根本原因的深入分析資訊,以及建議的修正方式。
- 建立 Google Cloud 客服案件,並附上完整的調查背景資訊。
事前準備
如要開始使用調查功能,請在 Google Cloud 專案中啟用 Gemini Cloud Assist API。
建立調查
如要建立調查,請按照下列步驟操作:
前往 Google Cloud 控制台的「Cloud Assist Investigations」頁面。
按一下「建立」。
說明問題:提供叢集或工作問題的說明。
選取時間範圍:證明問題發生的時間範圍 (預設為 30 分鐘)。
選取資源:
- 按一下「新增資源」。
- 在「快速篩選條件」欄位中輸入「dataproc」,
然後選取一或多個
dataproc.Batch、dataproc.Job或dataproc.Cluster做為篩選條件。 - 選取清單中的批次、工作或叢集,進行調查。
- 在「快速篩選條件」欄位中輸入「dataproc」,
然後選取一或多個
- 按一下「新增資源」。
點選「建立」。
解讀調查結果
調查完成後,系統會開啟「調查詳細資料」頁面。 這個頁面包含完整的 Gemini 分析結果,並分為下列幾個部分:
- 問題:這個部分會自動填入正在調查的工作詳細資料,並以摺疊形式呈現。
- 相關觀察結果:這個可收合的部分會列出 Gemini 在分析記錄和指標時發現的重要資料點和異常狀況。
- 假設:這是主要部分,預設會展開。
並列出觀察到的問題可能根本原因。每個假設都包含:
- 總覽:可能原因的說明,例如「Shuffle 寫入時間過長,且可能出現工作偏斜」。
- 建議修正方式:可採取行動的步驟清單,用來解決潛在問題。
採取行動
查看假設和建議後,請按照下列步驟操作:
對工作設定或程式碼套用一或多項建議修正,然後重新執行工作。
按一下面板頂端的「喜歡」或「不喜歡」圖示,提供您對調查結果實用性的意見。
查看及提報調查
如要查看先前執行的調查結果,請在「Cloud Assist Investigations」(Cloud Assist 調查) 頁面點選調查名稱,開啟「Investigation details」(調查詳細資料) 頁面。
如需進一步協助,請建立 Google Cloud 支援案件。支援工程師可透過這項程序,取得先前調查的完整脈絡,包括 Gemini 生成的觀察結果和假設。這樣一來,您就不必與支援團隊來回溝通,案件也能更快獲得解決。
如要從調查建立支援案件,請按照下列步驟操作:
在「調查詳細資料」頁面中,按一下「要求支援」。
預覽狀態和價格
在公開預先發布期間,使用 Gemini Cloud Assist 調查功能不會產生任何費用。這項功能正式發布後,就會開始計費。
如要進一步瞭解正式發布後的定價,請參閱 Gemini Cloud Assist 定價。
開放原始碼網頁介面
許多 Dataproc 叢集開放原始碼元件 (例如 Apache Hadoop 和 Apache Spark) 都提供網路介面。這些介面可用於監控叢集資源和作業效能。舉例來說,您可以使用 YARN 資源管理員使用者介面,查看 Dataproc 叢集上的 YARN 應用程式資源分配情形。
永久記錄伺服器
叢集執行時,您可以使用在叢集上執行的開放原始碼網路介面,但刪除叢集時,這些介面也會終止。如要在刪除叢集後查看叢集和工作資料,可以建立永久記錄伺服器 (PHS)。
示例:您遇到想要分析的工作錯誤或速度變慢問題。您可以停止或刪除工作叢集,然後使用 PHS 查看及分析工作記錄資料。
建立 PHS 後,您可以在建立叢集或提交批次工作負載時,在 Dataproc 叢集或Google Cloud Serverless for Apache Spark 批次工作負載 中啟用 PHS。PHS 可存取在多個叢集上執行的工作記錄資料,讓您監控專案中的工作,不必監控在不同叢集上執行的個別 UI。
Dataproc 記錄
Dataproc 會收集叢集上執行的 Apache Hadoop、Spark、Hive、Zookeeper 和其他開放原始碼系統產生的記錄,並傳送至 Logging。這些記錄會依記錄來源分組,方便您選取及查看感興趣的記錄。舉例來說,叢集上產生的 YARN NodeManager 和 Spark Executor 記錄會分別標示。如要進一步瞭解 Dataproc 記錄內容和選項,請參閱「Dataproc 記錄」。
Cloud Logging
Logging 是全代管的即時記錄管理系統,可儲存從 Google Cloud 服務擷取的記錄,並提供工具,方便您大規模搜尋、篩選及分析記錄。Dataproc 叢集會產生多個記錄,包括 Dataproc 服務代理程式記錄、叢集啟動記錄,以及 OSS 元件記錄 (例如 YARN NodeManager 記錄)。
根據預設,Dataproc 叢集和 Serverless for Apache Spark 批次工作負載都會啟用記錄功能。記錄檔會定期匯出至 Cloud Logging,並在叢集刪除或工作負載完成後保留。
Dataproc 指標
Dataproc 叢集和工作指標 (以 dataproc.googleapis.com/ 為前置字元) 包含時間序列資料,可深入瞭解叢集效能,例如 CPU 使用率或工作狀態。Dataproc 自訂指標 (以 custom.googleapis.com/ 為前置字元) 包括叢集上執行的開放原始碼系統發出的指標,例如 YARN running applications 指標。深入瞭解 Dataproc 指標,有助於有效率地設定叢集。設定以指標為準的快訊,有助於您快速發現並解決問題。
系統預設會收集 Dataproc 叢集和工作指標,且不會收費。 系統會向客戶收取自訂指標的費用。建立叢集時,您可以啟用自訂指標的收集作業。系統預設會對 Spark 批次工作負載啟用 Serverless for Apache Spark Spark 指標的集合。
Cloud Monitoring
監控會使用叢集的中繼資料和指標 (包括 HDFS、YARN、工作和作業指標),提供 Dataproc 叢集和工作的健康狀態、效能和可用性資訊。您可以使用 Monitoring 探索指標、新增圖表、建立資訊主頁及建立快訊。
Metrics Explorer
您可以使用 Metrics Explorer 查看 Dataproc 指標。Dataproc 叢集、工作和 Serverless for Apache Spark 批次指標會列在 Cloud Dataproc Cluster、Cloud Dataproc Job 和 Cloud Dataproc Batch 資源下方。Dataproc 自訂指標會列在 VM Instances 資源的 Custom 類別下方。
圖表
您可以使用 Metrics Explorer 建立圖表,將 Dataproc 指標視覺化。
範例:您建立圖表,查看叢集上執行的有效 Yarn 應用程式數量,然後新增篩選器,依叢集名稱或區域選取要顯示的指標。
資訊主頁
您可以建構資訊主頁,使用多個專案和不同 Google Cloud 產品的指標監控 Dataproc 叢集和工作。您可以在 Google Cloud 主控台的「資訊主頁總覽」頁面中建立資訊主頁,方法是按一下「指標探索器」頁面中的圖表,然後建立並儲存圖表。
快訊
您可以建立 Dataproc 指標快訊,及時掌握叢集或工作問題。
後續步驟
- 瞭解如何排解 Dataproc 錯誤訊息。
- 瞭解如何查看 Dataproc 叢集診斷資料。
- 請參閱 Dataproc 常見問題。