診斷 Dataproc on GKE 叢集

Dataproc 提供 gcloud CLI dataproc 叢集診斷指令,協助您排解 Dataproc on GKE 叢集和工作問題。這項指令會收集叢集相關的設定檔、記錄和輸出內容並存為封存檔,然後將封存檔上傳至您建立 Dataproc on GKE 叢集時指定的 Cloud Storage 暫存 bucket。

診斷封存檔案

下表列出 dataproc clusters diagnose 指令封存檔案中包含的指標和其他資訊。

系統資訊

項目 封存位置
執行 Dataproc on GKE 虛擬 Pod 的 GKE 節點指標:
  • CPU 使用率
  • 記憶體用量
/system/NODE_NAME.json
執行中 Pod 的網路指標和檔案系統狀態:
  • CPU 使用率
  • 記憶體用量
  • 網路狀態
  • 檔案系統狀態
/system/POD_NAME.json

設定資訊

項目 封存位置
叢集 configmap /conf/configmap
Kubernetes Deployment /conf/deployment
角色式存取控管 (RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

記錄

項目 封存位置
代理記錄 /logs/agent.log
Spark 引擎記錄 /logs/sparkengine.log
過去 24 小時內執行的 Spark 驅動程式和完成的工作記錄 /logs/DRIVER_ID

工作和 Pod 資訊

項目 封存位置
JobAttempt 物件 /jobattempts
Kubernetes Pod 物件 /pods

後續步驟