使用範本提交 Spark 工作
本頁說明如何使用 Google APIs Explorer 範本,在現有的 Dataproc 叢集上執行簡單的 Spark 工作。
如要瞭解將工作提交至 Dataproc 叢集的其他方法,請參閱:
事前準備
開始執行 Dataproc 工作之前,您需要先建立要用來執行工作的虛擬機器 (VM) 叢集。建立叢集可以使用 APIs Explorer、Google Cloud 控制台、gcloud CLI gcloud 指令列工具,或使用 Cloud 用戶端程式庫的快速入門導覽課程。提交工作
如要提交計算 pi 粗略值的範例 Apache Spark 工作,請填寫並執行 Google APIs Explorer 的「Try this API」範本。
要求參數:
要求主體:
- job.placement.clusterName:工作執行的叢集名稱 (確認或替換「example-cluster」)。
- job.sparkJob.args:「1000」,工作任務數量。
- job.sparkJob.jarFileUris:「file:///usr/lib/spark/examples/jars/spark-examples.jar」。這是 Dataproc 叢集主節點上的本機檔案路徑,其中安裝了包含 Spark Scala 工作程式碼的 JAR。
- job.sparkJob.mainClass:「org.apache.spark.examples.SparkPi」。這是工作 pi 計算 Scala 應用程式的主要方法。
點選「EXECUTE」(執行)。首次執行 API 範本時,系統可能會要求您選擇並登入 Google 帳戶,然後授權 Google APIs Explorer 存取您的帳戶。如果要求成功,JSON 回應會顯示工作提交要求待處理。
如要查看工作輸出內容,請在 Google Cloud 控制台中開啟「Dataproc Jobs」(Dataproc 工作) 頁面,然後按一下最上方 (最新) 的工作 ID。按一下「LINE WRAP」(換行) 設為「ON」(開啟),即可將超過右側邊緣的部分移到下一行。
... Pi is roughly 3.141804711418047 ...
清除所用資源
為了避免系統向您的 Google Cloud 帳戶收取本頁面所用資源的費用,請按照下列步驟操作。
- 如果您不需要叢集來探索其他快速入門導覽課程或執行其他工作,請使用 APIs Explorer、Google Cloud 主控台、gcloud CLI gcloud 指令列工具或 Cloud 用戶端程式庫刪除叢集。
後續步驟
- 瞭解如何使用範本更新 Dataproc 叢集。