Managed Service for Apache Spark 無伺服器部署作業總覽

透過 Managed Service for Apache Spark 無伺服器部署,您可以執行 Spark 工作負載,不必佈建及管理自己的 Managed Service for Apache Spark 叢集。執行 Managed Service for Apache Spark 工作負載的方法有兩種:批次工作負載和互動式工作階段。

批次工作負載

使用Google Cloud 控制台、Google Cloud CLI 或 REST API 提交批次工作負載。Managed Service for Apache Spark 會在代管運算基礎架構中執行工作負載,並視需要自動調度資源。費用只會計入工作負載的執行時間。

批次工作負載功能

您可以執行下列批次工作負載類型:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java 或 Scala)

提交批次工作負載時,您可以指定 Spark 屬性

排定批次工作負載

您可以透過 Airflow 批次運算子,在 AirflowCloud Composer 工作流程中排定 Spark 批次工作負載。詳情請參閱「使用 Cloud Composer 執行 Managed Service for Apache Spark 工作負載」。

開始使用

如要開始使用,請參閱「執行 Apache Spark 批次工作負載」一文。

互動工作階段

在互動式工作階段中,於 Jupyter 筆記本中編寫及執行程式碼。你可以透過下列方式建立筆記本工作階段:

  • 在 BigQuery Studio 筆記本中執行 PySpark 程式碼。 開啟 BigQuery Python 筆記本,建立以 Spark Connect 為基礎的 Managed Service for Apache Spark 互動式工作階段。每個 BigQuery 筆記本只能有一個與其相關聯的有效 Managed Service for Apache Spark 工作階段。

  • 使用 JupyterLab 外掛程式,從您建立及管理的範本建立多個 Jupyter 筆記本工作階段。在本機或 Compute Engine VM 上安裝外掛程式後,JupyterLab 啟動器頁面會顯示對應不同 Spark 核心設定的卡片。按一下資訊卡建立 Managed Service for Apache Spark 筆記本工作階段,然後在筆記本中編寫及測試程式碼。

    您也可以使用 JupyterLab 外掛程式,透過 JupyterLab 啟動器頁面執行下列動作:

    • 建立 Managed Service for Apache Spark 叢集。
    • 將工作提交至叢集。
    • 查看 Google Cloud 和 Spark 記錄檔。

安全性法規遵循

Managed Service for Apache Spark 遵守所有資料駐留CMEKVPC-SC, 以及 Managed Service for Apache Spark 遵循的其他安全防護規定。