Serverless for Apache Spark 總覽

Google Cloud 有了 Serverless for Apache Spark,就能執行 Spark 工作負載,不必佈建及管理自己的 Dataproc 叢集。您可以透過兩種方式執行 Serverless for Apache Spark 工作負載:批次工作負載和互動式工作階段。

批次工作負載

使用Google Cloud 控制台、Google Cloud CLI 或 Dataproc API,將批次工作負載提交至 Serverless for Apache Spark 服務。這項服務會在代管運算基礎架構中執行工作負載,並視需要自動調度資源。Serverless for Apache Spark 費用只會在工作負載執行時計費。

批次工作負載功能

您可以執行下列 Serverless for Apache Spark 批次工作負載類型:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java 或 Scala)

提交 Serverless for Apache Spark 批次工作負載時,您可以指定 Spark 屬性

排定批次工作負載

您可以透過 Airflow 批次運算子,在 AirflowCloud Composer 工作流程中排定 Spark 批次工作負載。詳情請參閱「使用 Cloud Composer 執行 Serverless for Apache Spark 工作負載」。

開始使用

如要開始使用,請參閱「執行 Apache Spark 批次工作負載」。

互動工作階段

在 Serverless for Apache Spark 互動式工作階段中,於 Jupyter 筆記本編寫及執行程式碼。您可以透過下列方式建立筆記本工作階段:

  • 在 BigQuery Studio 筆記本中執行 PySpark 程式碼。 開啟 BigQuery Python 筆記本,建立以 Spark Connect 為基礎的 Serverless for Apache Spark 互動式工作階段。每個 BigQuery 筆記本只能有一個與其相關聯的有效 Serverless for Apache Spark 工作階段。

  • 使用 Dataproc JupyterLab 外掛程式,從您建立及管理的範本建立多個 Jupyter 筆記本工作階段。在本機或 Compute Engine VM 上安裝外掛程式後,JupyterLab 啟動器頁面會顯示對應不同 Spark 核心設定的卡片。按一下卡片建立 Serverless for Apache Spark 筆記本工作階段,然後開始在筆記本中編寫及測試程式碼。

    您也可以使用 Dataproc JupyterLab 外掛程式,透過 JupyterLab 啟動器頁面執行下列動作:

    • 建立 Dataproc on Compute Engine 叢集。
    • 將工作提交至 Dataproc on Compute Engine 叢集。
    • 查看 Google Cloud 和 Spark 記錄檔。

安全性法規遵循

Serverless for Apache Spark 遵守 Dataproc 遵循的所有資料落地CMEKVPC-SC 和其他安全防護規定。