Serverless for Apache Spark – Übersicht

Google Cloud Mit Serverless for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Dataproc-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Serverless for Apache Spark-Arbeitslasten auszuführen: Batcharbeitslasten und interaktive Sitzungen.

Batcharbeitslasten

Senden Sie eine Batcharbeitslast an den Serverless for Apache Spark-Dienst über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverless for Apache Spark-Gebühren fallen nur für die Zeit an, in der die Arbeitslast ausgeführt wird.

Funktionen für Batcharbeitslasten

Sie können die folgenden Serverless for Apache Spark-Batcharbeitslasttypen ausführen:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java oder Scala)

Sie können Spark-Eigenschaften angeben, wenn Sie eine Serverless for Apache Spark-Batcharbeitslast senden.

Batcharbeitslasten planen

Sie können eine Spark-Batcharbeitslast als Teil eines Airflow oder Cloud Composer Workflows mit einem Airflow-Batchoperator planen. Weitere Informationen finden Sie unter Serverless for Apache Spark-Arbeitslasten mit Cloud Composer ausführen.

Jetzt starten

Informationen zu den ersten Schritten finden Sie unter Apache Spark-Batcharbeitslast ausführen.

Interaktive Sitzungen

Sie können während einer interaktiven Serverless for Apache Spark -Sitzung Code in Jupyter-Notebooks schreiben und ausführen. So erstellen Sie eine Notebook-Sitzung:

  • Führen Sie PySpark-Code in BigQuery Studio-Notebooks aus. Öffnen Sie ein BigQuery-Python-Notebook, um eine auf Spark Connect basierende interaktive Serverless for Apache Spark-Sitzung zu erstellen. Jedem BigQuery Notebook kann nur eine aktive Serverless for Apache Spark-Sitzung zugeordnet sein.

  • Mit dem Dataproc JupyterLab-Plug-in können Sie mehrere Jupyter-Notebook-Sitzungen aus Vorlagen erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Serverless for Apache Spark Notebook-Sitzung zu erstellen. Anschließend können Sie Ihren Code im Notebook schreiben und testen.

    Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Startseite verwenden, um die folgenden Aktionen auszuführen:

    • Dataproc in Compute Engine-Cluster erstellen
    • Jobs an Dataproc in Compute Engine-Cluster senden
    • Spark-Logs ansehen Google Cloud

Sicherheitscompliance

Serverless for Apache Spark erfüllt alle Anforderungen an den Datenstandort, CMEK, VPC-SC, und andere Sicherheitsanforderungen, die Dataproc erfüllt.