Serverless for Apache Spark – Übersicht

Google Cloud Mit Serverless for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Dataproc-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Serverless for Apache Spark-Arbeitslasten auszuführen: Batcharbeitslasten und interaktive Sitzungen.

Batcharbeitslasten

Senden Sie einen Batch-Arbeitslast an den Serverless for Apache Spark-Dienst über dieGoogle Cloud Console, die Google Cloud CLI oder die Dataproc API. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverless for Apache Spark-Gebühren fallen nur für den Zeitraum an, in dem die Arbeitslast ausgeführt wird.

Funktionen für Batcharbeitslasten

Sie können die folgenden Serverless for Apache Spark-Batcharbeitslasttypen ausführen:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java oder Scala)

Sie können Spark-Properties angeben, wenn Sie eine Serverless for Apache Spark-Batcharbeitslast senden.

Batcharbeitslasten planen

Sie können eine Spark-Batcharbeitslast als Teil eines Airflow- oder Cloud Composer-Workflows mit einem Airflow-Batchoperator planen. Weitere Informationen finden Sie unter Serverless for Apache Spark-Arbeitslasten mit Cloud Composer ausführen.

Jetzt starten

Weitere Informationen finden Sie unter Serverless for Apache Spark-Batcharbeitslast ausführen.

Interaktive Sitzungen

Sie können Code in Jupyter-Notebooks während einer interaktiven Serverless for Apache Spark-Sitzung schreiben und ausführen. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

  • PySpark-Code in BigQuery Studio-Notebooks ausführen Öffnen Sie ein BigQuery-Python-Notebook, um eine Spark-Connect-basierte interaktive Serverless for Apache Spark-Sitzung zu erstellen. Jedem BigQuery-Notebook kann nur eine aktive Serverless for Apache Spark-Sitzung zugeordnet sein.

  • Dataproc JupyterLab-Plug-in verwenden, um mehrere Jupyter-Notebook-Sitzungen aus Vorlagen zu erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Serverless for Apache Spark-Notebook-Sitzung zu erstellen. Schreiben und testen Sie dann Ihren Code im Notebook.

    Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Launcher-Seite verwenden, um die folgenden Aktionen auszuführen:

    • Dataproc in Compute Engine-Cluster erstellen.
    • Jobs an Dataproc in Compute Engine-Cluster senden
    • Google Cloud - und Spark-Logs ansehen.

Sicherheitscompliance

Serverless for Apache Spark entspricht allen Anforderungen an den Datenspeicherort, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Dataproc erfüllt.