Serverless for Apache Spark – Übersicht

Google Cloud Mit Serverless for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Dataproc-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Serverless for Apache Spark-Arbeitslasten auszuführen:

Batcharbeitslasten

Senden Sie einen Batcharbeitslast an den Serverless for Apache Spark-Dienst über dieGoogle Cloud Console, die Google Cloud CLI oder die Dataproc API. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverless for Apache Spark-Gebühren fallen nur für den Zeitraum an, in dem die Arbeitslast ausgeführt wird.

Weitere Informationen finden Sie unter Serverless for Apache Spark-Batcharbeitslast ausführen.

Interaktive Sitzungen

Sie können Code in Jupyter-Notebooks während einer interaktiven Sitzung von Serverless for Apache Spark für Spark schreiben und ausführen. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

  • PySpark-Code in BigQuery Studio-Notebooks ausführen Mit dem BigQuery-Python-Notebook können Sie eine Spark-Connect-basierte interaktive Sitzung für Serverless for Apache Spark erstellen. Jedem BigQuery-Notebook kann nur eine aktive Serverless for Apache Spark-Sitzung zugeordnet sein.

  • Dataproc JupyterLab-Plug-in verwenden, um mehrere Jupyter-Notebook-Sitzungen aus Vorlagen zu erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Serverless for Apache Spark-Notebook-Sitzung zu erstellen. Schreiben und testen Sie dann Ihren Code im Notebook.

    Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Launcher-Seite verwenden, um die folgenden Aktionen auszuführen:

    • Dataproc in Compute Engine-Cluster erstellen.
    • Jobs an Dataproc in Compute Engine-Cluster senden
    • Google Cloud - und Spark-Logs ansehen.

Serverless for Apache Spark im Vergleich zu Dataproc auf Compute Engine

Wenn Sie Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc on Compute Engine und Serverless for Apache Spark aufgeführt.

Leistungsvermögen Serverless for Apache Spark Dataproc in Compute Engine
Verarbeitungsframeworks Batcharbeitslasten: Spark 3.5 und frühere Versionen
Interaktive Sitzungen: Spark 3.5 und frühere Versionen
Spark 3.5 und frühere Versionen: Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka
Serverlos Ja Nein
Startzeit 60 Sekunden 90er
Infrastruktursteuerung Nein Ja
Ressourcenverwaltung Spark-basiert YARN-basiert
GPU-Unterstützung Ja Ja
Interaktive Sitzungen Ja Nein
Benutzerdefinierte Container Ja Nein
VM-Zugriff (z. B. SSH) Nein Ja
Java-Versionen Java 17, 11 Unterstützung für frühere Versionen

Sicherheitscompliance

Serverless for Apache Spark entspricht allen Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Dataproc erfüllt.

Funktionen für Batcharbeitslasten

Sie können die folgenden Serverless for Apache Spark-Batcharbeitslasttypen ausführen:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java oder Scala)

Sie können Spark-Properties angeben, wenn Sie eine Serverless for Apache Spark-Batcharbeitslast senden.