Diese Seite wurde von der Cloud Translation API übersetzt.

Serverless for Apache Spark – Übersicht

Google Cloud Mit Serverless for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Dataproc-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Serverless for Apache Spark-Arbeitslasten auszuführen:

Batch-Arbeitslasten
Interaktive Sitzungen

Batcharbeitslasten

Senden Sie einen Batcharbeitslast an den Serverless for Apache Spark-Dienst über dieGoogle Cloud Console, die Google Cloud CLI oder die Dataproc API. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverless for Apache Spark-Gebühren fallen nur für den Zeitraum an, in dem die Arbeitslast ausgeführt wird.

Weitere Informationen finden Sie unter Serverless for Apache Spark-Batcharbeitslast ausführen.

Interaktive Sitzungen

Sie können Code in Jupyter-Notebooks während einer interaktiven Sitzung von Serverless for Apache Spark für Spark schreiben und ausführen. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

PySpark-Code in BigQuery Studio-Notebooks ausführen Mit dem BigQuery-Python-Notebook können Sie eine Spark-Connect-basierte interaktive Sitzung für Serverless for Apache Spark erstellen. Jedem BigQuery-Notebook kann nur eine aktive Serverless for Apache Spark-Sitzung zugeordnet sein.
Dataproc JupyterLab-Plug-in verwenden, um mehrere Jupyter-Notebook-Sitzungen aus Vorlagen zu erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Serverless for Apache Spark-Notebook-Sitzung zu erstellen. Schreiben und testen Sie dann Ihren Code im Notebook.

Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Launcher-Seite verwenden, um die folgenden Aktionen auszuführen:
- Dataproc in Compute Engine-Cluster erstellen.
- Jobs an Dataproc in Compute Engine-Cluster senden
- Google Cloud - und Spark-Logs ansehen.

Serverless for Apache Spark im Vergleich zu Dataproc auf Compute Engine

Wenn Sie Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc on Compute Engine und Serverless for Apache Spark aufgeführt.

Leistungsvermögen	Serverless for Apache Spark	Dataproc in Compute Engine
Verarbeitungsframeworks	Batcharbeitslasten: Spark 3.5 und frühere Versionen Interaktive Sitzungen: Spark 3.5 und frühere Versionen	Spark 3.5 und frühere Versionen: Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka
Serverlos	Ja	Nein
Startzeit	60 Sekunden	90er
Infrastruktursteuerung	Nein	Ja
Ressourcenverwaltung	Spark-basiert	YARN-basiert
GPU-Unterstützung	Ja	Ja
Interaktive Sitzungen	Ja	Nein
Benutzerdefinierte Container	Ja	Nein
VM-Zugriff (z. B. SSH)	Nein	Ja
Java-Versionen	Java 17, 11	Unterstützung für frühere Versionen

Sicherheitscompliance

Serverless for Apache Spark entspricht allen Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Dataproc erfüllt.

Funktionen für Batcharbeitslasten

Sie können die folgenden Serverless for Apache Spark-Batcharbeitslasttypen ausführen:

PySpark
Spark SQL
Spark R
Spark (Java oder Scala)

Sie können Spark-Properties angeben, wenn Sie eine Serverless for Apache Spark-Batcharbeitslast senden.