Google Cloud Mit Serverless for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Dataproc-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Serverless for Apache Spark-Arbeitslasten auszuführen:
Batcharbeitslasten
Senden Sie einen Batcharbeitslast an den Serverless for Apache Spark-Dienst über dieGoogle Cloud Console, die Google Cloud CLI oder die Dataproc API. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Serverless for Apache Spark-Gebühren fallen nur für den Zeitraum an, in dem die Arbeitslast ausgeführt wird.
Weitere Informationen finden Sie unter Serverless for Apache Spark-Batcharbeitslast ausführen.
Interaktive Sitzungen
Sie können Code in Jupyter-Notebooks während einer interaktiven Sitzung von Serverless for Apache Spark für Spark schreiben und ausführen. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:
PySpark-Code in BigQuery Studio-Notebooks ausführen Mit dem BigQuery-Python-Notebook können Sie eine Spark-Connect-basierte interaktive Sitzung für Serverless for Apache Spark erstellen. Jedem BigQuery-Notebook kann nur eine aktive Serverless for Apache Spark-Sitzung zugeordnet sein.
Dataproc JupyterLab-Plug-in verwenden, um mehrere Jupyter-Notebook-Sitzungen aus Vorlagen zu erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Serverless for Apache Spark-Notebook-Sitzung zu erstellen. Schreiben und testen Sie dann Ihren Code im Notebook.
Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Launcher-Seite verwenden, um die folgenden Aktionen auszuführen:
- Dataproc in Compute Engine-Cluster erstellen.
- Jobs an Dataproc in Compute Engine-Cluster senden
- Google Cloud - und Spark-Logs ansehen.
Serverless for Apache Spark im Vergleich zu Dataproc auf Compute Engine
Wenn Sie Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc on Compute Engine und Serverless for Apache Spark aufgeführt.
Leistungsvermögen | Serverless for Apache Spark | Dataproc in Compute Engine |
---|---|---|
Verarbeitungsframeworks | Batcharbeitslasten: Spark 3.5 und frühere Versionen Interaktive Sitzungen: Spark 3.5 und frühere Versionen |
Spark 3.5 und frühere Versionen: Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka |
Serverlos | Ja | Nein |
Startzeit | 60 Sekunden | 90er |
Infrastruktursteuerung | Nein | Ja |
Ressourcenverwaltung | Spark-basiert | YARN-basiert |
GPU-Unterstützung | Ja | Ja |
Interaktive Sitzungen | Ja | Nein |
Benutzerdefinierte Container | Ja | Nein |
VM-Zugriff (z. B. SSH) | Nein | Ja |
Java-Versionen | Java 17, 11 | Unterstützung für frühere Versionen |
Sicherheitscompliance
Serverless for Apache Spark entspricht allen Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Dataproc erfüllt.
Funktionen für Batcharbeitslasten
Sie können die folgenden Serverless for Apache Spark-Batcharbeitslasttypen ausführen:
- PySpark
- Spark SQL
- Spark R
- Spark (Java oder Scala)
Sie können Spark-Properties angeben, wenn Sie eine Serverless for Apache Spark-Batcharbeitslast senden.