"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Managed Service for Apache Spark – Serverless – Übersicht

Mit Managed Service for Apache Spark serverless können Sie Spark-Arbeitslasten ausführen, ohne dass Sie eigene Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Managed Service for Apache Spark-Arbeitslasten auszuführen: Batcharbeitslasten und interaktive Sitzungen.

Batcharbeitslasten

Senden Sie eine Batcharbeitslast über die Google Cloud Console, die Google Cloud CLI oder die REST API. Managed Service for Apache Spark führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Gebühren fallen nur für die Zeit an, in der die Arbeitslast ausgeführt wird.

Funktionen für Batcharbeitslasten

Sie können die folgenden Arten von Batcharbeitslasten ausführen:

PySpark
Spark SQL
Spark R
Spark (Java oder Scala)

Sie können Spark-Eigenschaften angeben, wenn Sie eine Batcharbeitslast senden.

Batcharbeitslasten planen

Sie können eine Spark-Batcharbeitslast als Teil eines Airflow oder Managed Service for Apache Airflow -Workflows mit einem Airflow-Batchoperator planen. Weitere Informationen finden Sie unter Serverlose Managed Service for Apache Spark-Arbeitslasten mit Managed Airflow ausführen.

Jetzt starten

Informationen zu den ersten Schritten finden Sie unter Apache Spark-Batcharbeitslast ausführen.

Interaktive Sitzungen

Sie können während einer interaktiven Sitzung Code in Jupyter-Notebooks schreiben und ausführen. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

Führen Sie PySpark-Code in BigQuery Studio-Notebooks aus. Öffnen Sie ein BigQuery-Python-Notebook, um eine interaktive Sitzung auf Spark-Connect-Basis zu erstellen. Jedem BigQuery-Notebook kann nur eine aktive Sitzung zugeordnet sein.
Mit dem JupyterLab-Plug-in können Sie mehrere Jupyter-Notebook-Sitzungen aus Vorlagen erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Managed Service for Apache Spark-Notebook-Sitzung zu erstellen. Anschließend können Sie Code im Notebook schreiben und testen.

Mit dem JupyterLab-Plug-in können Sie auch die JupyterLab-Startseite verwenden, um die folgenden Aktionen auszuführen:
- Managed Service for Apache Spark-Cluster erstellen
- Jobs an Cluster senden
- Spark-Logs ansehen Google Cloud

Sicherheitscompliance

Managed Service for Apache Spark erfüllt alle Anforderungen an den Datenstandort, CMEK, VPC-SC, und andere Sicherheitsanforderungen, mit denen Managed Service for Apache Spark konform ist.

Managed Service for Apache Spark – Serverless – Übersicht Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.