Mit der serverlosen Bereitstellung von Managed Service for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Managed Service for Apache Spark-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Managed Service for Apache Spark-Arbeitslasten auszuführen: Batcharbeitslasten und interaktive Sitzungen.
Batcharbeitslasten
Senden Sie eine Batcharbeitslast über die Google Cloud Console, die Google Cloud CLI oder die REST API. Managed Service for Apache Spark führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Gebühren fallen nur für den Zeitraum an, in dem die Arbeitslast ausgeführt wird.
Funktionen für Batcharbeitslasten
Sie können die folgenden Arten von Batcharbeitslasten ausführen:
- PySpark
- Spark SQL
- Spark R
- Spark (Java oder Scala)
Sie können Spark-Eigenschaften angeben, wenn Sie eine Batcharbeitslast senden.
Batcharbeitslasten planen
Sie können eine Spark-Batcharbeitslast als Teil eines Airflow oder Cloud Composer Workflows mit einem Airflow-Batchoperator planen. Weitere Informationen finden Sie unter Managed Service for Apache Spark-Arbeitslasten mit Cloud Composer ausführen.
Jetzt starten
Informationen zur Einrichtung finden Sie unter Apache Spark-Batcharbeitslast ausführen.
Interaktive Sitzungen
Sie können während einer interaktiven Sitzung Code in Jupyter-Notebooks schreiben und ausführen. So erstellen Sie eine Notebook-Sitzung:
Führen Sie PySpark-Code in BigQuery Studio-Notebooks aus. Öffnen Sie ein BigQuery-Python-Notebook, um eine auf Spark Connect basierende interaktive Sitzung von Managed Service for Apache Spark zu erstellen. Jedem BigQuery-Notebook kann nur eine aktive Managed Service for Apache Spark-Sitzung zugeordnet sein.
Mit dem JupyterLab-Plug-in können Sie mehrere Jupyter-Notebook-Sitzungen aus Vorlagen erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Managed Service for Apache Spark-Notebook-Sitzung zu erstellen. Anschließend können Sie Code im Notebook schreiben und testen.
Mit dem JupyterLab-Plug-in können Sie auch die JupyterLab-Startseite verwenden, um die folgenden Aktionen auszuführen:
- Managed Service for Apache Spark-Cluster erstellen
- Jobs an Cluster senden
- Spark-Logs ansehen Google Cloud
Sicherheitscompliance
Managed Service for Apache Spark erfüllt alle Anforderungen an den Datenstandort, CMEK, VPC-SC, und andere Sicherheitsanforderungen, die für Managed Service for Apache Spark gelten.