Mit der serverlosen Bereitstellung von Managed Service for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Managed Service for Apache Spark-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Managed Service for Apache Spark-Arbeitslasten auszuführen: Batcharbeitslasten und interaktive Sitzungen.
Batcharbeitslasten
Sie können einen Batch-Arbeitslast über dieGoogle Cloud Console, die Google Cloud CLI oder die REST API einreichen. Managed Service for Apache Spark führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Gebühren fallen nur für den Zeitraum an, in dem die Arbeitslast ausgeführt wird.
Funktionen für Batcharbeitslasten
Sie können die folgenden Batch-Arbeitslasttypen ausführen:
- PySpark
- Spark SQL
- Spark R
- Spark (Java oder Scala)
Sie können Spark-Attribute angeben, wenn Sie einen Batch-Arbeitslast senden.
Batcharbeitslasten planen
Sie können eine Spark-Batcharbeitslast als Teil eines Airflow- oder Managed Service for Apache Airflow-Workflows mit einem Airflow-Batchoperator planen. Weitere Informationen finden Sie unter Managed Service for Apache Spark-Arbeitslasten mit Managed Airflow ausführen.
Jetzt starten
Weitere Informationen finden Sie unter Serverless for Apache Spark-Batcharbeitslast ausführen.
Interaktive Sitzungen
Code in Jupyter-Notebooks während einer interaktiven Sitzung schreiben und ausführen Sie können eine Notebook-Sitzung auf folgende Arten erstellen:
PySpark-Code in BigQuery Studio-Notebooks ausführen Öffnen Sie ein BigQuery Python-Notebook, um eine Spark-Connect-basierte interaktive Sitzung für den Managed Service for Apache Spark zu erstellen. Jedem BigQuery-Notebook kann nur eine aktive Managed Service for Apache Spark-Sitzung zugeordnet sein.
JupyterLab-Plug-in verwenden: Mit diesem Plug-in können Sie mehrere Jupyter-Notebook-Sitzungen aus Vorlagen erstellen, die Sie selbst erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Managed Service for Apache Spark-Notebooksitzung zu erstellen. Anschließend können Sie Ihren Code im Notebook schreiben und testen.
Mit dem JupyterLab-Plug-in können Sie auch die JupyterLab-Startseite verwenden, um die folgenden Aktionen auszuführen:
- Managed Service for Apache Spark-Cluster erstellen
- Jobs an Cluster senden
- Google Cloud - und Spark-Logs ansehen
Sicherheitscompliance
Managed Service for Apache Spark entspricht allen Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Managed Service for Apache Spark erfüllt.