Übersicht über die serverlose Bereitstellung von Managed Service for Apache Spark

Mit der serverlosen Bereitstellung von Managed Service for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Managed Service for Apache Spark-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Managed Service for Apache Spark-Arbeitslasten auszuführen: Batcharbeitslasten und interaktive Sitzungen.

Batcharbeitslasten

Sie können einen Batch-Arbeitslast über dieGoogle Cloud Console, die Google Cloud CLI oder die REST API einreichen. Managed Service for Apache Spark führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Gebühren fallen nur für den Zeitraum an, in dem die Arbeitslast ausgeführt wird.

Funktionen für Batcharbeitslasten

Sie können die folgenden Batch-Arbeitslasttypen ausführen:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java oder Scala)

Sie können Spark-Attribute angeben, wenn Sie einen Batch-Arbeitslast senden.

Batcharbeitslasten planen

Sie können eine Spark-Batcharbeitslast als Teil eines Airflow- oder Managed Service for Apache Airflow-Workflows mit einem Airflow-Batchoperator planen. Weitere Informationen finden Sie unter Managed Service for Apache Spark-Arbeitslasten mit Managed Airflow ausführen.

Jetzt starten

Weitere Informationen finden Sie unter Serverless for Apache Spark-Batcharbeitslast ausführen.

Interaktive Sitzungen

Code in Jupyter-Notebooks während einer interaktiven Sitzung schreiben und ausführen Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

  • PySpark-Code in BigQuery Studio-Notebooks ausführen Öffnen Sie ein BigQuery Python-Notebook, um eine Spark-Connect-basierte interaktive Sitzung für den Managed Service for Apache Spark zu erstellen. Jedem BigQuery-Notebook kann nur eine aktive Managed Service for Apache Spark-Sitzung zugeordnet sein.

  • JupyterLab-Plug-in verwenden: Mit diesem Plug-in können Sie mehrere Jupyter-Notebook-Sitzungen aus Vorlagen erstellen, die Sie selbst erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Managed Service for Apache Spark-Notebooksitzung zu erstellen. Anschließend können Sie Ihren Code im Notebook schreiben und testen.

    Mit dem JupyterLab-Plug-in können Sie auch die JupyterLab-Startseite verwenden, um die folgenden Aktionen auszuführen:

    • Managed Service for Apache Spark-Cluster erstellen
    • Jobs an Cluster senden
    • Google Cloud - und Spark-Logs ansehen

Sicherheitscompliance

Managed Service for Apache Spark entspricht allen Anforderungen an den Speicherort von Daten, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Managed Service for Apache Spark erfüllt.