JupyterLab-Erweiterung zum Entwickeln serverloser Spark-Arbeitslasten verwenden

In diesem Dokument wird beschrieben, wie Sie die JupyterLab-Erweiterung auf einem Computer oder einer selbstverwalteten VM installieren und verwenden, die Zugriff auf Google-Dienste hat. Außerdem wird beschrieben, wie Sie serverlosen Spark-Notebook-Code entwickeln und bereitstellen.

Installieren Sie die Erweiterung in wenigen Minuten, um die folgenden Funktionen zu nutzen:

  • Serverlose Spark- und BigQuery-Notebooks starten, um schnell Code zu entwickeln
  • BigQuery-Datasets in JupyterLab ansehen und in der Vorschau anzeigen
  • Cloud Storage-Dateien in JupyterLab bearbeiten
  • Notebook in Composer planen

Hinweis

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that you have the permissions required to complete this guide.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. Installieren Sie die Google Cloud CLI.

  7. Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

  8. Führen Sie den folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init
  9. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  10. Verify that you have the permissions required to complete this guide.

  11. Verify that billing is enabled for your Google Cloud project.

  12. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  13. Installieren Sie die Google Cloud CLI.

  14. Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

  15. Führen Sie den folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init

Erforderliche Rollen

Für die Ausführung der Beispiele auf dieser Seite sind bestimmte IAM-Rollen erforderlich. Abhängig von den Organisationsrichtlinien wurden diese Rollen möglicherweise bereits gewährt. Informationen zum Prüfen von Rollenzuweisungen finden Sie unter Müssen Sie Rollen zuweisen?.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Nutzerrollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen einer interaktiven Notebook-Sitzung benötigen:

Dienstkontorolle

Damit das Compute Engine-Standarddienstkonto die erforderlichen Berechtigungen zum Erstellen einer interaktiven Sitzung hat, bitten Sie Ihren Administrator, dem Compute Engine-Standarddienstkonto die IAM-Rolle Dataproc-Worker (roles/dataproc.worker) für das Projekt zuzuweisen.

JupyterLab-Erweiterung installieren

erstellen.

Sie können die JupyterLab-Erweiterung auf einem Computer oder einer VM installieren und verwenden, der Zugriff auf Google-Dienste hat, z. B. auf Ihrem lokalen Computer oder einer Compute Engine-VM-Instanz.

So installieren Sie die Erweiterung:

  1. Laden Sie Python 3.11 oder höher von python.org/downloads herunter und installieren Sie die Software.

    • Prüfen Sie, ob Python 3.11 oder höher installiert ist.
      python3 --version
      
  2. Virtualisieren Sie die Python-Umgebung.

    pip3 install pipenv
    

    • Erstellen Sie einen Installationsordner.
      mkdir jupyter
      
    • Wechseln Sie in den Installationsordner.
      cd jupyter
      
    • Erstellen Sie eine virtuelle Umgebung.
      pipenv shell
      
  3. Installieren Sie JupyterLab in der virtuellen Umgebung.

    pipenv install jupyterlab
    

  4. Installieren Sie die JupyterLab-Erweiterung.

    pipenv install bigquery-jupyter-plugin
    

  5. JupyterLab starten

    jupyter lab
    

    1. Die Seite Launcher von JupyterLab wird in Ihrem Browser geöffnet. Er enthält einen Abschnitt Dataproc-Jobs und -Sitzungen. Er kann auch die Abschnitte Dataproc Serverless Notebooks und Dataproc Cluster Notebooks enthalten, wenn Sie Zugriff auf Managed Service for Apache Spark-Notebooks oder -Cluster mit der optionalen Jupyter-Komponente haben, die in Ihrem Projekt ausgeführt wird.

      Browserseite für den JupyterLab-Launcher
    2. Standardmäßig wird Ihre interaktive Sitzung in dem Projekt und in der Region ausgeführt, die Sie beim Ausführen von gcloud init in Vorbereitung festgelegt haben. Sie können die Projekt- und Regionseinstellungen für Ihre Sitzungen in JupyterLab unter Einstellungen > Google Cloud Einstellungen > Google Cloud Projekteinstellungen ändern.

      Sie müssen die Erweiterung neu starten, damit die Änderungen wirksam werden.

Laufzeitvorlage für Managed Service for Apache Spark erstellen

Managed Service for Apache Spark-Laufzeitvorlagen (auch Sitzungsvorlagen genannt) enthalten Konfigurationseinstellungen für die Ausführung von Spark-Code in einer Sitzung. Sie können Laufzeitvorlagen mit JupyterLab oder der Google Cloud CLI erstellen und verwalten.

JupyterLab

  1. Klicken Sie auf der Seite Launcher von JupyterLab im Abschnitt Dataproc Serverless Notebooks auf die Karte New runtime template.

  2. Füllen Sie das Formular Laufzeitvorlage aus.

    • Vorlageninformationen:

      • Anzeigename, Runtime-ID und Beschreibung: Akzeptieren oder füllen Sie einen Anzeigenamen, eine Runtime-ID und eine Beschreibung für die Vorlage aus.
    • Ausführungskonfiguration: Wählen Sie Nutzerkonto aus, um Notebooks mit der Nutzeridentität anstelle der Dataproc-Dienstkontoidentität auszuführen.

      • Dienstkonto: Wenn Sie kein Dienstkonto angeben, wird das Compute Engine-Standarddienstkonto verwendet.
      • Laufzeitversion: Bestätigen oder wählen Sie die 2.3 Laufzeitversion aus.
      • Benutzerdefiniertes Container-Image: Optional können Sie den URI eines benutzerdefinierten Container-Images angeben.
      • Staging-Bucket: Optional können Sie den Namen eines Cloud Storage-Staging-Buckets angeben, der von Managed Service for Apache Spark verwendet werden soll.
      • Python-Paket-Repository: Standardmäßig werden Python-Pakete aus dem PyPI-Pull-Through-Cache heruntergeladen und installiert, wenn Nutzer pip-Installationsbefehle in ihren Notebooks ausführen. Sie können das private Artefakt-Repository Ihrer Organisation für Python-Pakete als Standard-Repository für Python-Pakete angeben.
    • Verschlüsselung: Übernehmen Sie die Standardeinstellung Google-owned and Google-managed encryption key oder wählen Sie Vom Kunden verwalteter Verschlüsselungsschlüssel (CMEK) aus. Wenn Sie CMEK verwenden, wählen Sie die Schlüsselinformationen aus oder geben Sie sie an.

    • Netzwerkkonfiguration: Wählen Sie ein Subnetzwerk im Projekt oder ein Subnetzwerk aus, das von einem Hostprojekt freigegeben wurde. Sie können das Projekt in JupyterLab unter Einstellungen > Google Cloud Einstellungen > Google Cloud Projekteinstellungen ändern. Sie können Netzwerk-Tags angeben, die auf das angegebene Netzwerk angewendet werden sollen. Hinweis: Managed Service for Apache Spark aktiviert den privaten Google-Zugriff im angegebenen Subnetz. Informationen zu den Anforderungen an die Netzwerkverbindung finden Sie unter Netzwerkkonfiguration für Managed Service for Apache Spark.

    • Sitzungskonfiguration: Sie können diese Felder optional ausfüllen, um die Dauer von Sitzungen zu begrenzen, die mit der Vorlage erstellt werden.

      • Maximale Leerlaufzeit:Die maximale Leerlaufzeit, bevor die Sitzung beendet wird. Zulässiger Bereich: 10 Minuten bis 336 Stunden (14 Tage).
      • Maximale Sitzungsdauer:Die maximale Lebensdauer einer Sitzung, bevor sie beendet wird. Zulässiger Bereich: 10 Minuten bis 336 Stunden (14 Tage).
    • Metastore: Wenn Sie einen Dataproc Metastore-Dienst mit Ihren Sitzungen verwenden möchten, wählen Sie die Metastore-Projekt-ID und den Dienst aus.

    • Persistent History Server: Sie können einen verfügbaren Persistent Spark History Server auswählen, um während und nach Sitzungen auf Sitzungslogs zuzugreifen.

    • Spark-Attribute:Sie können Spark-Attribute für Ressourcenzuweisung, Autoscaling oder GPU auswählen und hinzufügen. Klicken Sie auf Property hinzufügen, um weitere Spark-Properties hinzuzufügen. Weitere Informationen finden Sie unter Spark-Attribute.

    • Labels:Klicken Sie für jedes Label, das für mit der Vorlage erstellte Sitzungen festgelegt werden soll, auf Label hinzufügen.

  3. Klicken Sie auf Speichern, um die Vorlage zu erstellen.

  4. So rufen Sie eine Laufzeitvorlage auf oder löschen sie.

    1. Klicken Sie auf Einstellungen > Google Cloud Einstellungen.
    2. Im Bereich Dataproc-Einstellungen > Vorlagen für serverlose Laufzeiten wird die Liste der Laufzeitvorlagen angezeigt.

      Liste der Laufzeitvorlagen

      • Klicken Sie auf einen Vorlagennamen, um die Vorlagendetails aufzurufen.
      • Sie können eine Vorlage über das Menü Aktion der Vorlage löschen.
  5. Öffnen Sie die Seite Launcher in JupyterLab und laden Sie sie neu, um die gespeicherte Notebookvorlagenkarte auf der Seite Launcher in JupyterLab zu sehen.

gcloud

  1. Erstellen Sie eine YAML-Datei mit der Konfiguration Ihrer Laufzeitvorlage.

    Einfache YAML-Datei

    environmentConfig:
      executionConfig:
        networkUri: default
    jupyterSession:
      kernel: PYTHON
      displayName: Team A
    labels:
      purpose: testing
    description: Team A Development Environment
    

    Komplexes YAML

    description: Example session template
    environmentConfig:
      executionConfig:
        serviceAccount: sa1
        # Choose either networkUri or subnetworkUri
        networkUri:
        subnetworkUri: default
        networkTags:
         - tag1
        kmsKey: key1
        idleTtl: 3600s
        ttl: 14400s
        stagingBucket: staging-bucket
      peripheralsConfig:
        metastoreService: projects/my-project-id/locations/us-central1/services/my-metastore-id
        sparkHistoryServerConfig:
          dataprocCluster: projects/my-project-id/regions/us-central1/clusters/my-cluster-id
    jupyterSession:
      kernel: PYTHON
      displayName: Team A
    labels:
      purpose: testing
    runtimeConfig:
      version: "2.3"
      containerImage: gcr.io/my-project-id/my-image:1.0.1
      properties:
        "p1": "v1"
    description: Team A Development Environment
    

  2. Erstellen Sie eine Sitzungsvorlage (Laufzeitvorlage) aus Ihrer YAML-Datei, indem Sie den folgenden Befehl gcloud beta dataproc session-templates import lokal oder in Cloud Shell ausführen:

    gcloud beta dataproc session-templates import TEMPLATE_ID \
        --source=YAML_FILE \
        --project=PROJECT_ID \
        --location=REGION
    

Notebooks starten und verwalten

Nachdem Sie die JupyterLab-Erweiterung für Managed Service for Apache Spark installiert haben, können Sie auf der Seite Launcher in JupyterLab auf Vorlagenkarten klicken, um:

Jupyter-Notebook starten

Im Abschnitt Dataproc Serverless Notebooks auf der Seite „JupyterLab Launcher“ werden Notebook-Vorlagenkarten angezeigt, die Managed Service for Apache Spark-Laufzeitvorlagen zugeordnet sind (siehe Managed Service for Apache Spark-Laufzeitvorlage erstellen).

  1. Klicken Sie auf eine Karte, um eine Managed Service for Apache Spark-Sitzung zu erstellen und ein Notebook zu starten. Wenn die Sitzung erstellt wurde und der Notebook-Kernel bereit ist, ändert sich der Kernelstatus von Starting zu Idle (Ready).

  2. Notebook-Code schreiben und testen

    1. Kopieren Sie den folgenden PySpark-Code Pi estimation und fügen Sie ihn in die PySpark-Notebookzelle ein. Drücken Sie dann Umschalt + Eingabetaste, um den Code auszuführen.

      import random
          
      def inside(p):
          x, y = random.random(), random.random()
          return x*x + y*y < 1
          
      count = sc.parallelize(range(0, 10000)) .filter(inside).count()
      print("Pi is roughly %f" % (4.0 * count / 10000))

      Notebook-Ergebnis:

  3. Nachdem Sie ein Notebook erstellt und verwendet haben, können Sie die Notebooksitzung beenden, indem Sie auf dem Tab Kernel auf Kernel herunterfahren klicken.

    • Wenn Sie die Sitzung wiederverwenden möchten, erstellen Sie ein neues Notebook, indem Sie im Menü Datei>> Neu die Option Notebook auswählen. Nachdem das neue Notebook erstellt wurde, wählen Sie im Dialogfeld zur Kernelauswahl die vorhandene Sitzung aus. Im neuen Notebook wird die Sitzung wiederverwendet und der Sitzungskontext aus dem vorherigen Notebook beibehalten.
  4. Wenn Sie die Sitzung nicht beenden, wird sie von Managed Service for Apache Spark beendet, wenn der Leerlauf-Timer abläuft. Sie können die Leerlaufzeit für Sitzungen in der Laufzeitvorlagenkonfiguration konfigurieren. Die standardmäßige Leerlaufzeit für Sitzungen beträgt eine Stunde.

Notebook in einem Cluster starten

Wenn Sie einen Managed Service for Apache Spark-Jupyter-Cluster erstellt haben, enthält die JupyterLab-Seite Launcher den Abschnitt Dataproc Cluster Notebook mit vorinstallierten Kernelkarten.

So starten Sie ein Jupyter-Notebook in Ihrem Managed Service for Apache Spark in Compute Engine-Cluster:

  1. Klicken Sie im Bereich Dataproc-Cluster-Notebook auf eine Karte.

  2. Wenn sich der Kernelstatus von Starting in Idle (Ready) ändert, können Sie mit dem Schreiben und Ausführen von Notebook-Code beginnen.

  3. Nachdem Sie ein Notebook erstellt und verwendet haben, können Sie die Notebooksitzung beenden, indem Sie auf dem Tab Kernel auf Kernel herunterfahren klicken.

Eingabe- und Ausgabedateien in Cloud Storage verwalten

Für die Analyse explorativer Daten und die Entwicklung von ML-Modellen sind häufig dateibasierte Ein- und Ausgaben erforderlich. Managed Service for Apache Spark greift auf diese Dateien in Cloud Storage zu.

  • Klicken Sie auf das Cloud Storage-Browsersymbol in der Seitenleiste der Seite Launcher (Starter) von JupyterLab, um auf den Cloud Storage-Browser zuzugreifen. Doppelklicken Sie dann auf einen Ordner, um seinen Inhalt aufzurufen.

  • Sie können auf von Jupyter unterstützte Dateitypen klicken, um sie zu öffnen und zu bearbeiten. Wenn Sie Änderungen an den Dateien speichern, werden sie in Cloud Storage geschrieben.

  • Wenn Sie einen neuen Cloud Storage-Ordner erstellen möchten, klicken Sie auf das Symbol für einen neuen Ordner und geben Sie dann den Namen des Ordners ein.

  • Wenn Sie Dateien in einen Cloud Storage-Bucket oder ‑Ordner hochladen möchten, klicken Sie auf das Upload-Symbol und wählen Sie die Dateien aus, die hochgeladen werden sollen.

Spark-Notebook-Code entwickeln

Nachdem Sie die JupyterLab-Erweiterung installiert haben, können Sie Jupyter-Notebooks über die Seite Launcher in JupyterLab starten, um Anwendungscode zu entwickeln.

Entwicklung von PySpark- und Python-Code

Managed Service for Apache Spark-Cluster unterstützen PySpark- und Python-Kernel.

SQL-Code entwickeln

Wenn Sie ein PySpark-Notebook öffnen möchten, um SQL-Code zu schreiben und auszuführen, klicken Sie auf der Seite Launcher von JupyterLab im Abschnitt Dataproc Serverless Notebooks oder Dataproc Cluster Notebook auf die Karte des PySpark-Kernels.

Spark SQL-Magic:Da der PySpark-Kernel, mit dem serverlose Dataproc-Notebooks gestartet werden, mit Spark SQL-Magic vorab geladen wird, können Sie anstelle von spark.sql('SQL STATEMENT').show(), um Ihre SQL-Anweisung einzuschließen, %%sparksql magic oben in eine Zelle eingeben und dann Ihre SQL-Anweisung in die Zelle eingeben.

BigQuery SQL:Mit dem BigQuery Spark-Connector können Sie in Ihrem Notebook-Code Daten aus BigQuery-Tabellen laden, Analysen in Spark durchführen und die Ergebnisse dann in eine BigQuery-Tabelle schreiben.

Die Laufzeiten Managed Service for Apache Spark 2.2 und höher enthalten den BigQuery Spark-Connector. Wenn Sie eine frühere Laufzeit zum Starten von Managed Service for Apache Spark-Notebooks verwenden, können Sie den Spark BigQuery-Connector installieren, indem Sie die folgende Spark-Property zu Ihrer Managed Service for Apache Spark-Laufzeitvorlage hinzufügen:

spark.jars: gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.25.2.jar

Scala-Codeentwicklung

Verwaltete Dienste für Apache Spark-Cluster, die mit Image-Versionen 2.0 und höher erstellt wurden, enthalten Apache Toree, einen Scala-Kernel für die Jupyter Notebook-Plattform, der interaktiven Zugriff auf Spark ermöglicht.

  • Klicken Sie auf der JupyterLab-Seite Launcher im Abschnitt Dataproc cluster Notebook auf die Karte „Apache Toree“, um ein Notebook für die Entwicklung von Scala-Code zu öffnen.

    Abbildung 1. Apache Toree-Kernelkarte auf der Seite „JupyterLab Launcher“

Code mit der Visual Studio Code-Erweiterung entwickeln

Mit der Google Cloud Visual Studio Code (VS Code)-Erweiterung können Sie Folgendes tun:

  • Spark-Code in Managed Service for Apache Spark-Notebooks entwickeln und ausführen
  • Managed Service for Apache Spark-Laufzeitvorlagen (Sitzungen), interaktive Sitzungen und Batcharbeitslasten erstellen und verwalten.

Die Visual Studio Code-Erweiterung ist kostenlos. Es fallen jedoch Gebühren für alleGoogle Cloud -Dienste an, die Sie verwenden, einschließlich Managed Service for Apache Spark, Managed Service for Apache Spark und Cloud Storage-Ressourcen.

VS Code mit BigQuery verwenden: Sie können auch VS Code mit BigQuery verwenden, um Folgendes zu tun:

  • BigQuery-Notebooks entwickeln und ausführen
  • BigQuery-Datasets durchsuchen, prüfen und in der Vorschau ansehen

Hinweis

  1. Laden Sie VS Code herunter und installieren Sie es.
  2. Öffnen Sie VS Code und klicken Sie in der Aktivitätsleiste auf Erweiterungen.
  3. Suchen Sie über die Suchleiste nach der Jupyter-Erweiterung und klicken Sie dann auf Installieren. Die Jupyter-Erweiterung von Microsoft ist eine erforderliche Abhängigkeit.

    Eine Liste der Jupyter-Erweiterungen in der VS Code-Konsole.

Google Cloud -Erweiterung installieren

  1. Öffnen Sie VS Code und klicken Sie in der Aktivitätsleiste auf Erweiterungen.
  2. Suchen Sie über die Suchleiste nach der Erweiterung Google Cloud Code und klicken Sie dann auf Installieren.

    Die Google Cloud Code-Erweiterung in der VS Code-Konsole.

  3. Starten Sie VS Code neu, wenn Sie dazu aufgefordert werden.

Das Symbol Google Cloud Code ist jetzt in der Aktivitätsleiste von VS Code sichtbar.

Erweiterung konfigurieren

  1. Öffnen Sie VS Code und klicken Sie dann in der Aktivitätsleiste auf Google Cloud Code.
  2. Öffnen Sie den Bereich Dataproc.
  3. Klicken Sie auf Bei Google Cloudanmelden. Sie werden weitergeleitet, um sich mit Ihren Anmeldedaten anzumelden.
  4. Verwenden Sie die Anwendungstaskleiste auf oberster Ebene, um zu Code> Einstellungen> Einstellungen> Erweiterungen zu navigieren.
  5. Suchen Sie nach Google Cloud Code und klicken Sie auf das Symbol Verwalten, um das Menü zu öffnen.
  6. Wählen Sie Einstellungen aus.
  7. Geben Sie in den Feldern Project (Projekt) und Managed Service for Apache Spark Region (Region für Managed Service for Apache Spark) den Namen des Google Cloud Projekts und der Region ein, die zum Entwickeln von Notebooks und zum Verwalten von Managed Service for Apache Spark-Ressourcen verwendet werden sollen.

Notebooks entwickeln

  1. Öffnen Sie VS Code und klicken Sie dann in der Aktivitätsleiste auf Google Cloud Code.
  2. Öffnen Sie den Bereich Notebooks und klicken Sie auf Neues Serverless Spark-Notebook.
  3. Wählen Sie eine Laufzeitvorlage (Sitzungsvorlage) aus oder erstellen Sie eine neue, die für die Notebook-Sitzung verwendet werden soll.
  4. Eine neue .ipynb-Datei mit Beispielcode wird erstellt und im Editor geöffnet.

    Neues Serverless Spark-Notebook in der VS Code-Konsole.

    Sie können jetzt Code in Ihrem Managed Service for Apache Spark-Notebook schreiben und ausführen.

Ressourcen erstellen und verwalten

  1. Öffnen Sie VS Code und klicken Sie dann in der Aktivitätsleiste auf Google Cloud Code.
  2. Öffnen Sie den Bereich Dataproc und klicken Sie dann auf die folgenden Ressourcennamen:

    • Cluster: Hier können Sie Cluster und Jobs erstellen und verwalten.
    • Serverless: Batcharbeitslasten und interaktive Sitzungen erstellen und verwalten.
    • Spark-Laufzeitvorlagen: Sitzungsvorlagen erstellen und verwalten.

    In der VS Code-Konsole aufgelistete Dataproc-Ressourcen.

Dataset-Explorer

Mit dem JupyterLab-Datensatz-Explorer können Sie Datasets im BigLake Metastore ansehen.

Klicken Sie in der Seitenleiste auf das Symbol, um den JupyterLab-Datensatz-Explorer zu öffnen.

Sie können im Dataset Explorer nach einer Datenbank, Tabelle oder Spalte suchen. Klicken Sie auf einen Datenbank-, Tabellen- oder Spaltennamen, um die zugehörigen Metadaten aufzurufen.

Code bereitstellen

Nachdem Sie die JupyterLab-Erweiterung installiert haben, können Sie JupyterLab für folgende Aufgaben verwenden:

  • Notebook-Code in der Infrastruktur von Managed Service for Apache Spark ausführen

  • Notebook-Ausführung in Cloud Composer planen

  • Batchjobs an die Managed Service for Apache Spark-Infrastruktur oder an Ihren Managed Service for Apache Spark-Cluster senden.

Notebook-Ausführung in Cloud Composer planen

Führen Sie die folgenden Schritte aus, um Ihren Notebook-Code in Cloud Composer zu planen, damit er als Batchjob in Managed Service for Apache Spark oder in einem Managed Service for Apache Spark-Cluster ausgeführt wird.

  1. Erstellen Sie eine Cloud Composer-Umgebung.

  2. Klicken Sie rechts oben im Notebook auf die Schaltfläche Job Scheduler (Job Scheduler).

  3. Füllen Sie das Formular Create A Scheduled Job aus und geben Sie die folgenden Informationen an:

    • Eindeutiger Name für den Notebook-Ausführungsjob
    • Die Cloud Composer-Umgebung, die zum Bereitstellen des Notebooks verwendet werden soll
    • Eingabeparameter, wenn das Notebook parametrisiert ist
    • Das Managed Service for Apache Spark-Cluster oder die serverlose Laufzeitvorlage, die zum Ausführen des Notebooks verwendet werden soll
      • Wenn ein Cluster ausgewählt ist, wird der Cluster nach Abschluss der Notebook-Ausführung im Cluster angehalten.
    • Anzahl der Wiederholungen und Wiederholungsverzögerung in Minuten, wenn die Notebookausführung beim ersten Versuch fehlschlägt
    • Ausführungsbenachrichtigungen, die gesendet werden sollen, und die Empfängerliste. Benachrichtigungen werden über eine Airflow-SMTP-Konfiguration gesendet.
    • Der Zeitplan für die Notebookausführung
  4. Klicken Sie auf Erstellen.

  5. Nachdem das Notebook erfolgreich geplant wurde, wird der Jobname in der Liste der geplanten Jobs in der Cloud Composer-Umgebung angezeigt.

Batchjob an Managed Service for Apache Spark senden

  • Klicken Sie auf der Seite Launcher von JupyterLab im Abschnitt Dataproc Jobs and Sessions (Dataproc-Jobs und -Sitzungen) auf die Karte Serverless (Serverlos).

  • Klicken Sie auf den Tab Batch (Batch) und dann auf Create Batch (Batch erstellen). Füllen Sie die Felder unter Batch Info (Batch-Informationen) aus.

  • Klicken Sie auf Senden, um den Job zu senden.

Batchjob an einen Managed Service for Apache Spark-Cluster senden

  • Klicken Sie auf der JupyterLab-Seite Launcher im Abschnitt Dataproc Jobs and Sessions (Dataproc-Jobs und -Sitzungen) auf die Karte Clusters (Cluster).

  • Klicken Sie auf den Tab Jobs und dann auf Job senden.

  • Wählen Sie einen Cluster aus und füllen Sie dann die Felder für Job aus.

  • Klicken Sie auf Senden, um den Job zu senden.

Ressourcen ansehen und verwalten

Nachdem Sie die JupyterLab-Erweiterung installiert haben, können Sie Managed Service for Apache Spark und Managed Service for Apache Spark im Abschnitt Dataproc-Jobs und -Sitzungen auf der Seite Launcher von JupyterLab aufrufen und verwalten.

Klicken Sie auf den Abschnitt Dataproc-Jobs und -Sitzungen, um die Karten Cluster und Serverless aufzurufen.

So rufen Sie Managed Service for Apache Spark-Sitzungen auf und verwalten sie:

  1. Klicken Sie auf die Karte Serverless.
  2. Klicken Sie auf den Tab Sitzungen und dann auf eine Sitzungs-ID, um die Seite Sitzungsdetails zu öffnen. Dort können Sie sich die Sitzungseigenschaften ansehen, Google Cloud Logs im Log-Explorer aufrufen und eine Sitzung beenden. Hinweis: Für jedes Managed Service for Apache Spark-Notebook wird eine eindeutige Managed Service for Apache Spark-Sitzung erstellt.

So rufen Sie Managed Service for Apache Spark-Batches auf und verwalten sie:

  1. Klicken Sie auf den Tab Batches, um die Liste der Managed Service for Apache Spark-Batches im aktuellen Projekt und in der aktuellen Region aufzurufen. Klicken Sie auf eine Batch-ID, um die Batchdetails aufzurufen.

So rufen Sie Managed Service for Apache Spark-Cluster auf und verwalten sie:

  1. Klicken Sie auf die Karte Cluster. Der Tab Cluster ist ausgewählt, um aktive Managed Service for Apache Spark-Cluster im aktuellen Projekt und in der aktuellen Region aufzulisten. Sie können auf die Symbole in der Spalte Aktionen klicken, um einen Cluster zu starten, zu beenden oder neu zu starten. Klicken Sie auf einen Clusternamen, um die Clusterdetails aufzurufen. Sie können auf die Symbole in der Spalte Aktionen klicken, um einen Job zu klonen, zu beenden oder zu löschen.

So rufen Sie Managed Service for Apache Spark-Jobs auf und verwalten sie:

  1. Klicken Sie auf die Karte Jobs, um die Liste der Jobs im aktuellen Projekt aufzurufen. Klicken Sie auf eine Job-ID, um die Jobdetails aufzurufen.