Mit der Erweiterung Google Cloud Data Agent Kit für Visual Studio Code können Sie Notebooks für die Datenbereinigung, das Feature Engineering und die detaillierte Analyse verwenden.Es stehen drei Arten von Notebooks zur Auswahl.
- BigQuery DataFrames-Notebooks Das sind Python-Notebooks, mit denen Sie umfangreiche Datensätze in BigQuery mit den bekannten pandas- und scikit-learn-APIs verarbeiten können. Neben Python können Sie auch Code in GoogleSQL für BigQuery schreiben.
Verwaltete Apache Spark-Notebooks mit lokalem Kernel Das sind Python-Notebooks, mit denen Sie Jobs in Managed Service for Apache Spark mit der Spark Connect-Bibliothek erstellen und ausführen können.
Verwaltete Apache Spark-Notebooks mit Remote-Kernel Mit diesen Notebooks können Sie Ihr Notebook auf einem Remote-Kernel ausführen, der vollständig in Managed Service for Apache Spark ausgeführt wird. Kein Teil Ihres Codes wird lokal auf Ihrem Computer ausgeführt. Neben PySpark können Sie Ihren Code mit dem Zell-Magic-Befehl
%%sparksqlauch in Spark SQL schreiben.
Hinweis
Für BigQuery-Notebooks muss die bigframes-Bibliothek in derselben virtuellen Python-Umgebung installiert sein, in der Sie Ihr Notebook ausführen. Wenn Sie ein neues Notebook erstellen, enthält die Initialisierungszelle die folgende auskommentierte Zeile:
#%pip install --upgrade bigframes
Optional: Wenn die
bigframes-Bibliothek nicht in Ihrer virtuellen Python-Umgebung installiert ist, entfernen Sie den Kommentar.Optional: Wenn Sie SQL-Code in Ihrem Notebook schreiben möchten, installieren Sie
bigquery-magics:
pip install --upgrade bigquery-magics
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die Rolle „BigQuery Studio
Nutzer
(roles/bigquery.studioUser)“ für das Projekt zuzuweisen, das Sie in der Erweiterung ausgewählt haben, um die Berechtigungen zu erhalten, die Sie zum Ausführen von BigQuery
Notebooks benötigen.
Bitten Sie Ihren Administrator, Ihnen die folgenden Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie für Managed Service for Apache Spark-Notebooks benötigen:
- Dataproc-Bearbeiter
(
roles/dataproc.editor) - Dataproc Serverless
Bearbeiter
(
roles/dataproc.serverlessEditor)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen. Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Daten transformieren
Für Daten in einer BigLake- oder BigQuery-Tabelle bietet die Erweiterung Notebookvorlagen, die Ihnen den Einstieg erleichtern.
Zur Tabelle wechseln
So wechseln Sie zu einer BigQuery- oder BigLake-Tabelle:
- Öffnen Sie die Befehlspalette mit
Ctrl/Cmd-Shift-P. - Maximieren Sie den Katalog-Explorer und suchen Sie nach Ihrer BigQuery- oder BigLake-Tabelle.
- Klicken Sie mit der rechten Maustaste auf die Tabellen-ID.
Wählen Sie im schwebenden Menü In Spark DataFrame laden oder In BigQuery DataFrame laden aus. In einem neuen Editor werden Informationen zur Tabelle angezeigt.
Sie können die Tabelle auch über die universelle Suche finden. Klicken Sie auf die Tabellen-ID, um einen neuen Editor zu öffnen, klicken Sie auf den Tab Daten und wählen Sie dann In Spark DataFrame laden oder In BigQuery DataFrame laden aus.
Notebook initialisieren
Nachdem Sie die Tabelle geladen haben, wird in einem Editor-Tab ein neues Jupyter-Notebook mit dem erforderlichen Code geöffnet, um die Tabelle in den ausgewählten DataFrame-Typ zu laden.
Wenn die erforderliche Bibliothek nicht in Ihrer virtuellen Python-Umgebung installiert ist, entfernen Sie die Auskommentierung der Zeile mit dem Befehl „pip install“.
Klicken Sie auf Kernel auswählen und wählen Sie einen Python-Kernel aus.
Für verwaltete Spark-Notebooks mit Remote-Kerneln müssen Sie einen Remote-Spark-Kernel auswählen.
Führen Sie die Zelle aus, indem Sie unten in der Zelle auf ▷ Alle ausführen klicken oder
Shift+Enterdrücken.Wenn Sie aufgefordert werden, fehlende Software zu installieren, klicken Sie auf Installieren.
Die Zelle erstellt einen DataFrame mit den Daten in der ausgewählten Tabelle.
Datentransformationen auf den DataFrame anwenden
Fügen Sie dem Notebook weitere Zellen hinzu und schreiben Sie den Code, um Ihre Daten zu transformieren. Für BigQuery DataFrames können Sie den DataFrame mit der pandas-kompatiblen API transformieren, die von BigQuery DataFrames bereitgestellt wird.
Alternativ bietet BigQuery DataFrames einen Magic-Befehl, mit dem Sie einen DataFrame mit SQL in einem Jupyter-Notebook transformieren können. So transformieren Sie Ihre Daten mit SQL:
Erstellen und führen Sie eine Zelle aus, um die Jupyter-Magic-Befehle zu aktivieren.
%load_ext bigframesErstellen Sie mit dem Magic-Befehl
%%bqsqleine SQL-Zelle.
Ergebnisse speichern
Verwenden Sie eine der vielen Ausgabemethoden, die von Ihrem DataFrame-Typ bereitgestellt werden, um die transformierten Daten in BigQuery oder Cloud Storage zu speichern. Für BigQuery DataFrames sind unter anderem die folgenden Ausgabemethoden verfügbar:
Bei kleinen Datenmengen können Sie die Daten zur weiteren lokalen Bearbeitung und Visualisierung in Arrow oder Pandas exportieren.
Bereinigen
Löschen Sie alle Ressourcen, die Sie erstellt haben und nicht mehr benötigen, um Gebühren für Ihr Google Cloud Konto zu vermeiden.