Daten transformieren

Mit der Google Cloud Data Agent Kit-Erweiterung für Visual Studio Code können Sie Notebooks für die Datenbereinigung, das Feature Engineering und die detaillierte Analyse verwenden.Es gibt drei Arten von Notebooks.

  • BigQuery DataFrames-Notebooks. Das sind Python-Notebooks, mit denen Sie umfangreiche Datasets in BigQuery mit vertrauten pandas- und scikit-learn-APIs verarbeiten können. Sie unterstützen das Schreiben von Code in GoogleSQL for BigQuery zusätzlich zu Python.
  • Verwaltete Apache Spark-Notebooks mit lokalem Kernel. Dies sind Python-Notebooks, mit denen Sie Jobs in Managed Service for Apache Spark mithilfe der Spark Connect-Bibliothek erstellen und ausführen können.

  • Verwaltete Apache Spark-Notebooks mit Remote-Kernel. Mit diesen Notebooks können Sie Ihr Notebook in einem Remote-Kernel ausführen, der vollständig in Managed Service for Apache Spark ausgeführt wird. Kein Teil Ihres Codes wird lokal auf Ihrem Computer ausgeführt. Neben PySpark können Sie Ihren Code auch in Spark SQL schreiben. Dazu verwenden Sie den %%sparksql-Zellen-Magic.

Hinweis

Für BigQuery-Notebooks muss die bigframes-Bibliothek in derselben virtuellen Python-Umgebung installiert sein, in der Sie Ihr Notebook ausführen. Wenn Sie ein neues Notebook erstellen, enthält die Initialisierungszelle die folgende auskommentierte Zeile:

#%pip install --upgrade bigframes
  1. Optional: Wenn Sie die bigframes-Bibliothek nicht in Ihrer virtuellen Python-Umgebung installiert haben, entfernen Sie den Kommentar.

  2. Optional: Wenn Sie SQL-Code in Ihrem Notebook schreiben möchten, installieren Sie bigquery-magics:

pip install --upgrade bigquery-magics

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die Rolle BigQuery Studio-Nutzer (roles/bigquery.studioUser) für das Projekt zuzuweisen, das Sie in der Erweiterung ausgewählt haben, um die Berechtigungen zu erhalten, die Sie zum Ausführen von BigQuery-Notebooks benötigen.

Bitten Sie Ihren Administrator, Ihnen die folgenden Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie für Managed Service for Apache Spark-Notebooks benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten. Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Daten transformieren

Für Daten in einer BigLake- oder BigQuery-Tabelle bietet die Erweiterung Notebook-Vorlagen für den Einstieg.

So rufen Sie eine BigQuery- oder BigLake-Tabelle auf:

  1. Öffnen Sie die Befehlspalette, indem Sie Ctrl/Cmd-Shift-P drücken.
  2. Maximieren Sie den Katalog-Explorer und suchen Sie nach Ihrem BigQuery- oder BigLake-Katalog.
  3. Klicken Sie mit der rechten Maustaste auf die Tabellen-ID.
  4. Wählen Sie im schwebenden Menü In Spark-DataFrame laden oder In BigQuery-DataFrame laden aus. In einem neuen Editor werden Informationen zur Tabelle angezeigt.

    Sie können die Tabelle auch über die universelle Suche aufrufen. Klicken Sie auf die Tabellen-ID, um einen neuen Editor zu öffnen, klicken Sie auf den Tab Daten und wählen Sie dann In Spark-DataFrame laden oder In BigQuery-DataFrame laden aus.

Notebook initialisieren

Nachdem Sie die Tabelle geladen haben, wird ein neues Jupyter-Notebook in einem Editor-Tab geöffnet, das den erforderlichen Code zum Laden der Tabelle im ausgewählten DataFrame-Typ enthält.

  1. Wenn die erforderliche Bibliothek nicht in Ihrer virtuellen Python-Umgebung installiert ist, entfernen Sie die Kommentarzeichen aus der Zeile „pip install“.

  2. Klicken Sie auf Kernel auswählen und wählen Sie einen Python-Kernel aus.

    Für Managed Spark-Notebooks mit Remote-Kernels müssen Sie einen Remote-Spark-Kernel auswählen.

  3. Führen Sie die Zelle aus, indem Sie unten in der Zelle auf ▷ Alle ausführen klicken oder Shift+Enter drücken.

  4. Wenn Sie aufgefordert werden, fehlende Software zu installieren, klicken Sie auf Installieren.

In der Zelle wird ein DataFrame mit den Daten in der ausgewählten Tabelle erstellt.

Datentransformationen auf den DataFrame anwenden

Fügen Sie dem Notebook weitere Zellen hinzu und schreiben Sie den Code, um Ihre Daten zu transformieren. Bei BigQuery DataFrames können Sie den DataFrame mit der pandas-kompatiblen API von BigQuery DataFrames transformieren.

Alternativ bietet BigQuery DataFrames einen Magics-Befehl, mit dem Sie einen DataFrame mithilfe von SQL in einem Jupyter-Notebook transformieren können. So transformieren Sie Ihre Daten mit SQL:

  1. Erstellen und führen Sie eine Zelle aus, um die Jupyter-Magics zu aktivieren.

    %load_ext bigframes

  2. Erstellen Sie eine SQL-Zelle mit den %%bqsql-Magics.

Ergebnisse speichern

Verwenden Sie eine der vielen Ausgabemethoden, die von Ihrem DataFrame-Typ bereitgestellt werden, um die transformierten Daten in BigQuery oder Cloud Storage zu speichern. Für BigQuery DataFrames sind unter anderem die folgenden Ausgabemethoden verfügbar:

Bei kleinen Datenmengen können Sie die Daten zur weiteren lokalen Bearbeitung und Visualisierung in Arrow oder Pandas exportieren.

Bereinigen

Damit Ihrem Google Cloud -Konto keine Gebühren in Rechnung gestellt werden, sollten Sie alle Ressourcen löschen, die Sie erstellt haben, aber nicht mehr benötigen.

Nächste Schritte