Sie können BigQuery-Abfrageergebnisse mit Colab Enterprise-Notebooks in BigQuery auswerten.
In dieser Anleitung fragen Sie Daten aus einem öffentlichen BigQuery-Dataset ab und untersuchen die Abfrageergebnisse in einem Notebook.
Erforderliche Berechtigungen
Zum Erstellen und Ausführen von Notebooks benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):
- BigQuery-Nutzer (
roles/bigquery.user
) - Notebook Runtime-Nutzer (
roles/aiplatform.notebookRuntimeUser
) - Code Creator (
roles/dataform.codeCreator
)
Abfrageergebnisse in einem Notebook öffnen
Sie können eine SQL-Abfrage ausführen und dann ein Notebook verwenden, um die Daten auszuwerten. Diese Vorgehensweise ist nützlich, wenn Sie die Daten in BigQuery ändern möchten, bevor Sie mit ihnen arbeiten, oder wenn Sie nur eine Teilmenge der Tabellenfelder benötigen.
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Geben Sie in das Feld Suchbegriff eingeben
bigquery-public-data
ein.Wenn das Projekt nicht angezeigt wird, geben Sie
bigquery
in das Suchfeld ein und klicken Sie dann auf In allen Projekten suchen, um den Suchstring mit den vorhandenen Projekten abzugleichen.Wählen Sie bigquery-public-data > ml_datasets > penguins aus.
Klicken Sie für die Tabelle penguins auf
Aktionen anzeigen und dann auf Abfrage.Fügen Sie der generierten Abfrage ein Sternchen (
*
) für die Feldauswahl hinzu, sodass sie wie im folgenden Beispiel aussieht:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
Klicken Sie auf
Ausführen.Klicken Sie im Bereich Abfrageergebnisse auf Daten auswerten und dann auf Mit Python-Notebook auswerten.
Notebook für die Verwendung vorbereiten
Bereiten Sie das Notebook für die Verwendung vor, indem Sie eine Verbindung zu einer Laufzeit herstellen und Standardwerte für die Anwendung festlegen.
- Klicken Sie in der Notebook-Kopfzeile auf Verbinden, um eine Verbindung zur Standardlaufzeit herzustellen.
- Klicken Sie im Codeblock Einrichtung auf Zelle ausführen.
Öffentliche Daten durchsuchen
- Um die penguins-Daten in einen BigQuery DataFrame zu laden und die Ergebnisse anzuzeigen, klicken Sie auf Zelle ausführen im Codeblock im Abschnitt Ergebnismenge, die aus dem BigQuery-Job als DataFrame geladen wurde an.
- Klicken Sie im Codeblock im Abschnitt Beschreibende Statistiken mit describe() anzeigen auf Zelle ausführen, um beschreibende Messwerte für die Daten abzurufen.
- Optional: Verwenden Sie andere Python-Funktionen oder -Pakete, um die Daten auszuwerten und zu analysieren.
Im folgenden Codebeispiel wird die Verwendung von bigframes.pandas
zum Analysieren von Daten und von bigframes.ml
zum Erstellen eines linearen Regressionsmodells aus Pinguin-Daten in einem BigQuery-DataFrame: