Abfrageergebnisse in Notebooks auswerten

Sie können Abfrageergebnisse mit SQL-Zellen oder Codezellen in BigQuery Colab Enterprise-Notebooks untersuchen.

In dieser Anleitung fragen Sie Daten aus einem öffentlichen BigQuery-Dataset ab und untersuchen die Abfrageergebnisse in einem Notebook.

Lernziele

  • Erstellen Sie eine Abfrage in BigQuery und führen Sie sie aus.
  • Abfrageergebnisse in einem Notebook mit SQL-Zellen und Codezellen ansehen.

Kosten

In dieser Anleitung wird ein Dataset aus dem Google Cloud Public Datasets-Programm verwendet. Google bezahlt die Speicherung dieser Datasets und bietet öffentlichen Zugriff auf die Daten. Für die Abfragen, die Sie für die Daten ausführen, fallen Kosten an. Weitere Informationen finden Sie unter BigQuery-Preise.

Hinweis

  1. Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl ein Google Cloud -Projekt aus oder erstellen Sie eines.

    Rollen, die zum Auswählen oder Erstellen eines Projekts erforderlich sind

    • Projekt auswählen: Für die Auswahl eines Projekts ist keine bestimmte IAM-Rolle erforderlich. Sie können jedes Projekt auswählen, für das Ihnen eine Rolle zugewiesen wurde.
    • Projekt erstellen: Zum Erstellen eines Projekts benötigen Sie die Rolle „Projektersteller“ (roles/resourcemanager.projectCreator), die die Berechtigung resourcemanager.projects.create enthält. Weitere Informationen zum Zuweisen von Rollen

    Zur Projektauswahl

  2. Prüfen Sie, ob für Ihr Google Cloud Projekt die Abrechnung aktiviert ist.

  3. Aktivieren Sie die BigQuery API.

    Rollen, die zum Aktivieren von APIs erforderlich sind

    Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

    API aktivieren

    Bei neuen Projekten ist BigQuery automatisch aktiviert.

Standardregion für Code-Assets festlegen

Für alle neuen Code-Assets in Ihrem Google Cloud -Projekt wird eine Standardregion verwendet. Nachdem das Asset erstellt wurde, können Sie seine Region nicht mehr ändern.

So legen Sie die Standardregion für neue Code-Assets fest:

  1. Rufen Sie die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf  Dateien, um den Dateibrowser zu öffnen:

    Klicken Sie auf **Dateien**, um den Dateibrowser zu öffnen.

  3. Klicken Sie neben dem Projektnamen auf  Aktionen für den Bereich „Dateien“ ansehen > Code-Region wechseln.

  4. Wählen Sie die Code-Region aus, die Sie als Standard verwenden möchten.

  5. Klicken Sie auf Speichern.

Eine Liste der unterstützten Regionen finden Sie unter BigQuery Studio-Standorte.

Erforderliche Berechtigungen

Zum Erstellen und Ausführen von Notebooks benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):

Abfrageergebnisse in einem Notebook öffnen

Sie können eine SQL-Abfrage ausführen und dann ein Notebook verwenden, um die Daten auszuwerten. Diese Vorgehensweise ist nützlich, wenn Sie die Daten in BigQuery ändern möchten, bevor Sie mit ihnen arbeiten, oder wenn Sie nur eine Teilmenge der Tabellenfelder benötigen.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Bereich auf Explorer.

  3. Rufen Sie das Projekt bigquery-public-data auf, klicken Sie auf Knoten ein-/ausblenden, um es zu maximieren, und klicken Sie dann auf Datasets. Im Detailbereich wird ein neuer Tab geöffnet, auf dem eine Liste aller Datasets im Projekt angezeigt wird.

  4. Wählen Sie im Feld Filter die Option Dataset-ID aus und geben Sie ml_datasets ein.

    Das Feld „Filter“ auf der Seite „Datasets“

  5. Klicken Sie auf der Seite Datasets auf ml_datasets > penguins.

  6. Klicken Sie auf  Abfrage.

  7. Fügen Sie der generierten Abfrage ein Sternchen (*) für die Feldauswahl hinzu, damit sie wie im folgenden Beispiel aussieht:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
  8. Klicken Sie auf Ausführen.

  9. Klicken Sie im Bereich Abfrageergebnisse auf Öffnen in und dann auf Notebook.

Notebook für die Verwendung vorbereiten

Bereiten Sie das Notebook für die Verwendung vor, indem Sie eine Verbindung zu einer Laufzeit herstellen und Standardwerte für die Anwendung festlegen.

  1. Klicken Sie in der Notebook-Kopfzeile auf Verbinden, um eine Verbindung zur Standardlaufzeit herzustellen.

  2. Klicken Sie im Codeblock Einrichtung auf Zelle ausführen.

Öffentliche Daten durchsuchen

  1. Klicken Sie auf  Optionen für das Einfügen von Codezellen> SQL-Zelle hinzufügen.

    Die Option „SQL-Zelle hinzufügen“ im Menü „Codezelle einfügen“

  2. Geben Sie die folgende Abfrage in die SQL-Zelle ein:

    SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
    
  3. Klicken Sie auf  Zelle ausführen.

    Die Abfrageergebnisse werden in einem BigQuery-DataFrame angezeigt.

  4. Alternativ können Sie die Abfrageergebnisse in einen BigQuery-DataFrame laden. Verwenden Sie dazu den Abfragejob, den Sie zuvor im Abfrageeditor ausgeführt haben. Gehen Sie so vor:

    1. Rufen Sie den Abschnitt Ergebnismenge, die aus dem BigQuery-Job als DataFrame geladen wurde auf.

    2. Klicken Sie im Codeblock auf  Zelle ausführen.

      Die Abfrageergebnisse werden in einem BigQuery-DataFrame angezeigt.

  5. So rufen Sie deskriptive Messwerte für die Daten ab:

    1. Rufen Sie den Abschnitt Beschreibende Statistiken mit describe() anzeigen auf.

    2. Klicken Sie im Codeblock auf  Zelle ausführen.

      Die Ergebnisse werden in einem BigQuery-DataFrame angezeigt.

  6. Optional: Verwenden Sie andere Python-Funktionen oder -Pakete, um die Daten auszuwerten und zu analysieren.

Im folgenden Codebeispiel wird die Verwendung von bigframes.pandas zum Analysieren von Daten und von bigframes.ml zum Erstellen eines linearen Regressionsmodells aus Pinguin-Daten in einem BigQuery-DataFrame:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Am einfachsten vermeiden Sie weitere Kosten, indem Sie das für diese Anleitung erstellte Google Cloud Projekt löschen.

  1. Wechseln Sie in der Google Cloud -Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte