Diese Seite wurde von der Cloud Translation API übersetzt.

Abfrageergebnisse in Notebooks auswerten

Sie können BigQuery-Abfrageergebnisse mit Colab Enterprise-Notebooks in BigQuery auswerten.

In dieser Anleitung fragen Sie Daten aus einem öffentlichen BigQuery-Dataset ab und untersuchen die Abfrageergebnisse in einem Notebook.

Lernziele

Erstellen Sie eine Abfrage in BigQuery und führen Sie sie aus.
Abfrageergebnisse in einem Notebook ansehen.

Kosten

In dieser Anleitung wird ein Dataset aus dem Google Cloud Public Datasets-Programm verwendet. Google bezahlt die Speicherung dieser Datasets und bietet öffentlichen Zugriff auf die Daten. Für die Abfragen, die Sie für die Daten ausführen, fallen Kosten an. Weitere Informationen finden Sie unter BigQuery-Preise.

Hinweise

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Bei neuen Projekten ist BigQuery automatisch aktiviert.

Standardregion für Code-Assets festlegen

Wenn Sie zum ersten Mal ein Code-Asset erstellen, sollten Sie die Standardregion für Code-Assets festlegen. Sie können die Region für ein Code-Asset nicht mehr ändern, nachdem es erstellt wurde.

Für alle Code-Assets in BigQuery Studio wird dieselbe Standardregion verwendet. So legen Sie die Standardregion für Code-Assets fest:

Rufen Sie die Seite BigQuery auf.

BigQuery aufrufen
Suchen Sie im Bereich Explorer nach dem Projekt, in dem Sie Code-Assets aktiviert haben.
Klicken Sie neben dem Projekt auf Aktionen ansehen und dann auf Meine Standardregion für Code ändern.
Wählen Sie unter Region die Region aus, die Sie für Code-Assets verwenden möchten.
Klicken Sie auf Auswählen.

Eine Liste der unterstützten Regionen finden Sie unter BigQuery Studio-Standorte.

Erforderliche Berechtigungen

Zum Erstellen und Ausführen von Notebooks benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):

Abfrageergebnisse in einem Notebook öffnen

Sie können eine SQL-Abfrage ausführen und dann ein Notebook verwenden, um die Daten auszuwerten. Diese Vorgehensweise ist nützlich, wenn Sie die Daten in BigQuery ändern möchten, bevor Sie mit ihnen arbeiten, oder wenn Sie nur eine Teilmenge der Tabellenfelder benötigen.

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Geben Sie in das Feld Suchbegriff eingeben bigquery-public-data ein.

Wenn das Projekt nicht angezeigt wird, geben Sie bigquery in das Suchfeld ein und klicken Sie dann auf In allen Projekten suchen, um den Suchstring mit den vorhandenen Projekten abzugleichen.
Wählen Sie bigquery-public-data > ml_datasets > penguins aus.
Klicken Sie für die Tabelle penguins auf Aktionen anzeigen und dann auf Abfrage.
Fügen Sie der generierten Abfrage ein Sternchen (*) für die Feldauswahl hinzu, sodass sie wie im folgenden Beispiel aussieht:
```
SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
```
Klicken Sie auf Ausführen.
Klicken Sie im Abschnitt Abfrageergebnisse auf Öffnen in und dann auf Notebook.

Notebook für die Verwendung vorbereiten

Bereiten Sie das Notebook für die Verwendung vor, indem Sie eine Verbindung zu einer Laufzeit herstellen und Standardwerte für die Anwendung festlegen.

Klicken Sie in der Notebook-Kopfzeile auf Verbinden, um eine Verbindung zur Standardlaufzeit herzustellen.
Klicken Sie im Codeblock Einrichtung auf Zelle ausführen.

Öffentliche Daten durchsuchen

Um die penguins-Daten in einen BigQuery DataFrame zu laden und die Ergebnisse anzuzeigen, klicken Sie auf Zelle ausführen im Codeblock im Abschnitt Ergebnismenge, die aus dem BigQuery-Job als DataFrame geladen wurde an.
Klicken Sie im Codeblock im Abschnitt Beschreibende Statistiken mit describe() anzeigen auf Zelle ausführen, um beschreibende Messwerte für die Daten abzurufen.
Optional: Verwenden Sie andere Python-Funktionen oder -Pakete, um die Daten auszuwerten und zu analysieren.

Im folgenden Codebeispiel wird die Verwendung von bigframes.pandas zum Analysieren von Daten und von bigframes.ml zum Erstellen eines linearen Regressionsmodells aus Pinguin-Daten in einem BigQuery-DataFrame:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

# Create the Linear Regression model
from bigframes.ml.linear_model import LinearRegression

# Filter down to the data we want to analyze
adelie_data = bq_df[bq_df.species == "Adelie Penguin (Pygoscelis adeliae)"]

# Drop the columns we don't care about
adelie_data = adelie_data.drop(columns=["species"])

# Drop rows with nulls to get our training data
training_data = adelie_data.dropna()

# Pick feature columns and label column
X = training_data[
    [
        "island",
        "culmen_length_mm",
        "culmen_depth_mm",
        "flipper_length_mm",
        "sex",
    ]
]
y = training_data[["body_mass_g"]]

model = LinearRegression(fit_intercept=False)
model.fit(X, y)
model.score(X, y)

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Am einfachsten vermeiden Sie weitere Kosten, indem Sie das Google Cloud Projekt löschen, das Sie für diese Anleitung erstellt haben.

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, zum Beispiel eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, anstatt das gesamte Projekt.

Wenn Sie weitere Architekturen, Tutorials oder Kurzanleitungen nutzen möchten, können Sie vorhandene Projekte wiederverwenden und somit vermeiden, dass Projektkontingente überschritten werden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Nächste Schritte

Weitere Informationen zum Erstellen von Notebooks in BigQuery
Daten mit BigQuery DataFrames untersuchen