Daten mit BigQuery DataFrames bearbeiten
In diesem Dokument werden die Funktionen zur Datenbearbeitung beschrieben, die mit BigQuery DataFrames verfügbar sind. Die in der bigframes.bigquery-Bibliothek beschriebenen Funktionen finden Sie hier.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Ausführen der Aufgaben in diesem Dokument benötigen:
-
BigQuery Job User (
roles/bigquery.jobUser) -
BigQuery Read Session-Nutzer ()
roles/bigquery.readSessionUser -
BigQuery DataFrames in einem BigQuery-Notebook verwenden:
-
BigQuery User (
roles/bigquery.user) -
Notebook Runtime-Nutzer (
roles/aiplatform.notebookRuntimeUser) -
Code Creator (
roles/dataform.codeCreator)
-
BigQuery User (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Wenn Sie die Endnutzerauthentifizierung in einer interaktiven Umgebung wie einem Notebook, der Python-REPL oder der Befehlszeile ausführen, fordert BigQuery DataFrames bei Bedarf zur Authentifizierung auf. Andernfalls lesen Sie in diesem Artikel zum Einrichten von Standardanmeldedaten für Anwendungen für verschiedene Umgebungen.
pandas API
Ein wichtiges Merkmal von BigQuery DataFrames ist, dass die bigframes.pandas API so konzipiert ist, dass sie APIs in der pandas-Bibliothek ähnelt. Dieses Design ermöglicht es Ihnen, vertraute Syntaxmuster für Datenbearbeitungsaufgaben zu verwenden. Vorgänge, die über die BigQuery DataFrames API definiert werden, werden serverseitig ausgeführt. Dabei wird direkt auf Daten zugegriffen, die in BigQuery gespeichert sind. Datasets müssen nicht aus BigQuery übertragen werden.
Informationen dazu, welche pandas-APIs von BigQuery DataFrames unterstützt werden, finden Sie unter Unterstützte pandas-APIs.
Daten prüfen und bearbeiten
Mit der bigframes.pandas API können Sie Datenprüfungs- und Berechnungsvorgänge ausführen. Im folgenden Codebeispiel wird die bigframes.pandas-Bibliothek verwendet, um die Spalte body_mass_g zu prüfen, den Mittelwert body_mass zu berechnen und den Mittelwert body_mass nach species zu berechnen:
BigQuery-Bibliothek
Die BigQuery-Bibliothek bietet BigQuery-SQL-Funktionen, für die es möglicherweise kein pandas-Äquivalent gibt. In den folgenden Abschnitten finden Sie einige Beispiele.
Arraywerte verarbeiten
Mit der Funktion bigframes.bigquery.array_agg() in der Bibliothek bigframes.bigquery können Sie Werte nach einem groupby-Vorgang aggregieren:
Sie können auch die Arrayfunktionen array_length() und array_to_string() verwenden.
Erstellen Sie ein struct-Objekt Series.
Mit der Funktion bigframes.bigquery.struct() in der Bibliothek bigframes.bigquery können Sie ein neues Series-Objekt mit Unterfeldern für jede Spalte in einem DataFrame erstellen:
Zeitstempel in Unix-Epochen umwandeln
Mit der Funktion bigframes.bigquery.unix_micros() in der Bibliothek bigframes.bigquery können Sie Zeitstempel in Unix-Mikrosekunden umwandeln:
Sie können auch die Zeitfunktionen unix_seconds() und unix_millis() verwenden.
SQL-Skalarfunktion verwenden
Mit der Funktion bigframes.bigquery.sql_scalar() in der bigframes.bigquery-Bibliothek können Sie auf beliebige SQL-Syntax zugreifen, die einen einspaltigen Ausdruck darstellt:
Nächste Schritte
- Benutzerdefinierte Python-Funktionen für BigQuery DataFrames
- Informationen zum Generieren von BigQuery DataFrames-Code mit Gemini
- Informationen zum Analysieren von Paketdownloads von PyPI mit BigQuery DataFrames
- Quellcode, Beispiel-Notebooks und Beispiele für BigQuery DataFrames finden Sie auf GitHub.
- Referenz zur BigQuery DataFrames API