BigQuery DataFrames installieren
BigQuery DataFrames bietet eine Python-DataFrame- und eine API für maschinelles Lernen (ML), die von der BigQuery-Engine unterstützt wird. BigQuery DataFrames ist ein Open-Source-Paket.
BigQuery DataFrames installieren
Führen Sie pip install
--upgrade bigframes aus, um die aktuelle Version von BigQuery DataFrames zu installieren.
Verfügbare Bibliotheken
BigQuery DataFrames bietet drei Bibliotheken:
bigframes.pandasbietet eine pandas API, mit der Sie Daten in BigQuery analysieren und bearbeiten können. Viele Arbeitslasten können von pandas zu BigFrames migriert werden, indem nur einige Importe geändert werden. Diebigframes.pandasAPI ist skalierbar, um die Verarbeitung von Terabyte an BigQuery-Daten zu unterstützen. Sie verwendet die BigQuery-Abfrage-Engine für Berechnungen.bigframes.bigquerybietet viele BigQuery SQL-Funktionen, für die es möglicherweise kein pandas-Äquivalent gibt.bigframes.mlbietet eine API, die der scikit-learn-API für ML ähnelt. Mit den ML-Funktionen in BigQuery DataFrames können Sie Daten vorverarbeiten und Modelle mit diesen Daten trainieren. Diese Aktionen lassen sich auch für die Erstellung von Datenpipelines aneinanderketten.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Ausführen der Aufgaben in diesem Dokument benötigen:
-
BigQuery Job User (
roles/bigquery.jobUser) -
BigQuery Read Session-Nutzer ()
roles/bigquery.readSessionUser -
BigQuery DataFrames in einem BigQuery-Notebook verwenden:
-
BigQuery User (
roles/bigquery.user) -
Notebook Runtime-Nutzer (
roles/aiplatform.notebookRuntimeUser) -
Code Creator (
roles/dataform.codeCreator)
-
BigQuery User (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Wenn Sie die Endnutzerauthentifizierung in einer interaktiven Umgebung wie einem Notebook, der Python-REPL oder der Befehlszeile ausführen, fordert BigQuery DataFrames bei Bedarf zur Authentifizierung auf. Andernfalls lesen Sie in diesem Artikel zum Einrichten von Standardanmeldedaten für Anwendungen für verschiedene Umgebungen.
Installationsoptionen konfigurieren
Nach der Installation von BigQuery DataFrames können Sie die folgenden Optionen angeben.
Standort und Projekt
Sie müssen den Standort und das Projekt angeben, in dem Sie BigQuery DataFrames verwenden möchten.
Sie können den Speicherort und das Projekt in Ihrem Notebook so definieren:
Ort der Datenverarbeitung
BigQuery DataFrames ist auf Skalierbarkeit ausgelegt, was durch die Speicherung von Daten und die Verarbeitung im BigQuery-Dienst ermöglicht wird. Sie können jedoch Daten in den Speicher Ihres Client-Rechners übertragen, indem Sie in einem DataFrame- oderSeries-Objekt .to_pandas() aufrufen. In diesem Fall gilt die Speicherbeschränkung Ihres Clientcomputers.
Nächste Schritte
- Daten mit BigQuery DataFrames bearbeiten
- Informationen zum Generieren von BigQuery DataFrames-Code mit Gemini
- Informationen zum Analysieren von Paketdownloads von PyPI mit BigQuery DataFrames
- Quellcode, Beispiel-Notebooks und Beispiele für BigQuery DataFrames finden Sie auf GitHub.
- Referenz zur BigQuery DataFrames API