Einführung in BigQuery DataFrames

BigQuery DataFrames besteht aus einer Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames bietet einen Pythonic DataFrame, der von der BigQuery-Engine unterstützt wird. Die pandas- und scikit-learn-APIs werden implementiert, indem die Verarbeitung durch SQL-Konvertierung an BigQuery übertragen wird. So können Sie BigQuery verwenden, um Terabyte an Daten zu untersuchen und zu verarbeiten und um Modelle für maschinelles Lernen (ML) zu trainieren – alles mit Python APIs.

Wenn Sie mit Pandas vertraut sind, können Sie BigQuery DataFrames verwenden, um mit BigQuery-Daten zu arbeiten. Dazu sind nur minimale Änderungen an Ihrem Code erforderlich. Sie können beispielsweise vertraute Pandas-Methoden verwenden, um Daten aus einer BigQuery-Tabelle zu analysieren:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

Vorteile von BigQuery DataFrames

BigQuery DataFrames bietet folgende Funktionen:

  • Bietet mehr als 750 Pandas- und Scikit-Learn-APIs, die durch eine transparente SQL-Konvertierung in BigQuery- und BigQuery ML-APIs implementiert werden.
  • Verzögert die Ausführung von Abfragen für verbesserte Leistung.
  • Erweitert Datentransformationen mit benutzerdefinierten Python-Funktionen, um Daten in Google Cloudzu verarbeiten. Diese Funktionen werden automatisch als BigQuery-Remote-Funktionen bereitgestellt.
  • Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.

Lizenzierung

BigQuery DataFrames wird mit der Apache-2.0-Lizenz verteilt.

BigQuery DataFrames enthält auch Code, der aus den folgenden Drittanbieterpaketen abgeleitet wurde:

Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored im GitHub-Repository für BigQuery DataFrames.

Kontingente und Limits

  • Für BigQuery DataFrames gelten BigQuery-Kontingente, einschließlich Hardware-, Software- und Netzwerkkomponenten.
  • Eine Teilmenge der pandas- und scikit-learn-APIs wird unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
  • Sie müssen alle automatisch erstellten Cloud Run Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas APIs.

Preise

  • BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, die ohne zusätzliche Kosten heruntergeladen werden können.
  • BigQuery DataFrames verwendet BigQuery, Cloud Run Functions, Vertex AI und andereGoogle Cloud -Dienste, für die eigene Kosten anfallen.
  • Bei der normalen Nutzung werden temporäre Daten wie Zwischenergebnisse in BigQuery-Tabellen gespeichert. Diese Tabellen sind standardmäßig sieben Tage lang verfügbar. Die darin gespeicherten Daten werden Ihnen in Rechnung gestellt. Die Tabellen werden im Dataset _anonymous_ im Projekt Google Cloud erstellt, das Sie in der bf.options.bigquery.project-Option angeben.

Nächste Schritte