Pengantar BigQuery DataFrames

BigQuery DataFrames adalah sekumpulan library Python open source yang memungkinkan Anda memanfaatkan pemrosesan data BigQuery menggunakan Python API yang sudah dikenal. BigQuery DataFrames menyediakan DataFrame Python yang didukung oleh mesin BigQuery, dan mengimplementasikan pandas dan scikit-learn API dengan mendorong pemrosesan ke BigQuery melalui konversi SQL. Hal ini memungkinkan Anda menggunakan BigQuery untuk menjelajahi dan memproses data berukuran terabyte, serta melatih model machine learning (ML), semuanya dengan Python API.

Jika sudah terbiasa dengan pandas, Anda dapat menggunakan BigQuery DataFrames untuk menggunakan data BigQuery dengan perubahan minimal pada kode Anda. Misalnya, Anda dapat menggunakan metode pandas yang sudah dikenal untuk menganalisis data dari tabel BigQuery:

import bigframes.pandas as bpd

# Load data from BigQuery
query_or_table = "bigquery-public-data.ml_datasets.penguins"
bq_df = bpd.read_gbq(query_or_table)

# Inspect one of the columns (or series) of the DataFrame:
bq_df["body_mass_g"]

# Compute the mean of this series:
average_body_mass = bq_df["body_mass_g"].mean()
print(f"average_body_mass: {average_body_mass}")

# Find the heaviest species using the groupby operation to calculate the
# mean body_mass_g:
(
    bq_df["body_mass_g"]
    .groupby(by=bq_df["species"])
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

Manfaat BigQuery DataFrames

BigQuery DataFrames melakukan hal berikut:

  • Menawarkan lebih dari 750 pandas dan scikit-learn API yang diimplementasikan melalui konversi SQL transparan ke BigQuery dan BigQuery ML API.
  • Menunda eksekusi kueri untuk meningkatkan performa.
  • Memperluas transformasi data dengan fungsi Python yang ditentukan pengguna untuk memungkinkan Anda memproses data di Google Cloud. Fungsi ini otomatis di-deploy sebagai fungsi jarak jauh BigQuery .
  • Terintegrasi dengan Gemini Enterprise Agent Platform untuk memungkinkan Anda menggunakan model Gemini untuk pembuatan teks.

Pemberian Lisensi

BigQuery DataFrames didistribusikan dengan lisensi Apache-2.0.

BigQuery DataFrames juga berisi kode yang berasal dari paket pihak ketiga berikut:

Untuk mengetahui detailnya, lihat third_party/bigframes_vendored direktori di repositori GitHub BigQuery DataFrames.

Kuota dan batas

  • Kuota BigQuery berlaku untuk BigQuery DataFrames, termasuk komponen hardware, software, dan jaringan.
  • Subset pandas dan scikit-learn API didukung. Untuk mengetahui informasi selengkapnya, lihat Pandas API yang didukung.
  • Anda harus membersihkan fungsi Cloud Run yang dibuat secara otomatis sebagai bagian dari pembersihan sesi. Untuk mengetahui informasi selengkapnya, lihat Pandas API yang didukung.

Harga

  • BigQuery DataFrames adalah sekumpulan library Python open source yang tersedia untuk didownload tanpa biaya tambahan.
  • BigQuery DataFrames menggunakan BigQuery, fungsi Cloud Run, Agent Platform, dan Google Cloud layanan lainnya, yang dikenai biaya sendiri.
  • Selama penggunaan reguler, BigQuery DataFrames menyimpan data sementara, seperti hasil perantara, dalam tabel BigQuery. Tabel ini dipertahankan selama tujuh hari secara default, dan Anda akan dikenai biaya untuk data yang disimpan di dalamnya. Tabel dibuat dalam set data _anonymous_ di project yang Anda tentukan dalam Google Cloud opsi bf.options.bigquery.project.

Langkah berikutnya