Menginstal BigQuery DataFrames

BigQuery DataFrames menyediakan DataFrame Python dan API machine learning (ML) yang didukung oleh mesin BigQuery. BigQuery DataFrames adalah paket open source.

Menginstal BigQuery DataFrames

Untuk menginstal BigQuery DataFrames versi terbaru, jalankan pip install --upgrade bigframes.

Library yang tersedia

DataFrame BigQuery menyediakan tiga library:

  • bigframes.pandas menyediakan pandas API yang dapat Anda gunakan untuk menganalisis dan memanipulasi data di BigQuery. Banyak beban kerja dapat dimigrasikan dari pandas ke bigframes hanya dengan mengubah beberapa impor. API bigframes.pandas dapat diskalakan untuk mendukung pemrosesan data BigQuery berukuran terabyte, dan API ini menggunakan mesin kueri BigQuery untuk melakukan penghitungan.
  • bigframes.bigquery menyediakan banyak fungsi SQL BigQuery yang mungkin tidak memiliki fungsi pandas yang setara.
  • bigframes.ml menyediakan API yang mirip dengan scikit-learn API untuk ML. Kemampuan ML di BigQuery DataFrames memungkinkan Anda memproses data terlebih dahulu, lalu melatih model berdasarkan data tersebut. Anda juga dapat menggabungkan tindakan ini untuk membuat pipeline data.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk menyelesaikan tugas dalam dokumen ini, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Saat Anda melakukan autentikasi pengguna akhir di lingkungan interaktif seperti notebook, REPL Python, atau command line, BigQuery DataFrames akan meminta autentikasi, jika diperlukan. Jika tidak, lihat cara menyiapkan kredensial default aplikasi untuk berbagai lingkungan.

Mengonfigurasi opsi penginstalan

Setelah menginstal BigQuery DataFrames, Anda dapat menentukan opsi berikut.

Lokasi dan project

Anda perlu menentukan lokasi dan project tempat Anda ingin menggunakan DataFrame BigQuery.

Anda dapat menentukan lokasi dan project di notebook dengan cara berikut:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

Lokasi pemrosesan data

DataFrame BigQuery dirancang untuk skala besar, yang dicapainya dengan menyimpan data dan pemrosesan di layanan BigQuery. Namun, Anda dapat memasukkan data ke dalam memori mesin klien dengan memanggil .to_pandas() pada objek DataFrame atau Series. Jika Anda memilih untuk melakukannya, batasan memori mesin klien Anda akan berlaku.

Langkah berikutnya