Menginstal BigQuery DataFrames
BigQuery DataFrames menyediakan DataFrame Python dan API machine learning (ML) yang didukung oleh mesin BigQuery. BigQuery DataFrames adalah paket open source.
Menginstal BigQuery DataFrames
Untuk menginstal BigQuery DataFrames versi terbaru, jalankan pip install
--upgrade bigframes.
Library yang tersedia
DataFrame BigQuery menyediakan tiga library:
bigframes.pandasmenyediakan pandas API yang dapat Anda gunakan untuk menganalisis dan memanipulasi data di BigQuery. Banyak beban kerja dapat dimigrasikan dari pandas ke bigframes hanya dengan mengubah beberapa impor. APIbigframes.pandasdapat diskalakan untuk mendukung pemrosesan data BigQuery berukuran terabyte, dan API ini menggunakan mesin kueri BigQuery untuk melakukan penghitungan.bigframes.bigquerymenyediakan banyak fungsi SQL BigQuery yang mungkin tidak memiliki fungsi pandas yang setara.bigframes.mlmenyediakan API yang mirip dengan scikit-learn API untuk ML. Kemampuan ML di BigQuery DataFrames memungkinkan Anda memproses data terlebih dahulu, lalu melatih model berdasarkan data tersebut. Anda juga dapat menggabungkan tindakan ini untuk membuat pipeline data.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk menyelesaikan tugas dalam dokumen ini, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:
-
BigQuery Job User (
roles/bigquery.jobUser) -
BigQuery Read Session User (
roles/bigquery.readSessionUser) -
Menggunakan BigQuery DataFrames di notebook BigQuery:
-
Pengguna BigQuery (
roles/bigquery.user) -
Pengguna Runtime Notebook (
roles/aiplatform.notebookRuntimeUser) -
Pembuat Kode (
roles/dataform.codeCreator)
-
Pengguna BigQuery (
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Saat Anda melakukan autentikasi pengguna akhir di lingkungan interaktif seperti notebook, REPL Python, atau command line, BigQuery DataFrames akan meminta autentikasi, jika diperlukan. Jika tidak, lihat cara menyiapkan kredensial default aplikasi untuk berbagai lingkungan.
Mengonfigurasi opsi penginstalan
Setelah menginstal BigQuery DataFrames, Anda dapat menentukan opsi berikut.
Lokasi dan project
Anda perlu menentukan lokasi dan project tempat Anda ingin menggunakan DataFrame BigQuery.
Anda dapat menentukan lokasi dan project di notebook dengan cara berikut:
Lokasi pemrosesan data
DataFrame BigQuery dirancang untuk skala besar, yang dicapainya dengan menyimpan data dan pemrosesan di layanan BigQuery. Namun, Anda dapat memasukkan data ke dalam memori mesin klien dengan memanggil .to_pandas() pada objek DataFrame atau Series. Jika
Anda memilih untuk melakukannya, batasan memori mesin klien Anda akan berlaku.
Langkah berikutnya
- Pelajari cara memanipulasi data dengan DataFrame BigQuery.
- Pelajari cara membuat kode BigQuery DataFrames dengan Gemini.
- Pelajari cara menganalisis download paket dari PyPI dengan DataFrame BigQuery.
- Lihat kode sumber BigQuery DataFrames, notebook contoh, dan contoh di GitHub.
- Jelajahi referensi BigQuery DataFrames API.