Memanipulasi data dengan DataFrame BigQuery
Dokumen ini menjelaskan kemampuan manipulasi data yang tersedia dengan BigQuery DataFrame. Anda dapat menemukan fungsi yang dijelaskan di
library bigframes.bigquery.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk menyelesaikan tugas dalam dokumen ini, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:
-
BigQuery Job User (
roles/bigquery.jobUser) -
BigQuery Read Session User (
roles/bigquery.readSessionUser) -
Menggunakan BigQuery DataFrames di notebook BigQuery:
-
Pengguna BigQuery (
roles/bigquery.user) -
Pengguna Runtime Notebook (
roles/aiplatform.notebookRuntimeUser) -
Pembuat Kode (
roles/dataform.codeCreator)
-
Pengguna BigQuery (
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Saat Anda melakukan autentikasi pengguna akhir di lingkungan interaktif seperti notebook, REPL Python, atau command line, BigQuery DataFrames akan meminta autentikasi, jika diperlukan. Jika tidak, lihat cara menyiapkan kredensial default aplikasi untuk berbagai lingkungan.
pandas API
Fitur penting BigQuery DataFrames adalah
bigframes.pandas API
didesain agar mirip dengan API di library pandas. Desain ini memungkinkan Anda menggunakan pola sintaksis yang sudah dikenal untuk tugas manipulasi data. Operasi yang ditentukan melalui
BigQuery DataFrames API dieksekusi di sisi server, beroperasi langsung
pada data yang disimpan dalam BigQuery dan menghilangkan kebutuhan untuk
mentransfer set data dari BigQuery.
Untuk memeriksa API pandas mana yang didukung oleh BigQuery DataFrames, lihat API pandas yang didukung.
Memeriksa dan memanipulasi data
Anda dapat menggunakan bigframes.pandas API untuk melakukan operasi inspeksi dan
kalkulasi data. Contoh kode berikut menggunakan pustaka bigframes.pandas
untuk memeriksa kolom body_mass_g, menghitung rata-rata body_mass, dan
menghitung rata-rata body_mass menurut species:
Library BigQuery
Library BigQuery menyediakan fungsi SQL BigQuery yang mungkin tidak memiliki padanan pandas. Bagian berikut menampilkan beberapa contoh.
Memproses nilai array
Anda dapat menggunakan fungsi bigframes.bigquery.array_agg() di library
bigframes.bigquery untuk menggabungkan nilai setelah operasi groupby:
Anda juga dapat menggunakan fungsi array array_length() dan array_to_string().
Buat objek struct Series
Anda dapat menggunakan fungsi bigframes.bigquery.struct() di
library bigframes.bigquery untuk membuat objek struct Series baru dengan
sub-bidang untuk setiap kolom dalam DataFrame:
Mengonversi stempel waktu menjadi epoch Unix
Anda dapat menggunakan fungsi bigframes.bigquery.unix_micros() di library
bigframes.bigquery untuk mengonversi stempel waktu menjadi mikrodetik Unix:
Anda juga dapat menggunakan fungsi waktu unix_seconds() dan unix_millis().
Menggunakan fungsi skalar SQL
Anda dapat menggunakan fungsi bigframes.bigquery.sql_scalar() di library
bigframes.bigquery untuk mengakses sintaksis SQL arbitrer yang merepresentasikan ekspresi
satu kolom:
Langkah berikutnya
- Pelajari fungsi Python kustom untuk BigQuery DataFrames.
- Pelajari cara membuat kode BigQuery DataFrames dengan Gemini.
- Pelajari cara menganalisis download paket dari PyPI dengan DataFrame BigQuery.
- Lihat kode sumber BigQuery DataFrames, notebook contoh, dan contoh di GitHub.
- Jelajahi referensi BigQuery DataFrames API.