Ringkasan persiapan data BigQuery
Dokumen ini menjelaskan persiapan data yang didukung AI di BigQuery. Persiapan data adalah BigQuery, yang menggunakan Gemini di BigQuery untuk menganalisis data Anda dan memberikan saran cerdas untuk membersihkan, mengubah, dan memperkayanya. Anda dapat mengurangi waktu dan upaya yang diperlukan untuk tugas persiapan data manual secara signifikan. Penjadwalan persiapan data didukung oleh Dataform.
Manfaat
- Anda dapat mengurangi waktu yang dihabiskan untuk pengembangan pipeline data dengan saran transformasi kontekstual yang dihasilkan Gemini.
- Anda dapat memvalidasi hasil yang dihasilkan dalam pratinjau dan menerima saran pembersihan dan pengayaan kualitas data dengan pemetaan skema otomatis.
- Dataform memungkinkan Anda menggunakan proses continuous integration, continuous development (CI/CD), yang mendukung kolaborasi lintas tim untuk peninjauan kode dan kontrol sumber.
Titik entri persiapan data
Anda dapat membuat dan mengelola persiapan data di halaman BigQuery Studio (lihat Memulai sesi persiapan data).
Saat Anda membuka tabel dalam persiapan data BigQuery, tugas BigQuery akan berjalan menggunakan kredensial Anda. Proses ini membuat baris sampel dari tabel yang dipilih dan menulis hasilnya ke tabel sementara di project yang sama. Gemini menggunakan data dan skema sampel untuk menghasilkan saran persiapan data yang ditampilkan di editor persiapan data.
Tampilan di editor persiapan data
Persiapan data muncul sebagai tab di halaman BigQuery. Setiap tab memiliki serangkaian sub-tab, atau persiapan data tampilan, tempat Anda mengembangkan dan mengelola persiapan data.
Tampilan data
Saat Anda membuat persiapan data baru, tab editor persiapan data akan terbuka, menampilkan tampilan data, yang berisi sampel representatif dari tabel. Untuk persiapan data yang ada, Anda dapat membuka tampilan data dengan mengklik node di tampilan grafik pipeline persiapan data.
Tampilan data memungkinkan Anda melakukan hal berikut:
- Berinteraksi dengan data Anda untuk membentuk langkah-langkah persiapan data.
- Menerapkan saran dari Gemini.
- Meningkatkan kualitas saran Gemini dengan memasukkan nilai contoh di sel.
Di setiap kolom dalam tabel Anda, profil statistik (histogram) akan menampilkan jumlah nilai teratas setiap kolom di baris pratinjau.

Tampilan grafik
Tampilan grafik adalah ringkasan visual persiapan data Anda. Tampilan ini muncul sebagai tab di halaman BigQuery di konsol, saat Anda membuka persiapan data. Grafik menampilkan node untuk semua langkah dalam pipeline persiapan data Anda. Anda dapat memilih node di grafik untuk mengonfigurasi langkah-langkah persiapan data yang diwakilinya.

Tampilan skema
Tampilan skema persiapan data menampilkan skema langkah persiapan data aktif saat ini. Skema yang ditampilkan cocok dengan kolom dalam tampilan data.
Dalam tampilan skema, Anda dapat melakukan operasi skema khusus, seperti menghapus kolom, yang juga membuat langkah-langkah dalam daftar Langkah-langkah yang diterapkan.

Saran dari Gemini
Gemini memberikan saran kontekstual untuk membantu tugas persiapan data berikut:
- Menerapkan transformasi dan aturan kualitas data
- Menstandarkan dan memperkaya data
- Mengotomatiskan pemetaan skema
Setiap saran muncul dalam kartu di daftar saran editor persiapan data. Kartu ini berisi informasi berikut:
- Kategori tingkat tinggi langkah, seperti Keep rows atau Transformation
- Deskripsi langkah, seperti Keep rows if
COLUMN_NAMEis notNULL - Ekspresi SQL yang sesuai yang digunakan untuk menjalankan langkah
Anda dapat melihat pratinjau, mengedit, atau menerapkan kartu saran, atau menyempurnakan saran. Anda juga dapat menambahkan langkah-langkah secara manual. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data dengan Gemini.
Untuk menyempurnakan saran dari Gemini, berikan contoh hal yang akan diubah di kolom.
Sampling data
BigQuery menggunakan sampling data untuk memberikan pratinjau persiapan data Anda. Anda dapat melihat sampel di tampilan data untuk setiap node.
Saat Anda menambahkan tabel standar BigQuery sebagai sumber, data akan di
siapkan menggunakan fungsi BigQuery
TABLESAMPLE. Fungsi ini membuat sampel 10 ribu data.
Saat Anda menambahkan tampilan atau tabel eksternal sebagai sumber, sistem akan membaca 1 juta data pertama. Dari data ini, sistem akan memilih sampel representatif 10 ribu data.
Data dalam sampel tidak otomatis dimuat ulang. Tabel sampel disimpan sebagai hasil kueri yang di-cache dan akan berakhir masa berlakunya dalam waktu sekitar 24 jam. Untuk memuat ulang tabel sampel secara manual, lihat Memuat ulang sampel persiapan data samples.
Mode tulis
Untuk mengoptimalkan biaya dan waktu pemrosesan, Anda dapat mengubah setelan mode tulis untuk memproses data baru dari sumber secara bertahap. Misalnya, jika Anda memiliki tabel di BigQuery tempat data dimasukkan setiap hari, dan dasbor Looker yang harus mencerminkan data yang diubah, Anda dapat menjadwalkan persiapan data BigQuery untuk membaca data baru dari tabel sumber secara bertahap dan menyebarkannya ke tabel tujuan.
Untuk mengonfigurasi cara persiapan data Anda ditulis ke dalam tabel tujuan, lihat Mengoptimalkan persiapan data dengan memproses data secara bertahap.
Mode tulis berikut didukung:
| Opsi mode tulis | Deskripsi |
|---|---|
| Muat ulang penuh | Melakukan langkah-langkah persiapan data pada semua data sumber, lalu membangun kembali tabel tujuan secara penuh. Tabel dibuat ulang, bukan dipangkas. Muat ulang penuh adalah mode default saat menulis ke tabel tujuan. |
| Tambahkan | Menyisipkan semua data dari persiapan data sebagai baris tambahan dalam tabel tujuan. |
| Inkremental | Hanya menyisipkan data baru atau, bergantung pada pilihan kolom inkremental Anda, data yang diubah dalam tabel tujuan. Berdasarkan pilihan kolom inkremental Anda pilihan, persiapan data akan memilih mekanisme deteksi data perubahan yang optimal mekanisme. Fitur ini memilih Nilai maksimum untuk jenis data numerik dan tanggal waktu serta Unik untuk data kategoris. Maksimum hanya menyisipkan data yang nilai kolom yang ditentukan lebih besar dari nilai maks untuk kolom yang sama dalam tabel tujuan. Unik hanya menyisipkan data yang nilai kolom yang ditentukan tidak ada dalam nilai yang ada untuk kolom yang sama dalam tabel tujuan. |
| Upsert | Menggabungkan baris menggunakan kunci gabungan yang ditentukan. Jika baris yang ada dalam tabel tujuan cocok dengan kunci gabungan yang ditentukan untuk data input, nilai dalam baris ini akan diupdate dalam tabel tujuan. Jika tidak, baris baru akan disisipkan ke dalam tabel tujuan. |
Langkah-langkah persiapan data yang didukung
BigQuery mendukung jenis langkah persiapan data berikut:
| Jenis langkah | Deskripsi |
|---|---|
| Sumber | Menambahkan sumber saat Anda memilih tabel BigQuery untuk dibaca dari atau saat Anda menambahkan langkah gabungan. |
| Transformasi | Membersihkan dan mengubah data menggunakan ekspresi SQL. Anda akan menerima
kartu saran untuk ekspresi berikut:
Anda juga dapat menggunakan ekspresi SQL BigQuery yang valid dalam langkah-langkah transformasi manual. Misalnya:
Untuk mengetahui informasi selengkapnya, lihat Menambahkan transformasi. |
| Filter | Menghapus baris melalui sintaksis klausa WHERE. Saat menambahkan langkah filter, Anda dapat memilih untuk menjadikannya langkah validasi.
Untuk mengetahui informasi selengkapnya, lihat Memfilter baris. |
| Deduplicate | Menghapus baris duplikat dari data berdasarkan kunci dan
pengurutan yang dipilih.
Untuk mengetahui informasi selengkapnya, lihat Menghapus data duplikat. |
| Validasi | Mengirim baris yang tidak memenuhi kriteria aturan validasi ke tabel error
table. Jika data gagal dalam aturan validasi dan tidak ada tabel error yang
dikonfigurasi, persiapan data akan gagal selama eksekusi.
Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi tabel error dan menambahkan aturan validasi. |
| Gabung | Menggabungkan nilai dari dua sumber. Tabel harus berada di lokasi yang sama.
Kolom kunci gabungan harus memiliki jenis data yang sama. Persiapan data
mendukung operasi gabungan berikut:
Untuk mengetahui informasi selengkapnya, lihat Menambahkan operasi gabungan. |
| Tujuan | Menentukan tujuan untuk menghasilkan langkah-langkah persiapan data. Jika Anda
memasukkan tabel tujuan yang tidak ada, persiapan data
akan membuat tabel baru menggunakan informasi skema saat ini. Untuk mengetahui informasi selengkapnya, lihat Menambahkan atau mengubah tabel tujuan. |
| Hapus kolom | Menghapus kolom dari skema. Anda melakukan
langkah ini dari tampilan skema.
Untuk mengetahui informasi selengkapnya, lihat Menghapus kolom. |
Menjadwalkan proses persiapan data
Untuk menjalankan langkah-langkah persiapan data dan memuat data yang disiapkan ke dalam tabel tujuan, buat jadwal. Anda dapat menjadwalkan persiapan data dari editor persiapan data, dan mengelolanya dari halaman Scheduling BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan persiapan data.
Membangun pipeline dengan tugas persiapan data
Anda dapat membangun pipeline BigQuery yang terdiri dari tugas persiapan data, kueri SQL, dan notebook. Kemudian, Anda dapat menjalankan pipeline ini sesuai jadwal. Untuk mengetahui informasi selengkapnya, lihat Pengantar BigQuery pipeline.
Mengontrol akses
Kontrol akses ke persiapan data menggunakan peran Identity and Access Management (IAM), enkripsi dengan kunci Cloud KMS BigQuery dan Dataform, serta Kontrol Layanan VPC.
Peran dan izin IAM
Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan izin IAM. Untuk mengetahui informasi selengkapnya, lihat Peran yang diperlukan dan Menyiapkan Gemini untuk BigQuery.
Enkripsi dengan kunci Cloud KMS
Enkripsi data di tingkat set data atau project menggunakan kunci Cloud KMS yang dikelola pelanggan default di BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menetapkan kunci default set data dan Menetapkan kunci default project.
Anda dapat mengenkripsi kode pipeline di tingkat project secara default menggunakan kunci Cloud KMS Dataform.
Perimeter Kontrol Layanan VPC
Jika menggunakan Kontrol Layanan VPC, Anda harus mengonfigurasi perimeter untuk melindungi Dataform dan BigQuery. Untuk mengetahui informasi selengkapnya, lihat Batasan Kontrol Layanan VPC untuk BigQuery dan Dataform.
Peran yang diberikan saat membuat persiapan data
Saat Anda membuat persiapan data, BigQuery akan memberi Anda peran
Dataform Admin
(roles/dataform.admin) pada persiapan data tersebut. Semua pengguna dengan peran
Dataform Admin yang diberikan di Google Cloud project memiliki akses pemilik ke semua
persiapan data yang dibuat di project. Untuk mengganti perilaku ini, lihat
Memberikan peran tertentu saat pembuatan resource.
Batasan
Persiapan data tersedia dengan batasan berikut:
- Semua set data sumber dan tujuan persiapan data BigQuery dari persiapan data tertentu harus berada di lokasi yang sama. Untuk mengetahui informasi selengkapnya, lihat Lokasi.
- Selama pengeditan pipeline, data dan interaksi dikirim ke pusat data Gemini untuk diproses. Untuk mengetahui informasi selengkapnya, lihat Lokasi.
- Gemini di BigQuery tidak didukung oleh Assured Workloads.
- Persiapan data BigQuery tidak mendukung melihat, membandingkan, atau memulihkan versi persiapan data.
- Respons dari Gemini didasarkan pada sampel set data yang Anda berikan saat mengembangkan pipeline persiapan data. Untuk mengetahui informasi selengkapnya, lihat cara Gemini untukmenggunakan data Anda dan persyaratan dalam Program Gemini untukPenguji Tepercaya. Google Cloud Google Cloud
- Persiapan data BigQuery tidak memiliki API sendiri. Untuk API yang diperlukan, lihat Menyiapkan Gemini di BigQuery.
Lokasi
Tugas pemrosesan data Anda dijalankan dan disimpan di lokasi set data sumber. Jika lokasi repositori ditentukan, lokasi tersebut harus sama dengan lokasi set data sumber.
Region penyimpanan kode persiapan data dapat berbeda dengan region eksekusi tugas.
Semua aset kode baru di project Anda menggunakan region default. Google Cloud Setelah aset dibuat, Anda tidak dapat mengubah regionnya.
Untuk menetapkan region default untuk aset kode baru, lakukan hal berikut:
Buka halaman BigQuery.
Di panel kiri, klik Files untuk membuka browser file:
Di samping nama project, klik View files panel actions > Switch code region.
Pilih region kode yang ingin Anda gunakan sebagai default.
Klik Save.
Untuk mengetahui daftar region yang didukung, lihat Lokasi BigQuery Studio.
Pemrosesan data BigQuery selama waktu pengembangan dan eksekusi selalu dilakukan di lokasi set data sumber Anda. Untuk mempelajari tempat Gemini di BigQuery memproses data Anda, lihat Tempat Gemini di BigQuery memproses data Anda.
Harga
Menjalankan persiapan data dan membuat sampel pratinjau data menggunakan resource BigQuery, yang dikenai biaya sesuai tarif yang ditampilkan dalam harga BigQuery.
Persiapan data disertakan dalam harga Gemini di BigQuery. Anda dapat menggunakan persiapan data BigQuery selama Pratinjau tanpa biaya tambahan. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan Gemini di BigQuery.
Langkah berikutnya
- Pelajari cara menyiapkan data dengan Gemini di BigQuery.
- Pelajari cara menjalankan persiapan data secara manual atau dengan jadwal.