Ringkasan persiapan data BigQuery

Dokumen ini menjelaskan persiapan data yang didukung AI di BigQuery. Persiapan data adalah BigQuery, yang menggunakan Gemini di BigQuery untuk menganalisis data Anda dan memberikan saran cerdas untuk membersihkan, mengubah, dan memperkayanya. Anda dapat mengurangi waktu dan upaya yang diperlukan untuk tugas persiapan data manual secara signifikan. Penjadwalan persiapan data didukung oleh Dataform.

Manfaat

  • Anda dapat mengurangi waktu yang dihabiskan untuk pengembangan pipeline data dengan saran transformasi kontekstual yang dihasilkan Gemini.
  • Anda dapat memvalidasi hasil yang dihasilkan dalam pratinjau dan menerima saran pembersihan dan pengayaan kualitas data dengan pemetaan skema otomatis.
  • Dataform memungkinkan Anda menggunakan proses continuous integration, continuous development (CI/CD), yang mendukung kolaborasi lintas tim untuk peninjauan kode dan kontrol sumber.

Titik entri persiapan data

Anda dapat membuat dan mengelola persiapan data di halaman BigQuery Studio (lihat Memulai sesi persiapan data).

Saat Anda membuka tabel dalam persiapan data BigQuery, tugas BigQuery akan berjalan menggunakan kredensial Anda. Proses ini membuat baris sampel dari tabel yang dipilih dan menulis hasilnya ke tabel sementara di project yang sama. Gemini menggunakan data dan skema sampel untuk menghasilkan saran persiapan data yang ditampilkan di editor persiapan data.

Tampilan di editor persiapan data

Persiapan data muncul sebagai tab di halaman BigQuery. Setiap tab memiliki serangkaian sub-tab, atau persiapan data tampilan, tempat Anda mengembangkan dan mengelola persiapan data.

Tampilan data

Saat Anda membuat persiapan data baru, tab editor persiapan data akan terbuka, menampilkan tampilan data, yang berisi sampel representatif dari tabel. Untuk persiapan data yang ada, Anda dapat membuka tampilan data dengan mengklik node di tampilan grafik pipeline persiapan data.

Tampilan data memungkinkan Anda melakukan hal berikut:

  • Berinteraksi dengan data Anda untuk membentuk langkah-langkah persiapan data.
  • Menerapkan saran dari Gemini.
  • Meningkatkan kualitas saran Gemini dengan memasukkan nilai contoh di sel.

Di setiap kolom dalam tabel Anda, profil statistik (histogram) akan menampilkan jumlah nilai teratas setiap kolom di baris pratinjau.

Tampilan data di editor penyiapan data

Tampilan grafik

Tampilan grafik adalah ringkasan visual persiapan data Anda. Tampilan ini muncul sebagai tab di halaman BigQuery di konsol, saat Anda membuka persiapan data. Grafik menampilkan node untuk semua langkah dalam pipeline persiapan data Anda. Anda dapat memilih node di grafik untuk mengonfigurasi langkah-langkah persiapan data yang diwakilinya.

Tampilan grafik di editor persiapan data

Tampilan skema

Tampilan skema persiapan data menampilkan skema langkah persiapan data aktif saat ini. Skema yang ditampilkan cocok dengan kolom dalam tampilan data.

Dalam tampilan skema, Anda dapat melakukan operasi skema khusus, seperti menghapus kolom, yang juga membuat langkah-langkah dalam daftar Langkah-langkah yang diterapkan.

Tampilan skema di editor persiapan data

Saran dari Gemini

Gemini memberikan saran kontekstual untuk membantu tugas persiapan data berikut:

  • Menerapkan transformasi dan aturan kualitas data
  • Menstandarkan dan memperkaya data
  • Mengotomatiskan pemetaan skema

Setiap saran muncul dalam kartu di daftar saran editor persiapan data. Kartu ini berisi informasi berikut:

  • Kategori tingkat tinggi langkah, seperti Keep rows atau Transformation
  • Deskripsi langkah, seperti Keep rows if COLUMN_NAME is not NULL
  • Ekspresi SQL yang sesuai yang digunakan untuk menjalankan langkah

Anda dapat melihat pratinjau, mengedit, atau menerapkan kartu saran, atau menyempurnakan saran. Anda juga dapat menambahkan langkah-langkah secara manual. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data dengan Gemini.

Untuk menyempurnakan saran dari Gemini, berikan contoh hal yang akan diubah di kolom.

Sampling data

BigQuery menggunakan sampling data untuk memberikan pratinjau persiapan data Anda. Anda dapat melihat sampel di tampilan data untuk setiap node.

Saat Anda menambahkan tabel standar BigQuery sebagai sumber, data akan di siapkan menggunakan fungsi BigQuery TABLESAMPLE. Fungsi ini membuat sampel 10 ribu data.

Saat Anda menambahkan tampilan atau tabel eksternal sebagai sumber, sistem akan membaca 1 juta data pertama. Dari data ini, sistem akan memilih sampel representatif 10 ribu data.

Data dalam sampel tidak otomatis dimuat ulang. Tabel sampel disimpan sebagai hasil kueri yang di-cache dan akan berakhir masa berlakunya dalam waktu sekitar 24 jam. Untuk memuat ulang tabel sampel secara manual, lihat Memuat ulang sampel persiapan data samples.

Mode tulis

Untuk mengoptimalkan biaya dan waktu pemrosesan, Anda dapat mengubah setelan mode tulis untuk memproses data baru dari sumber secara bertahap. Misalnya, jika Anda memiliki tabel di BigQuery tempat data dimasukkan setiap hari, dan dasbor Looker yang harus mencerminkan data yang diubah, Anda dapat menjadwalkan persiapan data BigQuery untuk membaca data baru dari tabel sumber secara bertahap dan menyebarkannya ke tabel tujuan.

Untuk mengonfigurasi cara persiapan data Anda ditulis ke dalam tabel tujuan, lihat Mengoptimalkan persiapan data dengan memproses data secara bertahap.

Mode tulis berikut didukung:

Opsi mode tulis Deskripsi
Muat ulang penuh Melakukan langkah-langkah persiapan data pada semua data sumber, lalu membangun kembali tabel tujuan secara penuh. Tabel dibuat ulang, bukan dipangkas. Muat ulang penuh adalah mode default saat menulis ke tabel tujuan.
Tambahkan Menyisipkan semua data dari persiapan data sebagai baris tambahan dalam tabel tujuan.
Inkremental Hanya menyisipkan data baru atau, bergantung pada pilihan kolom inkremental Anda, data yang diubah dalam tabel tujuan. Berdasarkan pilihan kolom inkremental Anda pilihan, persiapan data akan memilih mekanisme deteksi data perubahan yang optimal mekanisme. Fitur ini memilih Nilai maksimum untuk jenis data numerik dan tanggal waktu serta Unik untuk data kategoris. Maksimum hanya menyisipkan data yang nilai kolom yang ditentukan lebih besar dari nilai maks untuk kolom yang sama dalam tabel tujuan. Unik hanya menyisipkan data yang nilai kolom yang ditentukan tidak ada dalam nilai yang ada untuk kolom yang sama dalam tabel tujuan.
Upsert Menggabungkan baris menggunakan kunci gabungan yang ditentukan. Jika baris yang ada dalam tabel tujuan cocok dengan kunci gabungan yang ditentukan untuk data input, nilai dalam baris ini akan diupdate dalam tabel tujuan. Jika tidak, baris baru akan disisipkan ke dalam tabel tujuan.

Langkah-langkah persiapan data yang didukung

BigQuery mendukung jenis langkah persiapan data berikut:

Jenis langkah Deskripsi
Sumber Menambahkan sumber saat Anda memilih tabel BigQuery untuk dibaca dari atau saat Anda menambahkan langkah gabungan.
Transformasi Membersihkan dan mengubah data menggunakan ekspresi SQL. Anda akan menerima kartu saran untuk ekspresi berikut:
  • Fungsi typecasting, seperti CAST
  • Fungsi string, seperti SUBSTR, CONCAT, REPLACE, UPPER, LOWER, dan TRIM
  • Fungsi tanggal dan waktu, seperti PARSE_DATE, TIMESTAMP, EXTRACT, dan DATE_ADD
  • Fungsi JSON, seperti JSON_VALUE atau JSON_QUERY

Anda juga dapat menggunakan ekspresi SQL BigQuery yang valid dalam langkah-langkah transformasi manual. Misalnya:
  • Matematika dengan angka, seperti mengonversi watt-jam menjadi kilowatt-jam
  • Fungsi array, seperti ARRAY_AGG, ARRAY_CONCAT, dan UNNEST
  • Fungsi jendela, seperti ROW_NUMBER, LAG, LEAD, RANK, dan NTILE


Untuk mengetahui informasi selengkapnya, lihat Menambahkan transformasi.
Filter Menghapus baris melalui sintaksis klausa WHERE. Saat menambahkan langkah filter, Anda dapat memilih untuk menjadikannya langkah validasi.

Untuk mengetahui informasi selengkapnya, lihat Memfilter baris.
Deduplicate Menghapus baris duplikat dari data berdasarkan kunci dan pengurutan yang dipilih.

Untuk mengetahui informasi selengkapnya, lihat Menghapus data duplikat.
Validasi Mengirim baris yang tidak memenuhi kriteria aturan validasi ke tabel error table. Jika data gagal dalam aturan validasi dan tidak ada tabel error yang dikonfigurasi, persiapan data akan gagal selama eksekusi.

Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi tabel error dan menambahkan aturan validasi.
Gabung Menggabungkan nilai dari dua sumber. Tabel harus berada di lokasi yang sama. Kolom kunci gabungan harus memiliki jenis data yang sama. Persiapan data mendukung operasi gabungan berikut:
  • Inner join
  • Left join
  • Right join
  • Full outer join
  • Cross Join (jika tidak ada kolom kunci gabungan yang dipilih, cross join akan di gunakan)


Untuk mengetahui informasi selengkapnya, lihat Menambahkan operasi gabungan.
Tujuan Menentukan tujuan untuk menghasilkan langkah-langkah persiapan data. Jika Anda memasukkan tabel tujuan yang tidak ada, persiapan data akan membuat tabel baru menggunakan informasi skema saat ini.

Untuk mengetahui informasi selengkapnya, lihat Menambahkan atau mengubah tabel tujuan.
Hapus kolom Menghapus kolom dari skema. Anda melakukan langkah ini dari tampilan skema.

Untuk mengetahui informasi selengkapnya, lihat Menghapus kolom.

Menjadwalkan proses persiapan data

Untuk menjalankan langkah-langkah persiapan data dan memuat data yang disiapkan ke dalam tabel tujuan, buat jadwal. Anda dapat menjadwalkan persiapan data dari editor persiapan data, dan mengelolanya dari halaman Scheduling BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan persiapan data.

Membangun pipeline dengan tugas persiapan data

Anda dapat membangun pipeline BigQuery yang terdiri dari tugas persiapan data, kueri SQL, dan notebook. Kemudian, Anda dapat menjalankan pipeline ini sesuai jadwal. Untuk mengetahui informasi selengkapnya, lihat Pengantar BigQuery pipeline.

Mengontrol akses

Kontrol akses ke persiapan data menggunakan peran Identity and Access Management (IAM), enkripsi dengan kunci Cloud KMS BigQuery dan Dataform, serta Kontrol Layanan VPC.

Peran dan izin IAM

Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan izin IAM. Untuk mengetahui informasi selengkapnya, lihat Peran yang diperlukan dan Menyiapkan Gemini untuk BigQuery.

Enkripsi dengan kunci Cloud KMS

Enkripsi data di tingkat set data atau project menggunakan kunci Cloud KMS yang dikelola pelanggan default di BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menetapkan kunci default set data dan Menetapkan kunci default project.

Anda dapat mengenkripsi kode pipeline di tingkat project secara default menggunakan kunci Cloud KMS Dataform.

Perimeter Kontrol Layanan VPC

Jika menggunakan Kontrol Layanan VPC, Anda harus mengonfigurasi perimeter untuk melindungi Dataform dan BigQuery. Untuk mengetahui informasi selengkapnya, lihat Batasan Kontrol Layanan VPC untuk BigQuery dan Dataform.

Peran yang diberikan saat membuat persiapan data

Saat Anda membuat persiapan data, BigQuery akan memberi Anda peran Dataform Admin (roles/dataform.admin) pada persiapan data tersebut. Semua pengguna dengan peran Dataform Admin yang diberikan di Google Cloud project memiliki akses pemilik ke semua persiapan data yang dibuat di project. Untuk mengganti perilaku ini, lihat Memberikan peran tertentu saat pembuatan resource.

Batasan

Persiapan data tersedia dengan batasan berikut:

Lokasi

Tugas pemrosesan data Anda dijalankan dan disimpan di lokasi set data sumber. Jika lokasi repositori ditentukan, lokasi tersebut harus sama dengan lokasi set data sumber.

Region penyimpanan kode persiapan data dapat berbeda dengan region eksekusi tugas.

Semua aset kode baru di project Anda menggunakan region default. Google Cloud Setelah aset dibuat, Anda tidak dapat mengubah regionnya.

Untuk menetapkan region default untuk aset kode baru, lakukan hal berikut:

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, klik Files untuk membuka browser file:

    Klik **File** untuk membuka browser file.

  3. Di samping nama project, klik View files panel actions > Switch code region.

  4. Pilih region kode yang ingin Anda gunakan sebagai default.

  5. Klik Save.

Untuk mengetahui daftar region yang didukung, lihat Lokasi BigQuery Studio.

Pemrosesan data BigQuery selama waktu pengembangan dan eksekusi selalu dilakukan di lokasi set data sumber Anda. Untuk mempelajari tempat Gemini di BigQuery memproses data Anda, lihat Tempat Gemini di BigQuery memproses data Anda.

Harga

Menjalankan persiapan data dan membuat sampel pratinjau data menggunakan resource BigQuery, yang dikenai biaya sesuai tarif yang ditampilkan dalam harga BigQuery.

Persiapan data disertakan dalam harga Gemini di BigQuery. Anda dapat menggunakan persiapan data BigQuery selama Pratinjau tanpa biaya tambahan. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan Gemini di BigQuery.

Langkah berikutnya