Mengelola persiapan data

Dokumen ini menjelaskan cara mengelola persiapan data BigQuery, termasuk mengelola akses, pembuatan versi, performa, dan metadata. Dokumen ini juga menjelaskan cara melakukan tugas dasar, seperti melihat dan mendownload persiapan data.

Persiapan data adalah BigQuery yang didukung oleh Dataform. Untuk mengetahui informasi selengkapnya, lihat Ringkasan persiapan data BigQuery.

Sebelum memulai

  1. Pastikan Anda telah mengaktifkan Gemini for Google Cloud API.
  2. Untuk mengelola metadata persiapan data di Knowledge Catalog, pastikan Dataplex API diaktifkan di project Google Cloud Anda.

Peran yang diperlukan

Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan izin yang diberikan oleh peran Identity and Access Management (IAM) berikut.

Mendapatkan akses pengguna untuk persiapan data

Untuk mendapatkan izin yang Anda perlukan untuk menyiapkan data di BigQuery, minta administrator untuk memberi Anda peran IAM berikut:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Untuk mengetahui informasi selengkapnya tentang IAM untuk set data di BigQuery, lihat Memberikan akses ke set data.

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Mendapatkan akses untuk mengelola metadata

Untuk mendapatkan izin yang Anda perlukan untuk mengelola metadata persiapan data di Knowledge Catalog, pastikan Anda memiliki peran Knowledge Catalog yang diperlukan dan izin dataform.repositories.get.

Memberikan akses ke akun layanan Dataform

Untuk memastikan akun layanan Dataform memiliki izin yang diperlukan untuk menjalankan persiapan data di BigQuery, minta administrator Anda untuk memberikan peran IAM berikut ke akun layanan Dataform:

  • Mengakses tabel sumber: BigQuery Data Viewer (roles/bigquery.dataViewer) di tabel, set data, atau project
  • Mengakses tabel tujuan: BigQuery Data Editor (roles/bigquery.dataEditor) di tabel, set data, atau project

Akun layanan Dataform mungkin memerlukan izin tambahan, bergantung pada pipeline persiapan data Anda. Untuk mengetahui informasi selengkapnya, lihat Memberikan akses yang diperlukan Dataform.

Melihat persiapan data yang ada

Untuk melihat daftar persiapan data yang ada, ikuti langkah-langkah berikut:

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, klik Explorer:

    Tombol yang ditandai untuk panel Explorer.

    Jika Anda tidak melihat panel kiri, klik Luaskan panel kiri untuk membuka panel.

  3. Di panel Explorer, luaskan project Anda.

  4. Klik Data preparations.

Mengoptimalkan persiapan data dengan memproses data secara bertahap

Untuk mengonfigurasi cara data yang disiapkan ditulis ke dalam tabel tujuan, ikuti langkah-langkah berikut.

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, klik Explorer:

    Tombol yang ditandai untuk panel Explorer.

  3. Di panel Explorer, klik Data preparations, lalu pilih persiapan data Anda.

  4. Di toolbar persiapan data Anda, pilih More > Write mode.

  5. Pilih salah satu opsi. Untuk mengetahui informasi selengkapnya, lihat Mode tulis.

  6. Klik Save.

Membantu meningkatkan kualitas saran

Anda dapat membantu meningkatkan kualitas saran Gemini dengan membagikan data perintah yang Anda kirimkan ke fitur dalam Pratinjau kepada Google. Untuk membagikan data perintah Anda, ikuti langkah-langkah berikut:

  1. Buka editor persiapan data di BigQuery.
  2. Di toolbar persiapan data, klik settings More.
  3. Pilih Share data to improve Gemini in BigQuery.

Setelan berbagi data berlaku untuk seluruh project dan hanya dapat ditetapkan oleh administrator project dengan izin IAM serviceusage.services.enable dan serviceusage.services.list. Untuk mengetahui informasi selengkapnya tentang penggunaan data dalam Program Penguji Tepercaya, lihat Gemini for Google Cloud Trusted Tester Program.

Versi persiapan data

Anda dapat memilih untuk membuat persiapan data di dalam atau di luar repositori. Pembuatan versi persiapan data ditangani secara berbeda berdasarkan lokasi persiapan data.

Pembuatan versi persiapan data di repositori

Repositori adalah repositori Git yang berada di BigQuery atau dengan penyedia pihak ketiga. Anda dapat menggunakan ruang kerja di repositori untuk melakukan kontrol versi pada persiapan data. Untuk mengetahui informasi selengkapnya, lihat Menggunakan kontrol versi dengan file.

Pembuatan versi persiapan data di luar repositori

Persiapan data BigQuery yang tidak ada di repositori tidak mendukung melihat, membandingkan, atau memulihkan versi persiapan data.

Untuk melihat daftar versi persiapan data dalam urutan kronologis, ikuti langkah-langkah berikut:

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, klik Explorer:

    Tombol yang ditandai untuk panel Explorer.

  3. Di panel Explorer, klik Data preparations, lalu pilih persiapan data Anda.

  4. Klik Version history.

Mendownload persiapan data

Untuk mendownload persiapan data dalam file SQLX, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, klik Explorer:

    Tombol yang ditandai untuk panel Explorer.

  3. Di panel Explorer, luaskan project Anda dan klik Data preparations.

  4. Klik nama persiapan data yang ingin Anda download.

  5. Klik Download. Persiapan data disimpan dalam format file SQLX—misalnya, NAME data preparation.dp.sqlx.

Mengupload persiapan data

Untuk mengupload persiapan data dari file SQLX, ikuti langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel kiri, klik Explorer:

    Tombol yang ditandai untuk panel Explorer.

  3. Di panel Explorer, luaskan project Anda.

  4. Klik Data preparations , lalu klik more_vert View actions > Upload to Data preparation.

  5. Di dialog Upload data preparation, pilih file yang akan diupload, atau masukkan URL persiapan data.

  6. Masukkan nama untuk persiapan data.

  7. Pilih lokasi persiapan data tempat resource dikelola dan disimpan.

  8. Klik Upload.

Mengelola metadata di Knowledge Catalog

Knowledge Catalog memungkinkan Anda menyimpan dan mengelola metadata untuk persiapan data. Persiapan data tersedia di Knowledge Catalog secara default, tanpa konfigurasi tambahan.

Anda dapat menggunakan Knowledge Catalog untuk mengelola persiapan data di semua lokasi BigQuery. Pengelolaan persiapan data di Knowledge Catalog tunduk pada kuota dan batas Knowledge Catalog serta harga Knowledge Catalog.

Knowledge Catalog secara otomatis mengambil metadata berikut dari persiapan data:

  • Nama aset data
  • Parent aset data
  • Lokasi aset data
  • Jenis aset data
  • Project yang sesuai Google Cloud

Knowledge Catalog mencatat persiapan data sebagai entri dengan nilai entri berikut:

Grup entri sistem
Grup entri sistem untuk persiapan data adalah @dataform. Untuk melihat detail entri persiapan data di Knowledge Catalog, Anda harus melihat grup entri sistem dataform. Untuk mengetahui petunjuk tentang cara melihat daftar semua entri dalam grup entri, lihat Melihat detail grup entri dalam dokumentasi Knowledge Catalog.
Jenis entri sistem
Jenis entri sistem untuk persiapan data adalah dataform-code-asset. Untuk melihat detail persiapan data,Anda harus melihat jenis entri sistem dataform-code-asset, memfilter hasil dengan filter berbasis aspek, dan menetapkan kolom type di dalam aspek dataform-code-asset ke DATA_PREPARATION. Kemudian, pilih entri persiapan data yang dipilih. Untuk mengetahui petunjuk tentang cara melihat detail jenis entri yang dipilih, lihat Melihat detail jenis entri dalam dokumentasi Knowledge Catalog. Untuk mengetahui petunjuk tentang cara melihat detail entri yang dipilih, lihat Melihat detail entri dalam dokumentasi Knowledge Catalog.
Jenis aspek sistem
Jenis aspek sistem untuk persiapan data adalah dataform-code-asset. Untuk memberikan konteks tambahan ke persiapan data di Knowledge Catalog dengan menganotasi entri persiapan data dengan aspek, lihat jenis aspek dataform-code-asset, filter hasil dengan filter berbasis aspek, dan tetapkan kolom type di dalam aspek dataform-code-asset ke DATA_PREPARATION. Untuk mengetahui petunjuk tentang cara menganotasi entri dengan aspek, lihat Mengelola aspek dan memperkaya metadata dalam dokumentasi Knowledge Catalog.
Jenis
Jenis untuk kanvas data adalah DATA_PREPARATION. Jenis ini memungkinkan Anda memfilter persiapan data dalam jenis entri sistem dan jenis aspek dataform-code-asset menggunakan kueri aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION dalam filter berbasis aspek.dataform-code-asset

Untuk mengetahui petunjuk tentang cara menelusuri aset, lihat Menelusuri aset data di Knowledge Catalog dalam dokumentasi Knowledge Catalog.

Langkah berikutnya