Tugas kualitas data Knowledge Catalog memungkinkan Anda menentukan dan menjalankan pemeriksaan kualitas data di seluruh tabel di BigQuery dan Cloud Storage. Tugas kualitas data Katalog Pengetahuan juga memungkinkan Anda menerapkan kontrol data reguler di lingkungan BigQuery.
Kapan harus membuat tugas kualitas data Knowledge Catalog
Tugas kualitas data Knowledge Catalog dapat membantu Anda dalam hal berikut:
- Memvalidasi data sebagai bagian dari pipeline produksi data.
- Memantau secara rutin kualitas set data berdasarkan ekspektasi Anda.
- Membuat laporan kualitas data untuk persyaratan peraturan.
Manfaat
- Spesifikasi yang dapat disesuaikan. Anda dapat menggunakan sintaksis YAML yang sangat fleksibel untuk mendeklarasikan aturan kualitas data.
- Implementasi serverless. Knowledge Catalog tidak memerlukan penyiapan infrastruktur apa pun.
- Zero-copy dan bentang bawah otomatis. Pemeriksaan YAML dikonversi ke SQL dan didorong ke BigQuery, sehingga tidak ada data yang disalin.
- Pemeriksaan kualitas data yang dapat dijadwalkan. Anda dapat menjadwalkan pemeriksaan kualitas data melalui penjadwal serverless di Knowledge Catalog, atau menggunakan Dataplex API melalui penjadwal eksternal seperti Managed Airflow untuk integrasi pipeline.
- Pengalaman terkelola. Knowledge Catalog menggunakan mesin kualitas data open source, CloudDQ, untuk menjalankan pemeriksaan kualitas data. Namun, Knowledge Catalog memberikan pengalaman terkelola yang lancar untuk menjalankan pemeriksaan kualitas data Anda.
Cara kerja tugas kualitas data
Diagram berikut menunjukkan cara kerja tugas kualitas data Knowledge Catalog:

- Input dari pengguna
- Spesifikasi YAML: Sekumpulan yang berisi satu atau beberapa file YAML yang menentukan aturan kualitas data berdasarkan sintaksis spesifikasi. Anda menyimpan file YAML di bucket Cloud Storage di project Anda. Pengguna dapat menjalankan beberapa aturan secara bersamaan, dan aturan tersebut dapat diterapkan ke berbagai tabel BigQuery, termasuk tabel di berbagai set data atau project Google Cloud Google Cloud. Spesifikasi mendukung operasi inkremental hanya untuk memvalidasi data baru. Untuk membuat spesifikasi YAML, lihat Membuat file spesifikasi.
- Tabel hasil BigQuery: Tabel yang ditentukan pengguna tempat penyimpanan hasil validasi kualitas data. Project Google Cloud tempat tabel ini berada dapat menjadi project yang berbeda dengan project yang menggunakan tugas kualitas data Knowledge Catalog.
- Tabel untuk divalidasi
- Dalam spesifikasi YAML, Anda harus menentukan tabel mana yang ingin divalidasi untuk aturan tertentu, yang juga dikenal sebagai binding aturan. Tabel tersebut dapat berupa tabel native BigQuery atau tabel eksternal BigQuery di Cloud Storage. Spesifikasi YAML memungkinkan Anda menentukan tabel di dalam atau di luar zona Knowledge Catalog.
- Tabel BigQuery dan Cloud Storage yang divalidasi dalam satu operasi dapat menjadi bagian dari project yang berbeda.
- Tugas kualitas data Knowledge Catalog: Tugas kualitas data Knowledge Catalog dikonfigurasi dengan biner CloudDQ PySpark bawaan yang dikelola serta menggunakan spesifikasi YAML dan tabel hasil BigQuery sebagai input. Serupa dengan tugas Knowledge Catalog lainnya, tugas kualitas data Knowledge Catalog berjalan di lingkungan Spark serverless, mengonversi spesifikasi YAML menjadi kueri BigQuery, lalu menjalankan kueri tersebut pada tabel yang ditentukan dalam file spesifikasi.
Harga
Saat menjalankan tugas kualitas data Knowledge Catalog, Anda akan dikenai biaya atas penggunaan BigQuery dan Managed Service for Apache Spark (Batch).
Tugas kualitas data Knowledge Catalog mengonversi file spesifikasi menjadi kueri BigQuery dan menjalankannya di project pengguna. Lihat bagian Harga BigQuery.
Knowledge Catalog menggunakan Spark untuk menjalankan program driver CloudDQ open source yang dikelola Google guna mengonversi spesifikasi pengguna ke kueri BigQuery. Lihat harga Managed Service for Apache Spark.
Penggunaan Knowledge Catalog untuk mengatur data atau penggunaan penjadwal serverless di Knowledge Catalog untuk menjadwalkan pemeriksaan kualitas data tidak akan dikenai biaya. Lihat Harga Knowledge Catalog.