Tentang pembuatan profil data

Knowledge Catalog (sebelumnya Dataplex Universal Catalog) mempermudah pemahaman dan analisis data Anda dengan membuat profil tabel BigQuery Anda secara otomatis.

Pembuatan profil mirip dengan mendapatkan laporan kesehatan mendetail untuk data Anda. Laporan ini memberikan statistik utama, seperti nilai umum, cara data tersebar (distribusi), dan jumlah entri yang hilang (jumlah null). Informasi ini akan mempercepat analisis Anda.

Pemrofilan data otomatis mendeteksi informasi sensitif dan memungkinkan Anda menetapkan kebijakan kontrol akses. Fitur ini merekomendasikan aturan pemeriksaan kualitas data untuk memastikan data Anda tetap andal.

Model konseptual

Knowledge Catalog memungkinkan Anda lebih memahami profil data dengan membuat pemindaian profil data. Pemindaian profil data adalah jenis pemindaian data Knowledge Catalog yang menganalisis tabel BigQuery untuk menghasilkan insight statistik.

Diagram berikut menunjukkan cara Knowledge Catalog memindai data untuk melaporkan karakteristik statistik.

Pemindaian profil data menganalisis data tabel untuk melaporkan karakteristik statistik.

Pemindaian profil data dikaitkan dengan satu tabel BigQuery dan memindai tabel untuk menghasilkan hasil profiling data. Pemindaian profil data mendukung beberapa opsi konfigurasi.

Opsi konfigurasi

Bagian ini menjelaskan opsi konfigurasi yang tersedia untuk menjalankan pemindaian profil data.

Mode pembuatan profil

Anda dapat memilih di antara mode pembuatan profil berikut:

  • Standar: Ini adalah mode default. Profil ini memberikan profil yang komprehensif dan dapat disesuaikan dengan memindai data Anda berdasarkan pengambilan sampel dan filter yang Anda tentukan. Mode standar cocok untuk analisis mendetail dan pemantauan jangka panjang karakteristik data.

  • Ringan (Pratinjau): Mode ini memberikan pemindaian profil latensi rendah yang menampilkan hasil dalam hitungan detik. Layanan ini dioptimalkan untuk kecepatan dan efisiensi biaya guna mendukung kasus penggunaan seperti berikut:

    • Mendasarkan respons agen AI dengan karakteristik data langsung
    • Membuat profil secara hemat biaya dalam skala besar untuk penemuan data global
    • Menyediakan laporan kesehatan cepat selama eksplorasi data interaktif

    Mode ringan memiliki batasan berikut:

    • Tidak seperti mode pembuatan profil standar, Anda tidak dapat mengubah cakupan, filter, atau ukuran pengambilan sampel pada pemindaian ringan.
    • Template ini tidak mendukung tampilan BigQuery dan tabel eksternal.

Opsi penjadwalan

Anda dapat menjadwalkan pemindaian profil data dengan frekuensi yang ditentukan, atau menjalankan pemindaian sesuai permintaan.

Identitas eksekusi

Secara default, Knowledge Catalog menggunakan agen layanan terpusat (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) untuk menjalankan pemindaian profil data.

Anda juga dapat mengganti identitas eksekusi default ini dengan menentukan akun layanan kustom (Bawa Akun Layanan Anda Sendiri) atau dengan menggunakan Kredensial Pengguna Akhir (EUC) Anda sendiri. Hal ini memberikan beberapa manfaat:

  • Prinsip hak istimewa terendah: Berikan hanya izin IAM yang tepat yang diperlukan untuk tugas pembuatan profil data tertentu ke akun layanan khusus, sehingga meminimalkan akses yang terlalu banyak.
  • Kontrol akses terperinci: Cakupan izin untuk resource tertentu, yang memungkinkan integrasi dengan kebijakan akses tingkat baris dan tingkat kolom di BigQuery.
  • Peningkatan kemampuan audit: Tetapkan akun layanan kustom atau kredensial pengguna ke pemindaian tertentu, sehingga pelacakan dan pencatatan aktivitas menjadi lebih jelas dalam log audit.
  • Penyatuan penagihan: Saat Anda menggunakan identitas eksekusi kustom, biaya pemrosesan dan penyimpanan dipusatkan langsung di BigQuery (melewati SKU Premium Knowledge Catalog). Dengan begitu, Anda dapat memanfaatkan diskon perusahaan dan komitmen slot BigQuery.

Untuk mengetahui petunjuk tentang cara mengonfigurasi identitas eksekusi kustom, lihat Mengonfigurasi identitas eksekusi.

Cakupan

Untuk pemindaian pembuatan profil Standar, Anda dapat menentukan cakupan data yang akan dipindai:

  • Tabel lengkap: Seluruh tabel dipindai dalam pemindaian profil data. Sampling, filter baris, dan filter kolom diterapkan pada seluruh tabel sebelum menghitung statistik pembuatan profil.

  • Inkremental: Data inkremental yang Anda tentukan dipindai dalam pemindaian profil data. Tentukan kolom Date atau Timestamp dalam tabel yang akan digunakan sebagai kenaikan. Biasanya, ini adalah kolom tempat tabel dipartisi. Sampling, filter baris, dan filter kolom diterapkan pada data inkremental sebelum menghitung statistik pembuatan profil.

Memfilter data

Untuk pemindaian pembuatan profil Standar, Anda dapat memfilter data yang akan dipindai untuk pembuatan profil menggunakan filter baris dan filter kolom. Menggunakan filter membantu Anda mengurangi waktu dan biaya proses, serta mengecualikan data sensitif dan tidak berguna. Pemindaian pembuatan profil ringan tidak mendukung filter kolom dan filter baris.

  • Filter baris: Filter baris memungkinkan Anda berfokus pada data dalam jangka waktu tertentu atau dari segmen tertentu, seperti wilayah. Misalnya, Anda dapat mengecualikan data dengan stempel waktu sebelum tanggal tertentu.

  • Filter kolom: Filter kolom memungkinkan Anda menyertakan dan mengecualikan kolom tertentu dari tabel untuk menjalankan pemindaian profil data.

Data sampel

Untuk pemindaian pembuatan profil Standar, Anda dapat menentukan persentase rekaman dari data Anda yang akan diambil sampelnya untuk menjalankan pemindaian profil data. Membuat pemindaian profil data pada sampel data yang lebih kecil dapat mengurangi waktu proses dan biaya kueri seluruh set data.

Beberapa pemindaian profil data

Anda dapat membuat beberapa pemindaian profil data sekaligus menggunakan konsol Google Cloud . Anda dapat memilih hingga 100 tabel dari satu set data dan membuat pemindaian profil data untuk setiap set data. Untuk mengetahui informasi selengkapnya, lihat Membuat beberapa pemindaian profil data.

Mengekspor hasil pemindaian ke tabel BigQuery

Anda dapat mengekspor hasil pemindaian profil data ke tabel BigQuery untuk analisis lebih lanjut. Untuk menyesuaikan pelaporan, Anda dapat menghubungkan data tabel BigQuery ke dasbor Looker. Anda dapat membuat laporan gabungan menggunakan tabel hasil yang sama di beberapa pemindaian.

Hasil profiling data

Hasil pembuatan profil data mencakup nilai berikut:

Jenis kolom Hasil profiling data
Kolom numerik
  • Persentase nilai null.
  • Persentase nilai unik (berbeda) perkiraan.
  • 10 nilai paling umum dalam kolom. Nilainya bisa kurang dari 10 jika jumlah nilai unik dalam kolom kurang dari 10 (nilai null tidak disertakan). Untuk setiap nilai yang paling umum ini, persentase kemunculannya dalam data yang dipindai dalam pemindaian saat ini ditampilkan.
  • Rata-rata, deviasi standar, minimum, perkiraan kuartil bawah, perkiraan median, perkiraan kuartil atas, dan nilai maksimum.
Kolom string
  • Persentase nilai null.
  • Persentase nilai unik (berbeda) perkiraan.
  • 10 nilai paling umum di kolom, yang bisa kurang dari 10 jika jumlah nilai unik di kolom kurang dari 10.
  • Panjang rata-rata, minimum, dan maksimum string.
Kolom non-bertingkat lainnya (tanggal, waktu, stempel waktu, biner, dll.)
  • Persentase nilai null.
  • Persentase nilai unik (berbeda) perkiraan.
  • 10 nilai paling umum di kolom, yang bisa kurang dari 10 jika jumlah nilai unik di kolom kurang dari 10.
Semua kolom jenis data bertingkat atau kompleks lainnya (seperti Record, Array, JSON) atau kolom apa pun dengan mode berulang.
  • Persentase nilai null.

Hasilnya mencakup jumlah catatan yang dipindai di setiap tugas.

Pelaporan dan pemantauan

Anda dapat memantau dan menganalisis hasil pembuatan profil data menggunakan laporan dan metode berikut:

  • Laporan yang dipublikasikan dengan tabel sumber di halaman BigQuery dan Knowledge Catalog

    Jika Anda mengonfigurasi pemindaian profil data untuk memublikasikan hasilnya ke BigQuery dan Knowledge Catalog, Anda dapat melihat hasil pemindaian profil data terbaru di tab Profil data tabel sumber di BigQuery dan Knowledge Catalog. Hasil ini dapat diakses dari project mana pun.

    Laporan yang dipublikasikan.

  • Laporan historis per tugas

    Di halaman Pemrofilan & kualitas data > Pemindaian profil data di Knowledge Catalog dan BigQuery, Anda dapat melihat laporan mendetail untuk tugas terbaru dan historis. Hal ini mencakup informasi profil tingkat kolom dan konfigurasi yang digunakan.

    Laporan historis per tugas.

  • Tab Analisis

    Di halaman Pembuatan profil & kualitas data > Pemindaian profil data di Knowledge Catalog dan BigQuery, Anda dapat menggunakan tab Analisis untuk melihat tren statistik kolom tertentu di beberapa tugas pembuatan profil. Misalnya, jika Anda memiliki pemindaian inkremental, Anda dapat melihat tren rata-rata nilai dari waktu ke waktu.

    Tab Analisis.

  • Membuat dasbor atau analisis Anda sendiri

    Jika telah mengonfigurasi pemindaian profil data untuk mengekspor hasil ke tabel BigQuery, Anda dapat membuat dasbor sendiri menggunakan alat seperti Looker Studio.

Batasan

  • Pembuatan profil data didukung untuk tabel BigQuery dengan semua jenis kolom, kecuali BIGNUMERIC. Pemindaian yang dibuat untuk tabel dengan kolom BIGNUMERIC akan menghasilkan error validasi dan tidak berhasil dibuat.

Harga

Untuk mengetahui informasi selengkapnya tentang harga, lihat Harga Katalog Pengetahuan.

Langkah berikutnya