Tentang pembuatan profil data

Knowledge Catalog (sebelumnya Dataplex Universal Catalog) memudahkan Anda memahami dan menganalisis data dengan membuat profil tabel BigQuery dan Iceberg REST Catalog secara otomatis.

Pembuatan profil data seperti mendapatkan laporan kesehatan mendetail untuk data Anda. Pembuatan profil data memberikan statistik utama, seperti nilai umum, cara data tersebar (distribusi), dan jumlah entri yang tidak ada (jumlah null). Informasi ini mempercepat analisis Anda.

Pembuatan profil data merekomendasikan aturan pemeriksaan kualitas data untuk memastikan data Anda tetap dapat diandalkan.

Model konseptual

Knowledge Catalog memungkinkan Anda memahami profil data dengan lebih baik melalui pembuatan pemindaian profil data. Pemindaian profil data adalah jenis pemindaian data Knowledge Catalog yang menganalisis tabel BigQuery atau Iceberg REST Catalog untuk menghasilkan insight statistik.

Diagram berikut menunjukkan cara Knowledge Catalog memindai data untuk melaporkan karakteristik statistik.

Pemindaian profil data menganalisis data tabel untuk melaporkan karakteristik statistik.

Pemindaian profil data dikaitkan dengan satu tabel BigQuery atau tabel Iceberg REST Catalog dan memindai tabel untuk menghasilkan hasil pembuatan profil data. Pemindaian profil data mendukung beberapa opsi konfigurasi.

Opsi konfigurasi

Bagian ini menjelaskan opsi konfigurasi yang tersedia untuk menjalankan pemindaian profil data.

Mode pembuatan profil

Anda dapat memilih antara mode pembuatan profil berikut:

  • Standar: Ini adalah mode default. Mode ini menyediakan profil yang komprehensif dan dapat disesuaikan dengan memindai data Anda berdasarkan sampling dan filter yang Anda tentukan. Mode standar cocok untuk analisis mendetail dan pemantauan jangka panjang karakteristik data.

  • Ringan (Pratinjau): Mode ini menyediakan pemindaian profil latensi rendah yang menampilkan hasil dalam hitungan detik. Mode ini dioptimalkan untuk kecepatan dan efisiensi biaya guna mendukung kasus penggunaan seperti berikut:

    • Mendasarkan respons agen AI dengan karakteristik data langsung
    • Membuat profil secara hemat biaya dalam skala besar untuk penemuan data global
    • Menyediakan laporan kesehatan yang cepat selama eksplorasi data interaktif

    Mode ringan memiliki batasan berikut:

    • Tidak seperti mode pembuatan profil standar, Anda tidak dapat mengubah cakupan, filter, atau ukuran sampling pada pemindaian ringan.
    • Mode ini tidak mendukung tampilan BigQuery dan tabel eksternal.
  • Tidak terstruktur (Pratinjau): Mode ini menggunakan pemindaian profil data mandiri untuk data tidak terstruktur (UnstructuredDataProfileSpec) yang didukung oleh model Vertex AI Gemini untuk menganalisis konten kualitatif sebenarnya dari file tidak terstruktur (seperti PDF di Cloud Storage) dengan menggunakan tabel objek BigQuery yang ada. Tidak seperti mode pembuatan profil terstruktur (Standar dan Ringan), yang menghitung metrik statistik seperti jumlah null dan distribusi nilai, pemindaian profil data untuk data tidak terstruktur melakukan inferensi semantik untuk mengekstrak entitas bisnis (NodeType) dan hubungan (EdgeType), melampirkan aspek Graph Profile (dataplex-types.global.graph-profile) ke entri katalog, dan memungkinkan materialisasi data terprogram ke dalam tabel atau tampilan BigQuery fisik.

    Catatan: Pemindaian profil data untuk data tidak terstruktur tersedia dalam Pratinjau Publik hanya menggunakan Dataplex REST API. Alur kerja Google Cloud konsol dan Google Cloud CLI tidak didukung.

    Untuk mengetahui informasi selengkapnya, lihat Tentang insight data tidak terstruktur, Menggunakan pemindaian penemuan untuk data tidak terstruktur (untuk pemindaian penemuan Cloud Storage), dan Menggunakan profil data untuk data tidak terstruktur (untuk pembuatan profil tabel objek mandiri).

Opsi penjadwalan

Anda dapat menjadwalkan pemindaian profil data dengan frekuensi yang ditentukan, atau menjalankan pemindaian sesuai permintaan. Jika tugas pemindaian berjalan lebih lama dari yang diharapkan, Anda dapat membatalkan tugas tersebut.

Identitas eksekusi

Secara default, Knowledge Catalog menggunakan agen layanan terpusat (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) untuk menjalankan pemindaian profil data.

Anda juga dapat mengganti identitas eksekusi default ini dengan menentukan akun layanan kustom (Bring Your Own Service Account) atau menggunakan Kredensial Pengguna Akhir (EUC) Anda sendiri. Hal ini memberikan beberapa manfaat:

  • Prinsip hak istimewa terendah: Hanya berikan izin Identity and Access Management (IAM) yang tepat yang diperlukan untuk tugas pembuatan profil data tertentu ke akun layanan khusus, sehingga meminimalkan akses yang berlebihan.
  • Kontrol akses mendetail: Cakupan izin ke resource tertentu, sehingga memungkinkan integrasi dengan kebijakan akses tingkat baris dan tingkat kolom di BigQuery.
  • Auditabilitas yang ditingkatkan: Tetapkan akun layanan kustom atau kredensial pengguna ke pemindaian tertentu, sehingga pelacakan dan logging aktivitas menjadi lebih jelas dalam log audit.
  • Penyatuan penagihan: Saat Anda menggunakan identitas eksekusi kustom, biaya pemrosesan dan penyimpanan akan dipusatkan langsung di BigQuery (melewati SKU Premium Knowledge Catalog). Hal ini memungkinkan Anda memanfaatkan diskon perusahaan dan komitmen slot BigQuery.

Untuk mengetahui petunjuk cara mengonfigurasi identitas eksekusi kustom, lihat Mengonfigurasi identitas eksekusi.

Cakupan

Untuk pemindaian pembuatan profil Standar, Anda dapat menentukan cakupan data yang akan dipindai:

  • Tabel lengkap: Seluruh tabel dipindai dalam pemindaian profil data. Sampling, filter baris, dan filter kolom diterapkan pada seluruh tabel sebelum menghitung statistik pembuatan profil.

  • Inkremental: Data inkremental yang Anda tentukan dipindai dalam pemindaian profil data. Tentukan kolom Date atau Timestamp dalam tabel yang akan digunakan sebagai kenaikan. Biasanya, kolom ini adalah kolom tempat tabel dipartisi. Sampling, filter baris, dan filter kolom diterapkan pada data inkremental sebelum menghitung statistik pembuatan profil.

Memfilter data

Untuk pemindaian pembuatan profil Standar, Anda dapat memfilter data yang akan dipindai untuk pembuatan profil menggunakan filter baris dan filter kolom. Penggunaan filter membantu Anda mengurangi waktu dan biaya runtime, serta mengecualikan data sensitif dan tidak perlu. Pemindaian pembuatan profil ringan tidak mendukung filter kolom dan filter baris.

  • Filter baris: Filter baris memungkinkan Anda berfokus pada data dalam jangka waktu tertentu atau dari segmen tertentu, seperti wilayah. Misalnya, Anda dapat memfilter data dengan stempel waktu sebelum tanggal tertentu.

  • Filter kolom: Filter kolom memungkinkan Anda menyertakan dan mengecualikan kolom tertentu dari tabel untuk menjalankan pemindaian profil data.

Data sampel

Untuk pemindaian pembuatan profil Standar, Anda dapat menentukan persentase data dari data Anda untuk dijadikan sampel guna menjalankan pemindaian profil data. Membuat pemindaian profil data pada sampel data yang lebih kecil dapat mengurangi waktu dan biaya runtime untuk membuat kueri seluruh set data.

Beberapa pemindaian profil data

Anda dapat membuat beberapa pemindaian profil data sekaligus menggunakan Google Cloud konsol. Anda dapat memilih hingga 100 tabel dari satu set data dan membuat pemindaian profil data untuk setiap set data. Untuk mengetahui informasi selengkapnya, lihat Membuat beberapa pemindaian profil data.

Mengekspor hasil pemindaian ke tabel BigQuery

Anda dapat mengekspor hasil pemindaian profil data ke tabel BigQuery untuk analisis lebih lanjut. Untuk menyesuaikan pelaporan, Anda dapat menghubungkan data tabel BigQuery ke dasbor Looker. Anda dapat membuat laporan gabungan dengan menggunakan tabel hasil yang sama di beberapa pemindaian.

Hasil pembuatan profil data

Hasil pembuatan profil data mencakup nilai berikut:

Jenis kolom Hasil pembuatan profil data
Kolom numerik
  • Persentase nilai null.
  • Persentase nilai unik (berbeda) perkiraan.
  • 10 nilai teratas yang paling umum di kolom. Nilai ini bisa kurang dari 10 jika jumlah nilai unik di kolom kurang dari 10 (nilai null tidak disertakan). Untuk setiap nilai yang paling umum ini, persentase kemunculannya dalam data yang dipindai dalam pemindaian saat ini akan ditampilkan.
  • Nilai rata-rata, standar deviasi, minimum, kuartil bawah perkiraan, median perkiraan, kuartil atas perkiraan, dan maksimum.
Kolom string
  • Persentase nilai null.
  • Persentase nilai unik (berbeda) perkiraan.
  • 10 nilai teratas yang paling umum di kolom, yang bisa kurang dari 10 jika jumlah nilai unik di kolom kurang dari 10.
  • Panjang rata-rata, minimum, dan maksimum string.
Kolom non-bertingkat lainnya (tanggal, waktu, stempel waktu, biner, dll.)
  • Persentase nilai null.
  • Persentase nilai unik (berbeda) perkiraan.
  • 10 nilai teratas yang paling umum di kolom, yang bisa kurang dari 10 jika jumlah nilai unik di kolom kurang dari 10.
Semua kolom jenis data bertingkat atau kompleks lainnya (seperti Record, Array, JSON) atau kolom apa pun dengan repeated mode.
  • Persentase nilai null.

Hasilnya mencakup jumlah data yang dipindai di setiap tugas.

Pelaporan dan pemantauan

Anda dapat memantau dan menganalisis hasil pembuatan profil data menggunakan laporan dan metode berikut:

  • Laporan yang dipublikasikan dengan tabel sumber di halaman BigQuery dan Knowledge Catalog

    Jika mengonfigurasi pemindaian profil data untuk memublikasikan hasilnya ke BigQuery dan Knowledge Catalog, Anda dapat melihat hasil pemindaian profil data terbaru di tab Profil data tabel sumber di BigQuery dan Knowledge Catalog. Hasil ini dapat diakses dari project mana pun.

    Laporan yang dipublikasikan.

  • Laporan historis per tugas

    Di halaman Pembuatan profil & kualitas data > Pemindaian profil data di Knowledge Catalog dan BigQuery, Anda dapat melihat laporan mendetail untuk tugas terbaru dan historis. Hal ini mencakup informasi profil tingkat kolom dan konfigurasi yang digunakan.

    Laporan historis per tugas.

  • Tab Analisis

    Di halaman Pembuatan profil & kualitas data > Pemindaian profil data di Knowledge Catalog dan BigQuery, Anda dapat menggunakan tab Analisis untuk melihat tren statistik kolom tertentu di beberapa tugas profil. Misalnya, jika memiliki pemindaian inkremental, Anda dapat melihat tren rata-rata nilai dari waktu ke waktu.

    Tab Analisis.

  • Membuat dasbor atau analisis Anda sendiri

    Jika telah mengonfigurasi pemindaian profil data untuk mengekspor hasil ke tabel BigQuery, Anda dapat membuat dasbor sendiri menggunakan alat seperti Data Studio.

Batasan

  • Anda hanya dapat menjalankan pemindaian profil data di tabel BigQuery dan Iceberg REST Catalog.
  • Pembuatan profil data didukung untuk tabel BigQuery dengan semua jenis kolom kecuali BIGNUMERIC. Pemindaian yang dibuat untuk tabel dengan kolom BIGNUMERIC akan menghasilkan error validasi dan tidak berhasil dibuat.

Harga

Untuk mengetahui informasi selengkapnya tentang harga, lihat Harga Knowledge Catalog.

Langkah berikutnya