Dokumen ini menjelaskan cara membuat, melihat, dan mengelola insight data untuk data terstruktur Anda. Menggunakan insight data yang didukung AI membantu Anda mempercepat eksplorasi data dengan otomatis membuat deskripsi, diagram relasi, dan kueri SQL dari metadata tabel dan set data Anda.
Di BigQuery Studio, Anda dapat membuat insight data untuk set data BigQuery, tabel, tampilan, Google Cloud tabel Lakehouse, dan tabel eksternal BigQuery,
Di Knowledge Catalog, Anda dapat membuat insight data untuk tabel katalog REST Iceberg Lakehouse.
Sebelum memulai
Sebelum menggunakan insight data, pastikan Anda telah menyelesaikan prasyarat berikut:
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk menggunakan insight data, minta administrator untuk memberi Anda peran IAM berikut:
-
Mendapatkan akses hanya baca ke insight yang dibuat:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) di project yang berisi resource -
Membaca data tabel Katalog REST Iceberg:
BigLake Viewer (
roles/biglake.viewer) di resource -
Memublikasikan deskripsi sebagai aspek:
Dataplex Catalog Editor (
roles/dataplex.catalogEditor) di resource -
Memublikasikan kueri sebagai aspek:
Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner) di resource
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran yang telah ditetapkan ini berisi izin yang diperlukan untuk menggunakan insight data. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk menggunakan insight data:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Mengaktifkan API
Untuk menggunakan insight data, aktifkan API berikut di project Anda:
- Dataplex API
- BigQuery API
- Gemini for Google Cloud API
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin
(roles/serviceusage.serviceUsageAdmin),
yang berisi izin serviceusage.services.enable. Pelajari cara memberikan
peran.
Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Gemini for Google Cloud API, lihat Mengaktifkan Gemini for Google Cloud API di sebuah Google Cloud project.
Menyiapkan data
Untuk tabel Google Cloud Lakehouse, pastikan data Anda berada di Cloud Storage dan Anda telah membuat tabel Google Cloud Lakehouse.
Untuk tabel Katalog REST Iceberg, pastikan tabel Anda terdaftar di katalog runtime Lakehouse.
Membuat insight di BigQuery
Insight data untuk set data, tabel, tampilan, Google Cloud tabel Lakehouse, dan tabel eksternal BigQuery dibuat menggunakan Gemini in BigQuery dan hanya dapat dibuat di BigQuery Studio.
Anda harus terlebih dahulu menyiapkan Gemini in BigQuery, lalu membuat insight. Setelah membuat insight, Anda dapat melihat dan mengubahnya di Knowledge Catalog.
Untuk mengetahui informasi selengkapnya tentang cara membuat insight di BigQuery, lihat dokumen berikut:
Membuat insight untuk tabel Katalog REST Iceberg
Di Google Cloud konsol, buka halaman Penelusuran Knowledge Catalog.
Di Filter, pilih Lakehouse.
Pilih tabel Katalog REST Iceberg yang insightnya ingin Anda buat.
Klik tab Insights. Jika tab kosong, berarti insight untuk tabel ini belum dibuat.
Untuk membuat insight dan melampirkannya secara permanen ke tabel sebagai aspek, klik Buat dan publikasikan. Tindakan ini akan membuat insight dapat diindeks, ditelusuri, dan dilihat oleh pengguna lain di organisasi Anda dalam Knowledge Catalog.
Untuk membuat insight dan melihatnya sementara selama sesi saat ini, klik Buat tanpa memublikasikan. Gunakan opsi ini jika Anda hanya memerlukan analisis data cepat tanpa menyimpan metadata ke Knowledge Catalog.
Untuk mengetahui informasi selengkapnya tentang perbedaan antara mode Buat dan publikasikan dan Buat tanpa memublikasikan, lihat Mode untuk membuat insight data.
Pilih region untuk membuat insight, lalu klik Buat.
Insight akan diisi dalam beberapa menit.
Klik tab Insights dan tinjau hal berikut:
- Deskripsi: Ini adalah ringkasan yang dibuat AI yang menjelaskan tujuan tabel dan mendetailkan kolom tertentu.
- Contoh kueri: Ini adalah daftar kueri SQL yang disesuaikan dan dirancang khusus untuk skema dan konten set data Anda.
Untuk melihat kueri SQL yang menjawab pertanyaan, klik pertanyaan tersebut.
Meninjau insight yang dibuat untuk resource
Untuk melihat insight yang dibuat untuk resource, selesaikan langkah-langkah berikut:
Di Google Cloud konsol, buka halaman Knowledge Catalog Penelusuran.
Telusuri resource yang insightnya ingin Anda lihat.
Di hasil penelusuran, klik resource untuk membuka halaman detail entri.
Tinjau Deskripsi dan Kueri yang dibuat untuk resource yang dipilih.
Untuk melihat diagram relasi guna memahami cara titik data terhubung, klik tab Relasi (Pratinjau). Anda hanya dapat melihat relasi di tingkat tabel, bukan di tingkat set data.
Mengelola insight tabel
Setelah membuat dan memublikasikan insight tabel, Anda dapat meninjau dan mengelolanya sebagai aspek metadata di Knowledge Catalog. Insight tingkat tabel mencakup deskripsi tabel dan kolom, serta contoh kueri.
Memperbarui deskripsi yang dibuat untuk tabel
Anda hanya dapat memperbarui deskripsi tabel dan kolom menggunakan Dataplex API. Untuk melakukannya, gunakan metode entries.patch.
Memperbarui kueri yang dibuat untuk tabel
Anda dapat memperbarui kueri yang dibuat untuk tabel menggunakan Google Cloud konsol dan Dataplex API.
Konsol
Telusuri tabel yang kueri buatannya ingin Anda perbarui.
Di hasil penelusuran, klik tabel untuk membuka halaman detail entri.
Di bagian Kueri, klik Edit.
Perbarui deskripsi kueri sesuai kebutuhan.
Mengelola kepemilikan: Secara default, Sumber ditetapkan ke Agen. Jika Anda mengubah kueri dan mengubah sumber ke Pengguna, proses pembuatan insight berikutnya tidak akan mengganti perubahan Anda. Jika Sumber tetap Agen, kueri dapat diganti selama pembuatan ulang.
Mengelola penggantian: Untuk mencegah semua kueri diganti selama proses ulang, Anda dapat menetapkan opsi Dikelola pengguna ke Benar. Hal ini berlaku untuk seluruh kumpulan kueri untuk aspek metadata tersebut, sehingga memastikan tidak ada perubahan manual yang hilang.
REST
Untuk memperbarui kueri untuk tabel, gunakan metode entries.patch.
Memperbarui relasi yang dibuat untuk tabel
Anda hanya dapat memperbarui relasi menggunakan Dataplex API. Untuk melakukannya, gunakan entries.patch.
Mengelola insight set data
Insight tingkat set data berfokus pada deskripsi tingkat tinggi dan kueri di seluruh set data.
Memperbarui deskripsi yang dibuat untuk set data
Anda hanya dapat memperbarui deskripsi set data menggunakan Dataplex API. Untuk melakukannya, gunakan metode entries.patch.
Memperbarui kueri yang dibuat untuk set data
Anda dapat memperbarui kueri yang dibuat untuk set data menggunakan Google Cloud konsol dan Dataplex API.
Konsol
Telusuri set data yang kueri buatannya ingin Anda perbarui.
Di hasil penelusuran, klik set data untuk membuka halaman detail entri.
Di bagian Kueri, klik Edit.
Perbarui deskripsi sesuai kebutuhan.
Mengelola kepemilikan: Secara default, Sumber ditetapkan ke Agen. Jika Anda mengubah kueri dan mengubah sumber ke Pengguna, proses pembuatan insight berikutnya tidak akan mengganti perubahan Anda. Jika Sumber tetap Agen, kueri dapat diganti selama pembuatan ulang.
Mengelola penggantian: Untuk mencegah semua kueri diganti selama proses ulang, Anda dapat menetapkan opsi Dikelola pengguna ke Benar. Hal ini berlaku untuk seluruh kumpulan kueri untuk aspek metadata tersebut, sehingga memastikan tidak ada perubahan manual yang hilang.
REST
Untuk memperbarui kueri untuk set data, gunakan metode entries.patch.
Memperbarui link entri yang dibuat untuk set data
Relasi yang ditemukan oleh insight data disimpan sebagai
link entri antara entri tabel.
Link ini mencakup aspek schema-join yang menjelaskan cara tabel terhubung.
Untuk mengedit relasi ini atau memberikan penggantian manual, Anda harus menggunakan Dataplex API.
Perilaku pembaruan link entri
Saat mengelola relasi menggunakan API, penting untuk memahami cara pembaruan API manual berinteraksi dengan pemindaian latar belakang otomatis agar Anda tidak menimpa data secara tidak sengaja.
Pembaruan manual (perilaku tingkat API):
UpdateEntryLinkAPI menggunakan metodePATCHuntuk melakukan penggantian tingkat aspek:Penggantian aspek penuh: Jika Anda menyertakan aspek
schema-joindalam permintaan pembaruan, Knowledge Catalog akan mengganti seluruh aspek yang ada dengan aspek baru yang Anda berikan.Tidak ada penggabungan otomatis: API tidak otomatis menggabungkan entri baru ke dalam daftar
joinsinternal. Jika Anda mengirimkan payload yang hanya berisi satu gabungan, semua gabungan yang ada sebelumnya dalam aspek tersebut akan dihapus.
Pemindaian otomatis (perilaku tingkat sistem): Pemindaian otomatis, seperti insight data, melakukan logika penggabungan khusus sebelum memanggil API untuk memastikan metadata dengan kepastian tinggi dipertahankan berdasarkan sumbernya:
Prioritas sumber: Jika beberapa sumber mengidentifikasi relasi yang sama, Knowledge Catalog akan memprioritaskannya dalam urutan berikut:
USER(Edit manual)TABLE_CONSTRAINTSQUERY_HISTORYAGENT(Saran LLM)
Kesegaran LLM: Relasi yang berasal dari sumber
AGENTbersifat dinamis. Jika pemindaian berikutnya tidak lagi merekomendasikan relasi, relasi tersebut akan dihapus.
Memperbarui link entri
Untuk melihat dan mengubah link entri, selesaikan langkah-langkah berikut:
Identifikasi link entri.
Sebelum dapat memperbarui relasi, temukan nama resourcenya dengan mencantumkan semua link entri yang melibatkan entri tabel tertentu:
gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""Ganti kode berikut:
- PROJECT_ID: ID project Anda Google Cloud
- LOCATION: region tempat pemindaian data Anda dipicu
- TABLE_ENTRY_NAME: nama resource lengkap entri tabel BigQuery (misalnya,
bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)
Perbarui link entri.
Untuk mengubah aspek
schema-joindari link entri target, gunakan metodePATCH:gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \ -d '{ "aspects": { "dataplex-types.global.schema-join": { "data": { "joins": [ { "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] }, "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] }, "type": "JOIN", "inferenceSource": "USER" } ], "userManaged": false } } } }'Ganti kode berikut:
- ENTRYLINK_ID: ID link entri yang diambil pada langkah identifikasi sebelumnya
- DATASET_ID: ID set data BigQuery Anda
- SOURCE_TABLE: nama tabel sumber
- SOURCE_FIELD: nama kolom yang digunakan untuk gabungan di tabel sumber
- TARGET_TABLE: nama tabel target
- TARGET_FIELD: nama kolom yang digunakan untuk gabungan di tabel target
Langkah berikutnya
Pelajari lebih lanjut insight data untuk data terstruktur.
Pelajari cara membuat insight untuk data tidak terstruktur.