Membuat insight set data
Dokumen ini menjelaskan cara membuat insight set data untuk set data BigQuery. Insight set data membantu Anda memahami hubungan antar tabel dalam set data dengan membuat grafik hubungan dan kueri antar-tabel.
Insight set data membantu Anda mempercepat eksplorasi set data dengan beberapa tabel dengan otomatis menemukan dan memvisualisasikan hubungan antar tabel dalam grafik, mengidentifikasi hubungan kunci utama dan kunci asing, serta membuat contoh kueri antar-tabel. Hal ini berguna untuk memahami struktur data tanpa dokumentasi, menemukan hubungan yang ditentukan skema, berbasis penggunaan, atau disimpulkan AI antar tabel, dan membuat kueri kompleks yang menggabungkan beberapa tabel.
Untuk ringkasan insight tabel dan set data, lihat Ringkasan insight data.
Mode untuk membuat insight set data
Saat membuat insight set data, BigQuery menyediakan dua mode:
| Mode | Deskripsi | Penggunaan |
|---|---|---|
| Buat dan publikasikan |
Mempertahankan insight set data yang dibuat ke Knowledge Catalog sebagai aspek dan hubungan metadata. Anda harus memiliki izin yang diperlukan untuk memublikasikan. Saat Anda menggunakan Buat dan publikasikan, BigQuery akan melakukan hal berikut:
|
Gunakan mode ini untuk dokumentasi data di seluruh perusahaan yang dipertahankan dan dapat digunakan kembali, atau saat membuat alur kerja tata kelola berbasis katalog |
| Buat tanpa memublikasikan |
Membuat insight set data seperti deskripsi, pertanyaan bahasa alami, hubungan, dan kueri SQL sesuai permintaan. Buat tanpa memublikasikan tidak memublikasikan insight ke Knowledge Catalog. |
Gunakan mode ini untuk eksplorasi ad hoc yang cepat guna menghindari katalog yang berantakan. |
Sebelum memulai
Insight data dibuat menggunakan Gemini di BigQuery. Untuk mulai membuat insight, Anda harus menyiapkan Gemini di BigQuery terlebih dahulu .
Mengaktifkan API
Untuk menggunakan insight data, aktifkan API berikut di project Anda: Dataplex API, BigQuery API, dan Gemini for Google Cloud API.
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin
(roles/serviceusage.serviceUsageAdmin),
yang berisi izin serviceusage.services.enable. Pelajari cara memberikan
peran.
Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Gemini for Google Cloud API, lihat Mengaktifkan Gemini for Google Cloud API di sebuah Google Cloud project.
Menyelesaikan pemindaian profil data
Untuk meningkatkan kualitas insight, buat pemindaian profil data untuk tabel di set data Anda.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk membuat, mengelola, dan mengambil insight set data, minta administrator untuk memberi Anda peran IAM berikut:
-
Untuk membuat, mengelola, dan mengambil insight:
- Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) atau Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) di project - BigQuery Data Editor (
roles/bigquery.dataEditor) di tabel - Pengguna BigQuery (
roles/bigquery.user) atau Pengguna BigQuery Studio (roles/bigquery.studioUser) di project - BigQuery Resource Viewer (
roles/bigquery.resourceViewer) di project
- Dataplex DataScan Editor (
-
Untuk melihat insight:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) di project - BigQuery Data Viewer (
roles/bigquery.dataViewer) di set data
- Dataplex DataScan DataViewer (
-
Untuk memublikasikan insight ke Knowledge Catalog:
Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner) di grup entri
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk melihat izin yang benar-benar diperlukan untuk membuat insight, luaskan bagian Izin yang diperlukan:
Izin yang diperlukan
bigquery.datasets.get: membaca metadata set databigquery.jobs.create: membuat tugasbigquery.jobs.listAll: membuat daftar semua tugas dalam projectbigquery.tables.get: mendapatkan metadata tabelbigquery.tables.getData: mendapatkan data dan metadata tabeldataplex.datascans.create: membuat resource DataScandataplex.datascans.get: membaca metadata resource DataScandataplex.datascans.getData: membaca hasil eksekusi DataScandataplex.datascans.run: menjalankan DataScan sesuai permintaandataplex.entryGroups.useSchemaJoinEntryLink: menggunakan link entrischema-joindataplex.entryGroups.useSchemaJoinAspect: menggunakan aspek gabungan skemadataplex.entryLinks.create: membuat link entridataplex.entryLinks.update: memperbarui link entridataplex.entryLinks.delete: menghapus link entridataplex.entries.link: menautkan entridataplex.entries.update: memperbarui entridataplex.entryGroups.useDescriptionsAspect: menggunakan aspek deskripsidataplex.entryGroups.useQueriesAspect: menggunakan aspek kueri
Membuat insight set data
Konsol
Di Google Cloud konsol, buka BigQuery Studio.
Di panel Explorer , pilih project, lalu set data yang ingin Anda buat insight-nya.
Klik tab Insights.
Untuk membuat insight dan memublikasikannya ke Knowledge Catalog, klik Buat dan publikasikan.
Untuk membuat insight tanpa memublikasikannya ke Knowledge Catalog, klik Buat tanpa memublikasikan.
Untuk mengetahui informasi selengkapnya tentang perbedaan antara mode Buat dan publikasikan dan Buat tanpa memublikasikan, lihat Mode untuk membuat insight set data.
Jika set data Anda berada di multi-region, Anda mungkin akan diminta untuk memilih region guna membuat insight. Pilih region yang sesuai dengan multi-region tempat pemindaian insight akan dibuat.
Insight akan diisi dalam beberapa menit. Kualitas insight akan meningkat jika tabel dalam set data memiliki hasil pembuatan profil data.
Setelah insight dibuat, BigQuery akan menampilkan deskripsi set data, grafik hubungan, tabel hubungan, dan contoh kueri antar-tabel.
REST
Untuk membuat insight secara terprogram, gunakan Knowledge Catalog DataScans API. Untuk melakukannya, selesaikan langkah-langkah berikut:
- Membuat datascan dokumentasi data untuk set data BigQuery
- Memeriksa status pemindaian dokumentasi data
- Memverifikasi publikasi ke Knowledge Catalog
Membuat datascan dokumentasi data untuk set data BigQuery
Buat pemindaian data dokumentasi data menggunakan metode
dataScans.create. Secara opsional, Anda dapat memublikasikan insight ini ke Knowledge Catalog dengan menetapkan parametercatalog_publishing_enabledketrue.Contoh:
alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"' gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "catalog_publishing_enabled": true } }'Ganti kode berikut:
- PROJECT_ID: ID project tempat set data berada Google Cloud
- LOCATION: region tempat pemindaian data berjalan
- DATASCAN_ID: nama unik yang Anda berikan untuk pemindaian ini
- DATASET_ID: ID set data BigQuery yang dipindai
Mulai tugas pemindaian dokumentasi data menggunakan metode
dataScans.run.Contoh:
gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans/DATASCAN_ID:runPermintaan ini menampilkan ID tugas unik beserta status awal.
Memeriksa status pemindaian dokumentasi data
Periksa penyelesaian tugas pemindaian menggunakan metode
dataScans.get.
Untuk mengambil hasil lengkap, termasuk insight dan status publikasi, tetapkan parameter view ke FULL.
Gunakan ID tugas untuk mengambil status tugas. Contoh:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL
Tugas selesai jika statusnya adalah SUCCEEDED atau FAILURE.
Respons tugas yang berhasil berisi insight yang dibuat di kolom dataDocumentationResult.
Memverifikasi publikasi ke Knowledge Catalog
Jika catalog_publishing_enabled ditetapkan ke true, insight akan dipublikasikan ke Knowledge Catalog secara asinkron setelah tugas datascan selesai. Untuk memverifikasi bahwa insight dipertahankan, gunakan Dataplex API untuk memeriksa aspek set data.
Meskipun insight dibuat dari datascan tingkat set data, link entri yang dihasilkan disimpan di antara tabel yang terhubung. Untuk memverifikasi hubungan ini, gunakan metode
lookupEntryLinks
untuk mengambil link entri yang terkait dengan entri tabel tertentu.
Untuk mengambil metadata untuk set data BigQuery Anda, gunakan metode
entries.get.
Untuk menyertakan semua aspek, tetapkan parameter view ke FULL. Contoh:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL
Ganti kode berikut:
- PROJECT_ID: ID project tempat DataScan dikonfigurasi Google Cloud
- LOCATION: region tempat grup entri berada
- DATASET_PROJECT_ID: ID project tempat set data BigQuery berada Google Cloud
- DATASET: ID set data BigQuery
Jika publikasi ke Knowledge Catalog berhasil, aspek berikut akan dilampirkan ke set data BigQuery:
- Deskripsi: berisi deskripsi set data yang dibuat AI
- Kueri: berisi kueri SQL yang relevan terkait dengan set data
- Hubungan: dipertahankan sebagai link entri antara tabel yang ada dalam set data
Melihat dan menyimpan deskripsi set data
Gemini membuat deskripsi set data dalam bahasa alami, yang meringkas jenis tabel yang ada dan domain bisnis yang diwakilinya. Untuk menyimpan deskripsi ini ke metadata set data, klik Simpan ke detail.
Anda dapat mengedit deskripsi sebelum menyimpan detailnya.
Menjelajahi grafik hubungan
Grafik Relationships memberikan representasi visual tentang hubungan antar tabel dalam set data. Grafik ini menampilkan 10 tabel yang paling terhubung sebagai node, dengan garis yang mewakili hubungan antar tabel.
- Untuk melihat detail hubungan, seperti kolom yang menggabungkan dua tabel, arahkan kursor ke tepi yang menghubungkan node tabel.
- Untuk mengatur ulang grafik agar lebih mudah dilihat, tarik node tabel.
Menggunakan tabel hubungan
Tabel hubungan mencantumkan hubungan yang ditemukan dalam format tabel. Setiap baris mewakili hubungan antara dua tabel, yang menampilkan tabel dan kolom sumber, serta tabel dan kolom tujuan. Kolom Sumber menunjukkan cara hubungan ditentukan:
- Disimpulkan LLM. Hubungan yang disimpulkan oleh Gemini, berdasarkan nama dan deskripsi tabel dan kolom di seluruh set data.
- Berdasarkan penggunaan. Hubungan yang diekstrak dari log kueri, berdasarkan gabungan yang sering terjadi.
- Ditentukan skema. Hubungan yang berasal dari pemetaan kunci utama dan kunci asing yang ada dalam skema tabel.
Anda dapat memfilter hubungan untuk tabel tertentu atau memberikan masukan tentang kualitas hubungan yang terdeteksi. Untuk mengekspor deskripsi dan hubungan set data yang dibuat ke file JSON, klik Ekspor ke JSON.
Menggunakan rekomendasi kueri
Berdasarkan hubungan yang ditemukan, Gemini membuat contoh kueri. Ini adalah pertanyaan bahasa alami dengan kueri SQL yang sesuai yang menggabungkan beberapa tabel dalam set data.
Untuk melihat kueri SQL, klik pertanyaan.
Untuk membuka kueri di editor kueri BigQuery, klik Salin ke kueri. Kemudian, Anda dapat menjalankan kueri atau mengubahnya.
Untuk mengajukan pertanyaan lanjutan, klik Ajukan pertanyaan lanjutan, yang akan membuka kanvas data tanpa judul tempat Anda dapat melakukan chat dengan Gemini untuk menjelajahi data Anda.
Langkah berikutnya
- Pelajari ringkasan insight data.
- Pelajari cara membuat insight tabel.
- Pelajari lebih lanjut pembuatan profil data Knowledge Catalog.