Membuat insight tabel
Dokumen ini menjelaskan cara membuat insight tabel untuk tabel BigQuery, tabel BigLake, dan tabel eksternal. Insight tabel membantu Anda memahami data dalam satu tabel dengan membuat pertanyaan dalam bahasa alami dan kueri SQL berdasarkan metadata tabel.
Insight tabel dapat membantu Anda mempercepat eksplorasi data dengan memungkinkan Anda memahami struktur dan konten tabel baru atau yang tidak dikenal dengan cepat tanpa menulis kueri yang rumit. Anda juga dapat membuat kueri SQL berdasarkan pertanyaan bahasa alami, sehingga mengurangi waktu dan upaya yang diperlukan untuk menulis kueri secara manual. Insight tabel juga dapat membantu pengguna non-SQL memahami dan menganalisis data melalui kueri bahasa alami ini.
Untuk ringkasan insight tabel dan set data, lihat Ringkasan insight data.
Mode untuk membuat insight data tabel
Saat membuat insight tabel, BigQuery menyediakan dua mode:
| Mode | Deskripsi | Penggunaan |
|---|---|---|
| Buat dan publikasikan (Pratinjau) |
Mempertahankan insight tabel yang dihasilkan ke Dataplex Universal Catalog sebagai aspek metadata. Anda harus memiliki izin yang diperlukan untuk memublikasikan. Saat Anda menggunakan Buat dan publikasikan, tindakan berikut akan terjadi:
|
Gunakan mode ini untuk dokumentasi data di seluruh perusahaan yang tetap ada dan dapat digunakan kembali, atau saat membuat alur kerja tata kelola berbasis katalog. |
| Buat tanpa publikasi |
Membuat insight tabel seperti deskripsi, pertanyaan bahasa alami, dan kueri SQL sesuai permintaan. Buat tanpa publikasi tidak memublikasikan insight ke Dataplex Universal Catalog. |
Gunakan mode ini untuk eksplorasi ad hoc yang cepat guna menghindari kekacauan katalog. |
Sebelum memulai
Insight data dihasilkan menggunakan Gemini di BigQuery. Untuk mulai membuat insight, Anda harus menyiapkan Gemini di BigQuery terlebih dahulu.
Mengaktifkan API
Untuk menggunakan insight data, aktifkan API berikut di project Anda: Dataplex API, BigQuery API, dan Gemini for Google Cloud API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Gemini for Google Cloud API, lihat Mengaktifkan Gemini for Google Cloud API di project Google Cloud .
Peran dan izin
Untuk membuat, mengelola, dan mengambil insight data, minta administrator Anda untuk memberi Anda peran Identity and Access Management (IAM) berikut:
- Editor DataScan Katalog Universal Dataplex (
roles/dataplex.dataScanEditor) atau Administrator DataScan Katalog Universal Dataplex (roles/dataplex.dataScanAdmin) di project tempat Anda ingin membuat insight. - BigQuery Data Viewer (
roles/bigquery.dataViewer) pada tabel BigQuery yang ingin Anda buat insight-nya. - BigQuery Data Editor (
roles/bigquery.dataEditor) di tabel BigQuery yang ingin Anda buat insight-nya. - Pengguna BigQuery
(
roles/bigquery.user) atau Pengguna BigQuery Studio (roles/bigquery.studioUser) di project tempat Anda ingin membuat insight.
Untuk mendapatkan akses hanya baca ke insight yang dihasilkan, minta administrator Anda untuk memberi Anda peran IAM berikut:
- Dataplex Universal Catalog DataScan DataViewer (
roles/dataplex.dataScanDataViewer) di project yang berisi tabel BigQuery yang ingin Anda lihat insight-nya.
Untuk memublikasikan insight data ke Dataplex Universal Catalog, minta administrator Anda untuk memberi Anda peran IAM berikut pada resource:
- Publikasikan deskripsi sebagai aspek:
Editor Katalog Dataplex Universal Catalog (
roles/dataplex.catalogEditor) - Memublikasikan kueri sebagai aspek:
Pemilik Entri dan EntryLink Dataplex Universal Catalog (
roles/dataplex.entryOwner)
Untuk mengaktifkan API, minta administrator Anda untuk memberi Anda peran IAM berikut:
- Service Usage Admin
(
roles/serviceusage.serviceUsageAdmin) di project tempat Anda ingin membuat insight.
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya. Untuk melihat izin persis yang diperlukan untuk membuat insight, luaskan bagian Izin yang diperlukan:
Izin yang diperlukan
bigquery.jobs.createbigquery.tables.getbigquery.tables.getDatadataplex.datascans.createdataplex.datascans.getdataplex.datascans.getDatadataplex.datascans.run
Menghasilkan insight untuk tabel BigQuery
Untuk membuat insight untuk tabel BigQuery, Anda dapat menggunakan
konsolGoogle Cloud atau jenis pemindaian DATA_DOCUMENTATION yang didukung oleh
DataScans API
Dataplex Universal Catalog.
Pemindaian ini menghasilkan metadata, kueri SQL untuk eksplorasi data, deskripsi
skema, dan ringkasan tingkat tabel.
Konsol
Untuk membuat insight untuk tabel BigQuery, Anda harus mengakses entri tabel di BigQuery menggunakan BigQuery Studio.
Di konsol Google Cloud , buka BigQuery Studio.
Di panel Explorer, pilih project, set data, lalu tabel yang ingin Anda buat insight-nya.
Klik tab Insights. Jika tab kosong, berarti insight untuk tabel ini belum dibuat.
Untuk membuat insight dan memublikasikannya ke Dataplex Universal Catalog, klik Buat dan publikasikan (Pratinjau).
Untuk membuat insight tanpa memublikasikannya ke Dataplex Universal Catalog, klik Buat tanpa publikasi.
Untuk mengetahui informasi selengkapnya tentang perbedaan antara mode Buat dan publikasikan dan Buat tanpa publikasi, lihat Mode untuk membuat insight.
Pilih region untuk membuat insight, lalu klik Buat.
Proses pengisian insight memerlukan waktu beberapa menit.
Jika hasil pembuatan profil data yang dipublikasikan untuk tabel tersedia, hasil tersebut akan digunakan untuk menghasilkan insight. Jika tidak, insight dibuat berdasarkan nama dan deskripsi kolom. Untuk mengetahui informasi selengkapnya, lihat Praktik terbaik untuk meningkatkan kualitas hasil analisis yang dihasilkan.
Di tab Insight, jelajahi pertanyaan dalam bahasa alami yang dihasilkan.
Untuk melihat kueri SQL yang menjawab pertanyaan, klik pertanyaan.
Untuk membuka kueri di BigQuery, klik Copy to Query.
Untuk mengajukan pertanyaan lanjutan, lakukan hal berikut:
Klik Ajukan pertanyaan lanjutan. Kueri akan terbuka di kanvas data baru.
Klik Run, lalu klik Query these results.
Untuk mengajukan pertanyaan lanjutan, masukkan perintah di kolom perintah Bahasa natural atau edit SQL di editor kueri.
Untuk membuat kumpulan kueri baru, klik Buat insight dan picu pipeline lagi.
Setelah Anda membuat analisis untuk tabel, siapa pun yang memiliki izin dataplex.datascans.getData dan akses ke tabel tersebut dapat melihat analisis tersebut.
REST
Untuk membuat insight secara terprogram, gunakan DataScans API Dataplex Universal Catalog. Untuk melakukannya, selesaikan langkah-langkah berikut:
- Opsional: Buat pemindaian profil data untuk tabel
- Membuat pemindaian data dokumentasi data untuk tabel BigQuery
- Memeriksa status pemindaian dokumentasi data
- Memublikasikan hasil pemindaian dokumentasi data ke tabel BigQuery
Opsional: Buat pemindaian profil data untuk tabel
Keberadaan pemindaian profil data mengurangi halusinasi dan perkiraan oleh Gemini, karena pemindaian ini mendasarkan output pada nilai sebenarnya yang ada dalam data.
Untuk membuat dan menjalankan pemindaian profil data, ikuti langkah-langkah berikut:
Buat pemindaian profil data menggunakan metode
dataScans.create.Jalankan pemindaian profil data menggunakan metode
dataScans.run. Tunggu hingga proses selesai.Publikasikan hasil pemindaian ke tabel BigQuery dengan melampirkan label profiling data berikut ke tabel:
dataplex-dp-published-scan:DATASCAN_IDdataplex-dp-published-project:PROJECT_IDdataplex-dp-published-location:LOCATION
Untuk mengetahui informasi selengkapnya, lihat Menambahkan label ke tabel dan tampilan.
Buat pemindaian data dokumentasi data untuk tabel BigQuery
Anda dapat memilih untuk menjalankan pemindaian terkelola standar atau pemindaian satu kali yang disederhanakan.
Opsi A: Pemindaian terkelola standar (buat + jalankan)
Gunakan metode ini jika Anda ingin mengelola resource pemindaian dari waktu ke waktu.
Buat pemindaian data dokumentasi data menggunakan metode
dataScans.create. Anda dapat menyesuaikan cakupan pembuatan untuk menyertakan skema, deskripsi, kueri, atau kombinasi menggunakan parametergeneration_scopes:Untuk membuat skema, deskripsi tabel, dan kueri SQL, biarkan
data_documentation_speckosong atau tetapkangeneration_scopeskeALL. Contoh:gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/\ datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "generation_scopes": "ALL" } }'Ganti kode berikut:
- PROJECT_ID: ID project Google Cloud tempat set data berada
- LOCATION: region tempat pemindaian data dijalankan
- DATASCAN_ID: nama unik yang Anda berikan untuk pemindaian ini
- DATASET_ID: ID set data BigQuery yang dipindai
- TABLE_ID: ID tabel BigQuery yang dipindai
Untuk membuat skema, deskripsi tabel, dan deskripsi kolom, tanpa kueri SQL, tetapkan
generation_scopeskeTABLE_AND_COLUMN_DESCRIPTIONS. Contoh:gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/\ datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "generation_scopes": "TABLE_AND_COLUMN_DESCRIPTIONS" } }'Untuk membuat kueri SQL tanpa deskripsi, tetapkan
generation_scopeskeSQL_QUERIES. Contoh:gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/\ datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "generation_scopes": "SQL_QUERIES" } }'
Mulai tugas pemindaian dokumentasi data menggunakan metode
dataScans.run.Contoh:
gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans/DATASCAN_ID:runPermintaan ini menampilkan ID tugas unik beserta status awal.
Opsi B: Pemindaian satu kali (disederhanakan)
Gunakan metode ini untuk memulai dan menyelesaikan pemindaian dalam satu panggilan API. Metode ini menghilangkan kebutuhan untuk memanggil metode run secara terpisah dan memungkinkan penghapusan otomatis resource pemindaian menggunakan fungsi Time to Live (TTL).
Buat dan picu pemindaian menggunakan metode dataScans.create. Misalnya:
gcurl -X POST \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?\
dataScanId=DATASCAN_ID" \
-d '{
"data": {
"resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/\
tables/TABLE_ID"
},
"type": "DATA_DOCUMENTATION",
"dataDocumentationSpec": { "generation_scopes": "ALL" },
"executionSpec": {
"trigger": {
"one_time": {
"ttl_after_scan_completion": { "seconds": TTL_TIME }
}
}
}
}'
Ganti kode berikut:
- PROJECT_ID: ID project Google Cloud tempat set data berada
- LOCATION: region tempat pemindaian data dijalankan
- DATASCAN_ID: nama unik yang Anda berikan untuk pemindaian ini
- DATASET_ID: ID set data BigQuery yang dipindai
- TABLE_ID: ID tabel BigQuery yang dipindai
- TTL_TIME: durasi dalam detik setelah
resource pemindaian harus dihapus secara otomatis (misalnya,
3600untuk satu jam)
Memeriksa status pemindaian dokumentasi data
Periksa penyelesaian tugas pemindaian yang dijalankan menggunakan
metode dataScans.get.
Gunakan ID tugas untuk mengambil status tugas. Contoh:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID
Tugas selesai saat statusnya SUCCEEDED atau FAILURE.
Memublikasikan hasil pemindaian dokumentasi data ke tabel BigQuery
Untuk memublikasikan hasil pemindaian ke tabel BigQuery, lampirkan label dokumentasi data berikut ke tabel:
dataplex-data-documentation-published-scan:DATASCAN_IDdataplex-data-documentation-published-project:PROJECT_IDdataplex-data-documentation-published-location:LOCATION
Menghasilkan insight untuk tabel eksternal BigQuery
Insight data BigQuery mendukung pembuatan insight untuk
tabel eksternal BigQuery dengan data di Cloud Storage.
Anda dan akun layanan Dataplex Universal Catalog untuk project saat ini harus memiliki peran Storage Object Viewer (roles/storage.objectViewer) di bucket Cloud Storage yang berisi data. Untuk mengetahui informasi selengkapnya, lihat Menambahkan akun utama ke kebijakan tingkat bucket.
Untuk menghasilkan insight untuk tabel eksternal BigQuery, ikuti petunjuk yang dijelaskan di bagian Menghasilkan insight untuk tabel BigQuery dalam dokumen ini.
Membuat insight untuk tabel BigLake
Untuk membuat insight untuk tabel BigLake, ikuti langkah-langkah berikut:
Aktifkan BigQuery Connection API di project Anda.
Buat koneksi BigQuery. Untuk mengetahui informasi selengkapnya, lihat Mengelola koneksi.
Berikan peran IAM Storage Object Viewer (
roles/storage.objectViewer) ke akun layanan yang sesuai dengan koneksi BigQuery yang Anda buat.Anda dapat mengambil ID akun layanan dari detail koneksi.
Untuk menghasilkan insight, ikuti petunjuk yang dijelaskan di bagian Menghasilkan insight untuk tabel BigQuery dalam dokumen ini.
Membuat deskripsi tabel dan kolom
Gemini in BigQuery secara otomatis membuat deskripsi tabel dan kolom saat Anda membuat insight data. Anda dapat mengedit deskripsi ini sesuai kebutuhan, lalu menyimpannya ke metadata tabel. Deskripsi yang disimpan digunakan untuk menghasilkan insight pada masa mendatang.
Mengontrol bahasa pembuatan
Anda dapat memandu Gemini untuk membuat deskripsi tabel dan kolom dalam bahasa tertentu. Untuk melakukannya, tambahkan arahan singkat (misalnya, "Buat deskripsi tabel dan kolom menggunakan bahasa Prancis") ke deskripsi tabel yang ada sebelum Anda membuat insight data.
Saat Anda membuat insight, Gemini akan menafsirkan perintah ini dan menghasilkan metadata dalam bahasa yang diminta. Mekanisme ini berfungsi karena Gemini menggunakan deskripsi tabel yang ada sebagai konteks saat membuat deskripsi tabel baru.
Untuk mengetahui daftar bahasa yang didukung, lihat Dukungan bahasa Gemini.
Buat deskripsi
Untuk membuat deskripsi tabel dan kolom, ikuti langkah-langkah berikut:
Buat insight dengan mengikuti petunjuk yang dijelaskan di bagian yang relevan dalam dokumen ini:
Klik tab Schema.
Klik Lihat deskripsi kolom.
Deskripsi tabel dan deskripsi kolom yang dibuat akan ditampilkan.
Untuk mengedit dan menyimpan deskripsi tabel yang dihasilkan, lakukan hal berikut:
Di bagian Deskripsi tabel, klik Simpan ke detail.
Untuk mengganti deskripsi saat ini dengan deskripsi yang dibuat, klik Salin deskripsi yang disarankan.
Edit deskripsi tabel sesuai kebutuhan, lalu klik Simpan ke detail.
Deskripsi tabel akan langsung diperbarui.
Untuk mengedit dan menyimpan deskripsi kolom yang dihasilkan, lakukan hal berikut:
Di bagian Deskripsi kolom, klik Simpan ke skema.
Deskripsi kolom yang dibuat akan diisi di kolom Deskripsi baru untuk setiap kolom.
Edit deskripsi kolom sesuai kebutuhan, lalu klik Simpan.
Deskripsi kolom akan langsung diperbarui.
Untuk menutup panel pratinjau, klik Tutup.
Praktik terbaik untuk menghasilkan insight data
Untuk meningkatkan presisi hasil analisis yang dihasilkan, ikuti rekomendasi berikut:
Berikan deskripsi yang komprehensif. Pastikan tabel dan kolom dalam set data memiliki deskripsi yang jelas dan mendetail.
Mendapatkan insight dengan pembuatan profil. Jika deskripsi tidak tersedia, pastikan pemindaian profil ditautkan ke setiap tabel dalam set data untuk membantu mematangkan hasil analisis yang dihasilkan.
Tentukan aturan secara eksplisit. Sertakan hubungan atau logika bisnis apa pun yang digunakan modul insight untuk memengaruhi pembuatan hubungan dalam deskripsi tabel masing-masing.
Mendasarkan insight pada hasil pembuatan profil data
Dalam AI generatif, grounding adalah kemampuan untuk menghubungkan output model dengan sumber informasi yang dapat diverifikasi. Anda dapat mendasarkan insight tabel yang dihasilkan pada hasil pembuatan profil data. Pemrofilan data menganalisis kolom dalam tabel BigQuery Anda dan mengidentifikasi karakteristik statistik umum, seperti nilai data umum dan distribusi data.
Saat membuat pemindaian profiling data untuk tabel, Anda dapat memilih untuk memublikasikan hasil pemindaian ke halaman BigQuery dan Katalog Universal Dataplex di konsol Google Cloud . Insight menggunakan hasil pembuatan profil data untuk membuat kueri yang lebih akurat dan relevan dengan melakukan hal berikut:
Menganalisis hasil pembuatan profil data untuk mengidentifikasi pola, tren, atau anomali yang menarik dalam data.
Membuat kueri yang berfokus pada pola, tren, atau pencilan ini untuk mengungkap insight.
Memvalidasi kueri yang dihasilkan terhadap hasil pembuatan profil data untuk memastikan bahwa kueri menampilkan hasil yang bermakna.
Tanpa pemindaian pembuatan profil data, hal berikut akan terjadi:
Kueri yang dihasilkan lebih cenderung menyertakan klausa yang tidak akurat atau menghasilkan hasil yang tidak bermakna.
Deskripsi kolom yang dihasilkan hanya didasarkan pada nama kolom.
Pastikan pemindaian pembuatan profil data untuk tabel Anda sudah terbaru dan hasilnya dipublikasikan ke BigQuery.
Anda dapat menyesuaikan setelan pembuatan profil data untuk meningkatkan ukuran pengambilan sampel dan memfilter baris dan kolom. Setelah Anda menjalankan pemindaian pembuatan profil data baru, buat ulang insight.
Kualitas insight set data juga meningkat secara signifikan jika tabel dalam set data memiliki hasil pembuatan profil data.
Menambahkan deskripsi tabel
Deskripsi tabel mendetail yang menjelaskan apa yang ingin Anda analisis dalam tabel dapat membantu Gemini di BigQuery menghasilkan insight yang lebih relevan untuk insight tabel dan set data. Setelah Anda menambahkan deskripsi tabel, buat ulang insight.
Misalnya, Anda dapat menambahkan deskripsi berikut ke tabel telco_churn
seperti yang digunakan dalam
Contoh insight data tabel:
This table tracks customer churn data, including subscription details, tenure,
and service usage, to predict customer churn behavior.
Jika Anda menyimpan deskripsi tabel yang dibuat Gemini, maka deskripsi tersebut akan digunakan untuk membuat insight pada masa mendatang.
Menambahkan deskripsi kolom
Deskripsi kolom yang menjelaskan setiap kolom, atau bagaimana satu kolom terkait dengan kolom lainnya, dapat meningkatkan kualitas insight Anda untuk insight tabel dan set data. Setelah Anda memperbarui deskripsi kolom dalam tabel, buat ulang insight.
Misalnya, Anda dapat menambahkan deskripsi berikut ke kolom tertentu dalam tabel telco_churn seperti yang digunakan dalam Contoh insight data tabel:
Untuk kolom tenure:
The number of months the customer has been with the service.
Untuk kolom churn:
Whether the customer has stopped using the service. TRUE indicates the customer
no longer uses the service, FALSE indicates the customer is active.
Jika Anda menyimpan deskripsi kolom yang dibuat Gemini, maka deskripsi tersebut akan digunakan untuk membuat insight di masa mendatang.
Langkah berikutnya
- Pelajari Ringkasan insight data.
- Pelajari cara Membuat insight set data.
- Pelajari lebih lanjut pembuatan profil data Katalog Universal Dataplex.