Membuat insight set data

Dokumen ini menjelaskan cara membuat insight set data untuk set data BigQuery. Insight set data membantu Anda memahami hubungan antar tabel dalam set data dengan membuat grafik hubungan dan kueri antar-tabel.

Insight set data membantu Anda mempercepat eksplorasi set data dengan beberapa tabel dengan otomatis menemukan dan memvisualisasikan hubungan antar tabel dalam grafik, mengidentifikasi hubungan kunci utama dan kunci asing, serta membuat contoh kueri antar-tabel. Hal ini berguna untuk memahami struktur data tanpa dokumentasi, menemukan hubungan yang ditentukan skema, berbasis penggunaan, atau disimpulkan AI antar tabel, dan membuat kueri kompleks yang menggabungkan beberapa tabel.

Untuk ringkasan insight tabel dan set data, lihat Ringkasan insight data.

Mode untuk membuat insight set data

Saat membuat insight set data, BigQuery menyediakan dua mode:

Mode Deskripsi Penggunaan
Buat dan publikasikan

Mempertahankan insight set data yang dibuat ke Knowledge Catalog sebagai aspek dan hubungan metadata. Anda harus memiliki izin yang diperlukan untuk memublikasikan. Saat Anda menggunakan Buat dan publikasikan, BigQuery akan melakukan hal berikut:

  • Menyimpan deskripsi set data di Knowledge Catalog.
  • Mencatat kueri dan pertanyaan yang disarankan sebagai aspek yang dapat digunakan kembali.
  • Mencatat hubungan sebagai metadata di Knowledge Catalog.
  • Membuat insight yang dipublikasikan dapat diakses oleh semua pengguna yang memiliki akses Knowledge Catalog yang sesuai, sehingga memastikan pengetahuan organisasi yang dibagikan.
  • Memungkinkan Anda mengedit dan menyimpan deskripsi langsung di Knowledge Catalog menggunakan API. Anda dapat mengedit kueri yang disarankan menggunakan Google Cloud konsol.

Gunakan mode ini untuk dokumentasi data di seluruh perusahaan yang dipertahankan dan dapat digunakan kembali, atau saat membuat alur kerja tata kelola berbasis katalog

Buat tanpa memublikasikan

Membuat insight set data seperti deskripsi, pertanyaan bahasa alami, hubungan, dan kueri SQL sesuai permintaan. Buat tanpa memublikasikan tidak memublikasikan insight ke Knowledge Catalog.

Gunakan mode ini untuk eksplorasi ad hoc yang cepat guna menghindari katalog yang berantakan.

Sebelum memulai

Insight data dibuat menggunakan Gemini di BigQuery. Untuk mulai membuat insight, Anda harus menyiapkan Gemini di BigQuery terlebih dahulu .

Mengaktifkan API

Untuk menggunakan insight data, aktifkan API berikut di project Anda: Dataplex API, BigQuery API, dan Gemini for Google Cloud API.

Peran yang diperlukan untuk mengaktifkan API

Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

Aktifkan API

Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Gemini for Google Cloud API, lihat Mengaktifkan Gemini for Google Cloud API di sebuah Google Cloud project.

Menyelesaikan pemindaian profil data

Untuk meningkatkan kualitas insight, buat pemindaian profil data untuk tabel di set data Anda.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk membuat, mengelola, dan mengambil insight set data, minta administrator untuk memberi Anda peran IAM berikut:

  • Untuk membuat, mengelola, dan mengambil insight:
    • Dataplex DataScan Editor (roles/dataplex.dataScanEditor) atau Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) di project
    • BigQuery Data Editor (roles/bigquery.dataEditor) di tabel
    • Pengguna BigQuery (roles/bigquery.user) atau Pengguna BigQuery Studio (roles/bigquery.studioUser) di project
    • BigQuery Resource Viewer (roles/bigquery.resourceViewer) di project
  • Untuk melihat insight:
  • Untuk memublikasikan insight ke Knowledge Catalog: Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner) di grup entri

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Untuk melihat izin yang benar-benar diperlukan untuk membuat insight, luaskan bagian Izin yang diperlukan:

Izin yang diperlukan

  • bigquery.datasets.get: membaca metadata set data
  • bigquery.jobs.create: membuat tugas
  • bigquery.jobs.listAll: membuat daftar semua tugas dalam project
  • bigquery.tables.get: mendapatkan metadata tabel
  • bigquery.tables.getData: mendapatkan data dan metadata tabel
  • dataplex.datascans.create: membuat resource DataScan
  • dataplex.datascans.get: membaca metadata resource DataScan
  • dataplex.datascans.getData: membaca hasil eksekusi DataScan
  • dataplex.datascans.run: menjalankan DataScan sesuai permintaan
  • dataplex.entryGroups.useSchemaJoinEntryLink: menggunakan link entri schema-join
  • dataplex.entryGroups.useSchemaJoinAspect: menggunakan aspek gabungan skema
  • dataplex.entryLinks.create: membuat link entri
  • dataplex.entryLinks.update: memperbarui link entri
  • dataplex.entryLinks.delete: menghapus link entri
  • dataplex.entries.link: menautkan entri
  • dataplex.entries.update: memperbarui entri
  • dataplex.entryGroups.useDescriptionsAspect: menggunakan aspek deskripsi
  • dataplex.entryGroups.useQueriesAspect: menggunakan aspek kueri

Membuat insight set data

Konsol

  1. Di Google Cloud konsol, buka BigQuery Studio.

    Buka BigQuery Studio

  2. Di panel Explorer , pilih project, lalu set data yang ingin Anda buat insight-nya.

  3. Klik tab Insights.

  4. Untuk membuat insight dan memublikasikannya ke Knowledge Catalog, klik Buat dan publikasikan.

    Untuk membuat insight tanpa memublikasikannya ke Knowledge Catalog, klik Buat tanpa memublikasikan.

    Untuk mengetahui informasi selengkapnya tentang perbedaan antara mode Buat dan publikasikan dan Buat tanpa memublikasikan, lihat Mode untuk membuat insight set data.

  5. Jika set data Anda berada di multi-region, Anda mungkin akan diminta untuk memilih region guna membuat insight. Pilih region yang sesuai dengan multi-region tempat pemindaian insight akan dibuat.

    Insight akan diisi dalam beberapa menit. Kualitas insight akan meningkat jika tabel dalam set data memiliki hasil pembuatan profil data.

Setelah insight dibuat, BigQuery akan menampilkan deskripsi set data, grafik hubungan, tabel hubungan, dan contoh kueri antar-tabel.

REST

Untuk membuat insight secara terprogram, gunakan Knowledge Catalog DataScans API. Untuk melakukannya, selesaikan langkah-langkah berikut:

  1. Membuat datascan dokumentasi data untuk set data BigQuery
  2. Memeriksa status pemindaian dokumentasi data
  3. Memverifikasi publikasi ke Knowledge Catalog

Membuat datascan dokumentasi data untuk set data BigQuery

  1. Buat pemindaian data dokumentasi data menggunakan metode dataScans.create. Secara opsional, Anda dapat memublikasikan insight ini ke Knowledge Catalog dengan menetapkan parameter catalog_publishing_enabled ke true.

    Contoh:

    alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans?dataScanId=DATASCAN_ID \
    -d '{
      "data": {
        "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
      },
      "executionSpec": {
        "trigger": { "onDemand": {} }
      },
      "type": "DATA_DOCUMENTATION",
      "dataDocumentationSpec": {
        "catalog_publishing_enabled": true
      }
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID project tempat set data berada Google Cloud
    • LOCATION: region tempat pemindaian data berjalan
    • DATASCAN_ID: nama unik yang Anda berikan untuk pemindaian ini
    • DATASET_ID: ID set data BigQuery yang dipindai
  2. Mulai tugas pemindaian dokumentasi data menggunakan metode dataScans.run.

    Contoh:

    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans/DATASCAN_ID:run
    

    Permintaan ini menampilkan ID tugas unik beserta status awal.

Memeriksa status pemindaian dokumentasi data

Periksa penyelesaian tugas pemindaian menggunakan metode dataScans.get. Untuk mengambil hasil lengkap, termasuk insight dan status publikasi, tetapkan parameter view ke FULL.

Gunakan ID tugas untuk mengambil status tugas. Contoh:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

Tugas selesai jika statusnya adalah SUCCEEDED atau FAILURE.

Respons tugas yang berhasil berisi insight yang dibuat di kolom dataDocumentationResult.

Memverifikasi publikasi ke Knowledge Catalog

Jika catalog_publishing_enabled ditetapkan ke true, insight akan dipublikasikan ke Knowledge Catalog secara asinkron setelah tugas datascan selesai. Untuk memverifikasi bahwa insight dipertahankan, gunakan Dataplex API untuk memeriksa aspek set data.

Meskipun insight dibuat dari datascan tingkat set data, link entri yang dihasilkan disimpan di antara tabel yang terhubung. Untuk memverifikasi hubungan ini, gunakan metode lookupEntryLinks untuk mengambil link entri yang terkait dengan entri tabel tertentu.

Untuk mengambil metadata untuk set data BigQuery Anda, gunakan metode entries.get. Untuk menyertakan semua aspek, tetapkan parameter view ke FULL. Contoh:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

Ganti kode berikut:

  • PROJECT_ID: ID project tempat DataScan dikonfigurasi Google Cloud
  • LOCATION: region tempat grup entri berada
  • DATASET_PROJECT_ID: ID project tempat set data BigQuery berada Google Cloud
  • DATASET: ID set data BigQuery

Jika publikasi ke Knowledge Catalog berhasil, aspek berikut akan dilampirkan ke set data BigQuery:

  • Deskripsi: berisi deskripsi set data yang dibuat AI
  • Kueri: berisi kueri SQL yang relevan terkait dengan set data
  • Hubungan: dipertahankan sebagai link entri antara tabel yang ada dalam set data

Melihat dan menyimpan deskripsi set data

Gemini membuat deskripsi set data dalam bahasa alami, yang meringkas jenis tabel yang ada dan domain bisnis yang diwakilinya. Untuk menyimpan deskripsi ini ke metadata set data, klik Simpan ke detail.

Anda dapat mengedit deskripsi sebelum menyimpan detailnya.

Menjelajahi grafik hubungan

Grafik Relationships memberikan representasi visual tentang hubungan antar tabel dalam set data. Grafik ini menampilkan 10 tabel yang paling terhubung sebagai node, dengan garis yang mewakili hubungan antar tabel.

  • Untuk melihat detail hubungan, seperti kolom yang menggabungkan dua tabel, arahkan kursor ke tepi yang menghubungkan node tabel.
  • Untuk mengatur ulang grafik agar lebih mudah dilihat, tarik node tabel.

Menggunakan tabel hubungan

Tabel hubungan mencantumkan hubungan yang ditemukan dalam format tabel. Setiap baris mewakili hubungan antara dua tabel, yang menampilkan tabel dan kolom sumber, serta tabel dan kolom tujuan. Kolom Sumber menunjukkan cara hubungan ditentukan:

  • Disimpulkan LLM. Hubungan yang disimpulkan oleh Gemini, berdasarkan nama dan deskripsi tabel dan kolom di seluruh set data.
  • Berdasarkan penggunaan. Hubungan yang diekstrak dari log kueri, berdasarkan gabungan yang sering terjadi.
  • Ditentukan skema. Hubungan yang berasal dari pemetaan kunci utama dan kunci asing yang ada dalam skema tabel.

Anda dapat memfilter hubungan untuk tabel tertentu atau memberikan masukan tentang kualitas hubungan yang terdeteksi. Untuk mengekspor deskripsi dan hubungan set data yang dibuat ke file JSON, klik Ekspor ke JSON.

Menggunakan rekomendasi kueri

Berdasarkan hubungan yang ditemukan, Gemini membuat contoh kueri. Ini adalah pertanyaan bahasa alami dengan kueri SQL yang sesuai yang menggabungkan beberapa tabel dalam set data.

  1. Untuk melihat kueri SQL, klik pertanyaan.

  2. Untuk membuka kueri di editor kueri BigQuery, klik Salin ke kueri. Kemudian, Anda dapat menjalankan kueri atau mengubahnya.

  3. Untuk mengajukan pertanyaan lanjutan, klik Ajukan pertanyaan lanjutan, yang akan membuka kanvas data tanpa judul tempat Anda dapat melakukan chat dengan Gemini untuk menjelajahi data Anda.

Langkah berikutnya