Menggunakan insight data untuk data terstruktur

Dokumen ini menjelaskan cara membuat, melihat, dan mengelola insight data untuk data terstruktur Anda. Menggunakan insight data yang didukung AI membantu Anda mempercepat eksplorasi data dengan otomatis membuat deskripsi, diagram relasi, dan kueri SQL dari metadata tabel dan set data Anda.

Di BigQuery Studio, Anda dapat membuat insight data untuk set data BigQuery, tabel, tampilan, Google Cloud tabel Lakehouse, dan tabel eksternal BigQuery,

Di Knowledge Catalog, Anda dapat membuat insight data untuk tabel katalog REST Iceberg Lakehouse.

Sebelum memulai

Sebelum menggunakan insight data, pastikan Anda telah menyelesaikan prasyarat berikut:

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk menggunakan insight data, minta administrator untuk memberi Anda peran IAM berikut:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran yang telah ditetapkan ini berisi izin yang diperlukan untuk menggunakan insight data. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menggunakan insight data:

  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Mengaktifkan API

Untuk menggunakan insight data, aktifkan API berikut di project Anda:

  • Dataplex API
  • BigQuery API
  • Gemini for Google Cloud API

Peran yang diperlukan untuk mengaktifkan API

Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

Aktifkan API

Untuk mengetahui informasi selengkapnya tentang cara mengaktifkan Gemini for Google Cloud API, lihat Mengaktifkan Gemini for Google Cloud API di sebuah Google Cloud project.

Menyiapkan data

Untuk tabel Google Cloud Lakehouse, pastikan data Anda berada di Cloud Storage dan Anda telah membuat tabel Google Cloud Lakehouse.

Untuk tabel Katalog REST Iceberg, pastikan tabel Anda terdaftar di katalog runtime Lakehouse.

Membuat insight di BigQuery

Insight data untuk set data, tabel, tampilan, Google Cloud tabel Lakehouse, dan tabel eksternal BigQuery dibuat menggunakan Gemini in BigQuery dan hanya dapat dibuat di BigQuery Studio.

Anda harus terlebih dahulu menyiapkan Gemini in BigQuery, lalu membuat insight. Setelah membuat insight, Anda dapat melihat dan mengubahnya di Knowledge Catalog.

Untuk mengetahui informasi selengkapnya tentang cara membuat insight di BigQuery, lihat dokumen berikut:

Membuat insight untuk tabel Katalog REST Iceberg

  1. Di Google Cloud konsol, buka halaman Penelusuran Knowledge Catalog.

    Buka Penelusuran

  2. Di Filter, pilih Lakehouse.

  3. Pilih tabel Katalog REST Iceberg yang insightnya ingin Anda buat.

  4. Klik tab Insights. Jika tab kosong, berarti insight untuk tabel ini belum dibuat.

  5. Untuk membuat insight dan melampirkannya secara permanen ke tabel sebagai aspek, klik Buat dan publikasikan. Tindakan ini akan membuat insight dapat diindeks, ditelusuri, dan dilihat oleh pengguna lain di organisasi Anda dalam Knowledge Catalog.

    Untuk membuat insight dan melihatnya sementara selama sesi saat ini, klik Buat tanpa memublikasikan. Gunakan opsi ini jika Anda hanya memerlukan analisis data cepat tanpa menyimpan metadata ke Knowledge Catalog.

    Untuk mengetahui informasi selengkapnya tentang perbedaan antara mode Buat dan publikasikan dan Buat tanpa memublikasikan, lihat Mode untuk membuat insight data.

  6. Pilih region untuk membuat insight, lalu klik Buat.

    Insight akan diisi dalam beberapa menit.

  7. Klik tab Insights dan tinjau hal berikut:

    • Deskripsi: Ini adalah ringkasan yang dibuat AI yang menjelaskan tujuan tabel dan mendetailkan kolom tertentu.
    • Contoh kueri: Ini adalah daftar kueri SQL yang disesuaikan dan dirancang khusus untuk skema dan konten set data Anda.
  8. Untuk melihat kueri SQL yang menjawab pertanyaan, klik pertanyaan tersebut.

Meninjau insight yang dibuat untuk resource

Untuk melihat insight yang dibuat untuk resource, selesaikan langkah-langkah berikut:

  1. Di Google Cloud konsol, buka halaman Knowledge Catalog Penelusuran.

    Buka Penelusuran

  2. Telusuri resource yang insightnya ingin Anda lihat.

  3. Di hasil penelusuran, klik resource untuk membuka halaman detail entri.

  4. Tinjau Deskripsi dan Kueri yang dibuat untuk resource yang dipilih.

  5. Untuk melihat diagram relasi guna memahami cara titik data terhubung, klik tab Relasi (Pratinjau). Anda hanya dapat melihat relasi di tingkat tabel, bukan di tingkat set data.

Mengelola insight tabel

Setelah membuat dan memublikasikan insight tabel, Anda dapat meninjau dan mengelolanya sebagai aspek metadata di Knowledge Catalog. Insight tingkat tabel mencakup deskripsi tabel dan kolom, serta contoh kueri.

Memperbarui deskripsi yang dibuat untuk tabel

Anda hanya dapat memperbarui deskripsi tabel dan kolom menggunakan Dataplex API. Untuk melakukannya, gunakan metode entries.patch.

Memperbarui kueri yang dibuat untuk tabel

Anda dapat memperbarui kueri yang dibuat untuk tabel menggunakan Google Cloud konsol dan Dataplex API.

Konsol

  1. Telusuri tabel yang kueri buatannya ingin Anda perbarui.

  2. Di hasil penelusuran, klik tabel untuk membuka halaman detail entri.

  3. Di bagian Kueri, klik Edit.

  4. Perbarui deskripsi kueri sesuai kebutuhan.

  5. Mengelola kepemilikan: Secara default, Sumber ditetapkan ke Agen. Jika Anda mengubah kueri dan mengubah sumber ke Pengguna, proses pembuatan insight berikutnya tidak akan mengganti perubahan Anda. Jika Sumber tetap Agen, kueri dapat diganti selama pembuatan ulang.

  6. Mengelola penggantian: Untuk mencegah semua kueri diganti selama proses ulang, Anda dapat menetapkan opsi Dikelola pengguna ke Benar. Hal ini berlaku untuk seluruh kumpulan kueri untuk aspek metadata tersebut, sehingga memastikan tidak ada perubahan manual yang hilang.

REST

Untuk memperbarui kueri untuk tabel, gunakan metode entries.patch.

Memperbarui relasi yang dibuat untuk tabel

Anda hanya dapat memperbarui relasi menggunakan Dataplex API. Untuk melakukannya, gunakan entries.patch.

Mengelola insight set data

Insight tingkat set data berfokus pada deskripsi tingkat tinggi dan kueri di seluruh set data.

Memperbarui deskripsi yang dibuat untuk set data

Anda hanya dapat memperbarui deskripsi set data menggunakan Dataplex API. Untuk melakukannya, gunakan metode entries.patch.

Memperbarui kueri yang dibuat untuk set data

Anda dapat memperbarui kueri yang dibuat untuk set data menggunakan Google Cloud konsol dan Dataplex API.

Konsol

  1. Telusuri set data yang kueri buatannya ingin Anda perbarui.

  2. Di hasil penelusuran, klik set data untuk membuka halaman detail entri.

  3. Di bagian Kueri, klik Edit.

  4. Perbarui deskripsi sesuai kebutuhan.

  5. Mengelola kepemilikan: Secara default, Sumber ditetapkan ke Agen. Jika Anda mengubah kueri dan mengubah sumber ke Pengguna, proses pembuatan insight berikutnya tidak akan mengganti perubahan Anda. Jika Sumber tetap Agen, kueri dapat diganti selama pembuatan ulang.

  6. Mengelola penggantian: Untuk mencegah semua kueri diganti selama proses ulang, Anda dapat menetapkan opsi Dikelola pengguna ke Benar. Hal ini berlaku untuk seluruh kumpulan kueri untuk aspek metadata tersebut, sehingga memastikan tidak ada perubahan manual yang hilang.

REST

Untuk memperbarui kueri untuk set data, gunakan metode entries.patch.

Memperbarui link entri yang dibuat untuk set data

Relasi yang ditemukan oleh insight data disimpan sebagai link entri antara entri tabel. Link ini mencakup aspek schema-join yang menjelaskan cara tabel terhubung.

Untuk mengedit relasi ini atau memberikan penggantian manual, Anda harus menggunakan Dataplex API.

Perilaku pembaruan link entri

Saat mengelola relasi menggunakan API, penting untuk memahami cara pembaruan API manual berinteraksi dengan pemindaian latar belakang otomatis agar Anda tidak menimpa data secara tidak sengaja.

  • Pembaruan manual (perilaku tingkat API): UpdateEntryLink API menggunakan metode PATCH untuk melakukan penggantian tingkat aspek:

    • Penggantian aspek penuh: Jika Anda menyertakan aspek schema-join dalam permintaan pembaruan, Knowledge Catalog akan mengganti seluruh aspek yang ada dengan aspek baru yang Anda berikan.

    • Tidak ada penggabungan otomatis: API tidak otomatis menggabungkan entri baru ke dalam daftar joins internal. Jika Anda mengirimkan payload yang hanya berisi satu gabungan, semua gabungan yang ada sebelumnya dalam aspek tersebut akan dihapus.

  • Pemindaian otomatis (perilaku tingkat sistem): Pemindaian otomatis, seperti insight data, melakukan logika penggabungan khusus sebelum memanggil API untuk memastikan metadata dengan kepastian tinggi dipertahankan berdasarkan sumbernya:

    • Prioritas sumber: Jika beberapa sumber mengidentifikasi relasi yang sama, Knowledge Catalog akan memprioritaskannya dalam urutan berikut:

      1. USER (Edit manual)
      2. TABLE_CONSTRAINTS
      3. QUERY_HISTORY
      4. AGENT (Saran LLM)
    • Kesegaran LLM: Relasi yang berasal dari sumber AGENT bersifat dinamis. Jika pemindaian berikutnya tidak lagi merekomendasikan relasi, relasi tersebut akan dihapus.

Memperbarui link entri

Untuk melihat dan mengubah link entri, selesaikan langkah-langkah berikut:

  1. Identifikasi link entri.

    Sebelum dapat memperbarui relasi, temukan nama resourcenya dengan mencantumkan semua link entri yang melibatkan entri tabel tertentu:

    gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda Google Cloud
    • LOCATION: region tempat pemindaian data Anda dipicu
    • TABLE_ENTRY_NAME: nama resource lengkap entri tabel BigQuery (misalnya, bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)
  2. Perbarui link entri.

    Untuk mengubah aspek schema-join dari link entri target, gunakan metode PATCH:

    gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \
    -d '{
      "aspects": {
        "dataplex-types.global.schema-join": {
          "data": {
            "joins": [
              {
                "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] },
                "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] },
                "type": "JOIN",
                "inferenceSource": "USER"
              }
            ],
            "userManaged": false 
          }
        }
      }
    }'
    

    Ganti kode berikut:

    • ENTRYLINK_ID: ID link entri yang diambil pada langkah identifikasi sebelumnya
    • DATASET_ID: ID set data BigQuery Anda
    • SOURCE_TABLE: nama tabel sumber
    • SOURCE_FIELD: nama kolom yang digunakan untuk gabungan di tabel sumber
    • TARGET_TABLE: nama tabel target
    • TARGET_FIELD: nama kolom yang digunakan untuk gabungan di tabel target

Langkah berikutnya