Menggunakan insight data untuk data tidak terstruktur

Insight data untuk data tidak terstruktur menggunakan Vertex AI untuk mengubah file mentah dan tidak terstruktur di Cloud Storage menjadi aset terstruktur yang dapat dikueri di BigQuery. Insight data untuk data tidak terstruktur dioptimalkan untuk file PDF.

Dokumen ini menjelaskan cara menyiapkan izin yang diperlukan, menemukan data tidak terstruktur, melihat hasil analisis yang dihasilkan, dan mengekstrak data ke BigQuery.

Sebelum memulai

Sebelum menggunakan insight data untuk data tidak terstruktur, pastikan Anda memiliki izin yang diperlukan dan API yang diaktifkan.

Mengaktifkan API

Aktifkan API berikut di project Anda:

  • dataplex.googleapis.com
  • bigquery.googleapis.com
  • aiplatform.googleapis.com (Vertex AI)

Peran yang diperlukan untuk mengaktifkan API

Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

Aktifkan API

Peran dan izin yang diperlukan

Untuk mengonfigurasi dan menjalankan insight data untuk data tidak terstruktur, pastikan Anda dan akun layanan yang digunakan oleh Knowledge Catalog dan BigQuery memiliki peran dan izin Identity and Access Management (IAM) yang diperlukan.

Pemindaian penemuan diperlukan untuk menemukan file tidak terstruktur Anda secara otomatis di Cloud Storage dan membuat katalognya ke dalam tabel objek sehingga dapat dianalisis. Untuk mengetahui izin umum yang diperlukan untuk menjalankan pemindaian penemuan di bucket Cloud Storage, lihat Menemukan dan membuat katalog data Cloud Storage.

Ringkasan identitas dan peran yang diperlukan

Jenis identitas Format utama standar Peran IAM yang diperlukan Tujuan inti
Pengguna akhir Akun pengguna Google Cloud Anda
  • Service Usage Admin
  • Admin Dataplex DataScan
  • Dataplex DataScan DataViewer
  • Editor Data BigQuery
  • BigQuery Job User
Anda menggunakan peran ini untuk mengaktifkan API, mengonfigurasi dan melihat pemindaian penemuan, serta memicu ekstraksi data akhir.
Agen penemuan Katalog Universal Knowledge Catalog service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com
  • Pengguna Vertex AI
  • Discovery Service Agent
Agen layanan yang dikelola Google ini menemukan file tidak terstruktur Anda di Cloud Storage, mengaturnya dalam katalog, dan memanggil Vertex AI untuk menghasilkan skema dan metadata yang disimpulkan.
Akun layanan koneksi BigQuery service-<var>PROJECT_NUMBER</var>@gcp-sa-bigqueryconnection.iam.gserviceaccount.com
  • Storage Object Viewer (di bucket sumber)
  • Pengguna Vertex AI (di project)
BigQuery Connection API menghubungkan BigQuery ke penyimpanan eksternal, sehingga BigQuery dapat membaca file mentah, membuat tabel objek, dan menjalankan inferensi AI tanpa mengekspos kredensial pengguna pribadi Anda.
Akun layanan eksekusi pipeline (Opsional) Akun layanan yang dikelola pengguna
  • Editor Data BigQuery
  • BigQuery Job User
  • BigQuery User
  • Pengguna Vertex AI
Jika Anda memilih untuk mengekstrak data menggunakan pipeline otomatis, identitas ini akan menjalankan tugas latar belakang untuk mewujudkan entitas yang dihasilkan AI ke dalam tabel BigQuery.
Akun layanan Dataform default (Opsional) service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com
  • Service Account Token Creator (diberikan di akun layanan eksekusi pipeline)
Saat menggunakan metode ekstraksi pipeline, Dataform memerlukan izin untuk menirukan identitas akun layanan eksekusi pipeline Anda guna mengatur alur kerja.

Peran dan izin pengguna akhir

Untuk memastikan bahwa akun pengguna Anda memiliki izin yang diperlukan untuk membuat pemindaian penemuan, melihat insight, dan mengekstrak data, minta administrator Anda untuk memberikan peran IAM berikut kepada akun pengguna Anda di project:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membuat pemindaian penemuan, melihat insight, dan mengekstrak data. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat pemindaian penemuan, melihat insight, dan mengekstrak data:

  • Pemindaian penemuan:
    • dataplex.datascans.create
    • dataplex.datascans.get
    • dataplex.datascans.getData
    • dataplex.datascans.list
  • Ekstraksi data:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.getData
    • bigquery.jobs.create

Administrator Anda mungkin juga dapat memberi akun pengguna Anda izin ini dengan peran khusus atau peran bawaan lainnya.

Peran dan izin agen layanan penemuan Knowledge Catalog

Agen layanan penemuan Knowledge Catalog adalah agen layanan yang memerlukan akses untuk menjalankan pemindaian penemuan dan melakukan inferensi menggunakan Vertex AI.

Untuk memastikan bahwa agen layanan penemuan Knowledge Catalog (biasanya service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) memiliki izin yang diperlukan untuk menjalankan pemindaian penemuan dan melakukan inferensi menggunakan Vertex AI, minta administrator untuk memberikan peran IAM berikut kepada agen layanan penemuan Knowledge Catalog (biasanya service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) di project:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk menjalankan pemindaian penemuan dan melakukan inferensi menggunakan Vertex AI. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menjalankan pemindaian penemuan dan melakukan inferensi menggunakan Vertex AI:

  • aiplatform.endpoints.predict
  • bigquery.datasets.create
  • bigquery.datasets.get
  • storage.buckets.get
  • storage.objects.get
  • storage.objects.list

Administrator Anda mungkin juga dapat memberikan izin ini kepada agen layanan penemuan Knowledge Catalog (biasanya service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) dengan peran khusus atau peran bawaan lainnya.

Peran dan izin akun layanan koneksi BigQuery

Koneksi resource Cloud BigQuery memungkinkan Knowledge Catalog mengakses dan menemukan data tidak terstruktur yang disimpan di luar BigQuery, seperti di Cloud Storage, secara aman. Saat Anda membuat koneksi, BigQuery akan otomatis membuat akun layanan khusus untuk Anda. Akun layanan ini berfungsi sebagai identitas yang digunakan untuk terhubung ke sumber data eksternal Anda.

Secara default, akun layanan ini tidak memiliki izin apa pun. Anda harus memberikan peran IAM yang diperlukan secara eksplisit ke akun layanan ini di bucket Cloud Storage yang berisi data Anda. Anda dapat menggunakan koneksi BigQuery yang ada atau membuat yang baru di lokasi yang sama dengan bucket Cloud Storage sumber Anda.

Untuk memastikan akun layanan koneksi BigQuery (biasanya service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) memiliki izin yang diperlukan untuk membuat tabel objek dan menjalankan inferensi, minta administrator Anda untuk memberikan peran IAM berikut kepada akun layanan koneksi BigQuery (biasanya service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com):

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membuat tabel objek dan menjalankan inferensi. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat tabel objek dan menjalankan inferensi:

  • storage.buckets.get di bucket yang berisi data tidak terstruktur
  • storage.objects.get di bucket yang berisi data tidak terstruktur
  • aiplatform.endpoints.predict di project

Administrator Anda mungkin juga dapat memberikan izin ini kepada akun layanan koneksi BigQuery (biasanya service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) dengan peran khusus atau peran bawaan lainnya.

Peran dan izin akun layanan eksekusi pipeline (Opsional)

Jika Anda memilih untuk mengekstrak data yang disimpulkan menggunakan pipeline otomatis, Anda harus membuat atau memberikan akun layanan khusus untuk menjalankan pipeline. Akun layanan eksekusi ini bertindak sebagai identitas yang mengautentikasi dan menjalankan tugas ekstraksi dan analisis data di latar belakang secara aman di BigQuery. Selain itu, Anda harus memberikan izin akun layanan Dataform default untuk meniru identitas akun layanan eksekusi ini.

Untuk memastikan bahwa akun layanan eksekusi pipeline memiliki izin yang diperlukan untuk mengekstrak entitas dan hubungan yang disimpulkan menggunakan pipeline, minta administrator untuk memberikan peran IAM berikut ke akun layanan eksekusi pipeline di project:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk mengekstrak entitas dan hubungan yang disimpulkan menggunakan pipeline. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk mengekstrak entitas dan hubungan yang disimpulkan menggunakan pipeline:

  • bigquery.tables.create
  • bigquery.tables.update
  • bigquery.tables.get
  • bigquery.tables.getData
  • bigquery.jobs.create
  • aiplatform.endpoints.predict

Administrator Anda mungkin juga dapat memberikan izin ini kepada akun layanan eksekusi pipeline dengan peran khusus atau peran bawaan lainnya.

Untuk memastikan akun layanan Dataform default (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) memiliki izin yang diperlukan untuk meniru akun layanan eksekusi pipeline, minta administrator Anda untuk memberikan peran IAM Service Account Token Creator (roles/iam.serviceAccountTokenCreator) kepada akun layanan Dataform default (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) di akun layanan eksekusi pipeline.

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin iam.serviceAccounts.getAccessToken, yang diperlukan untuk meniru akun layanan eksekusi pipeline.

Administrator Anda mungkin juga dapat memberi akun layanan Dataform default (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) izin ini dengan peran khusus atau peran bawaan lainnya.


Menyiapkan data tidak terstruktur

Sebelum menjalankan pemindaian penemuan, Anda harus mengupload data tidak terstruktur ke bucket Cloud Storage. Insight data untuk data tidak terstruktur dioptimalkan untuk menganalisis dokumen PDF.

Untuk mengetahui informasi selengkapnya tentang cara menyimpan dan mengelola file di Cloud Storage, lihat Mengupload objek.

Membuat pemindaian penemuan untuk data tidak terstruktur

Untuk mengekstrak insight semantik dari data tidak terstruktur, Anda harus membuat pemindaian penemuan terlebih dahulu. Pemindaian ini secara otomatis menemukan file tidak terstruktur Anda di Cloud Storage dan mengaturnya ke dalam tabel objek. Dengan mengaktifkan opsi insight data selama proses ini, Knowledge Catalog menggunakan Vertex AI untuk menganalisis file dan menghasilkan metadata, skema, dan hubungan yang disimpulkan.

  1. Di konsol Google Cloud , buka halaman Kurasi metadata.

    Buka Kurasi metadata

  2. Di tab Cloud Storage discovery, klik Create.

  3. Masukkan nama untuk pemindaian.

  4. Untuk memilih bucket Cloud Storage yang berisi data tidak terstruktur Anda, klik Browse.

  5. Untuk Opsi data tidak terstruktur, centang kotak Aktifkan inferensi semantik.

  6. Di kolom Connection ID, tentukan koneksi BigQuery yang digunakan untuk mengakses file.

    Pemindaian penemuan secara otomatis membuat katalog data tidak terstruktur ke dalam BigQuery dengan membuat tabel objek. Karena tabel objek secara aman memisahkan kredensial akses data dari pengguna yang menjalankan kueri, koneksi diperlukan untuk melakukan autentikasi dengan Cloud Storage dan membaca file.

  7. Klik Jalankan sekarang (untuk pemindaian sesuai permintaan) atau Buat (untuk pemindaian terjadwal).

    Untuk mengetahui detail lengkap tentang semua konfigurasi yang tersedia, lihat Menemukan dan membuat katalog data Cloud Storage.

Knowledge Catalog membuat tabel objek dan memperkaya entri katalog dengan metadata yang dihasilkan AI. Proses ini biasanya memerlukan waktu beberapa menit untuk set data standar.

Menemukan tabel objek

Setelah pemindaian penemuan selesai, Knowledge Catalog akan membuat satu atau beberapa tabel objek dan mengisi Knowledge Catalog dengan entri yang sesuai yang diperkaya dengan metadata yang dibuat AI. Jika beberapa entri dibuat karena pemindaian penemuan, setiap entri memiliki tab insight-nya sendiri. Anda dapat melihat deskripsi tabel otomatis, skema yang disimpulkan, dan grafik hubungan.

  1. Di konsol Google Cloud , buka halaman BigQuery.

    Buka BigQuery

  2. Di menu navigasi, klik Tata Kelola > Penyiapan metadata.

  3. Di panel Penemuan Cloud Storage, klik pemindaian penemuan yang Anda jalankan untuk data tidak terstruktur.

    • Bagian Detail pemindaian menampilkan detail tentang pemindaian penemuan.
    • Bagian Status pemindaian menampilkan hasil penemuan tugas pemindaian terbaru.
  4. Klik link untuk Set data yang dipublikasikan.

  5. Dalam daftar tabel yang ditampilkan untuk set data BigQuery, pilih tabel objek yang dibuat untuk pemindaian data penemuan.

  6. Salin ID tabel. Anda akan membutuhkannya di bagian berikutnya.

Melihat grafik entitas yang disimpulkan

Anda dapat melihat tabel objek untuk pemindaian penemuan di Knowledge Catalog.

  1. Di konsol Google Cloud , buka halaman Penelusuran Katalog Pengetahuan.

    Buka Penelusuran

  2. Tempel dan telusuri tabel objek yang ID-nya Anda pilih di bagian sebelumnya.

  3. Di hasil penelusuran, klik tabel untuk membuka halaman entri.

  4. Di tab Detail, di bagian Aspek, verifikasi keberadaan aspek Profil Grafik. Aspek ini berisi skema yang disimpulkan untuk entitas dan hubungan.

  5. Klik tab Insights. Di tab Insight, Anda dapat melihat informasi berikut:

    • Ekstraksi semantik. Banner menunjukkan bahwa entitas dan hubungan yang dapat diekstrak terdeteksi. Bagian ini mencakup tombol Ekstrak untuk mewujudkan data menggunakan SQL atau deployment pipeline.

    • Deskripsi. Ringkasan yang dibuat AI dan dapat dibaca manusia menjelaskan isi data tidak terstruktur. Grafik ini menjelaskan node (entitas) utama yang ditemukan dan cara node tersebut dipetakan satu sama lain melalui edge (hubungan).

    • Pipeline. Daftar pipeline ekstraksi data yang di-deploy sebelumnya yang terkait dengan resource ini. Anda dapat melihat nama tampilan, region, waktu pembuatan, dan pengguna yang membuat pipeline.

    • Entity dan hubungan yang disimpulkan. Grafik visual interaktif menampilkan struktur semantik yang ditemukan dari data tidak terstruktur Anda. Grafik berisi node yang merepresentasikan entity yang berbeda, misalnya, 'Resep' dan 'Bahan', serta edge yang merepresentasikan koneksi di antara keduanya, misalnya, 'HasAllergenStatus'. Anda dapat menggunakan legenda untuk memfilter dan menjelajahi node dan tepi tertentu.

    • Entitas. Daftar mendetail entitas utama yang ditemukan. Anda dapat meluaskan setiap entity untuk melihat deskripsi yang dibuat AI dan skema yang disimpulkan, yang mencakup nama kolom, jenis data, dan deskripsi kolom.

    • Hubungan. Daftar mendetail koneksi yang ditemukan antar-entitas. Anda dapat meluaskan setiap hubungan untuk melihat deskripsinya dan skema yang menentukan cara pemetaan antar-entitas.

Memperbarui insight yang disimpulkan

Insight yang disimpulkan disimpan dalam Katalog Knowledge Catalog sebagai aspek yang dilampirkan ke tabel objek. Anda dapat memperbarui insight ini secara manual menggunakan konsol Google Cloud atau API entry.patch.

Konsol

Untuk memperbarui insight yang disimpulkan di konsol Google Cloud , ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Penelusuran Katalog Pengetahuan.

    Buka Penelusuran

  2. Tempel dan telusuri ID tabel objek.

  3. Di hasil penelusuran, klik tabel untuk membuka halaman entri.

  4. Klik tab Insights.

  5. Di samping Entitas dan hubungan yang disimpulkan, klik Edit.

  6. Di editor JSON, ubah aspek graph-profile.

  7. Klik Simpan.

REST

Untuk memperbarui insight yang disimpulkan menggunakan REST API, ikuti langkah-langkah berikut:

  1. Buat file bernama payload.json dan tambahkan konten JSON aspek yang ingin Anda perbarui. Contoh:

    {
      "aspects": {
        "dataplex-types.global.graph-profile": {
          "data": {
            // Your updated inferred insights data
          }
        }
      }
    }
    
  2. Jalankan perintah berikut di terminal.

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -d @payload.json \
    "https://dataplex.googleapis.com/v1/projects/<var>PROJECT_ID</var>/locations/<var>LOCATION</var>/entryGroups/<var>ENTRY_GROUP_ID</var>/entries/<var>ENTRY_ID</var>?updateMask=aspects"
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda—misalnya, example-project
    • LOCATION: lokasi entri—misalnya, us-central1
    • ENTRY_GROUP_ID: ID grup entri—misalnya, example-entry-group
    • ENTRY_ID: ID entri—misalnya, example-entry

Untuk informasi dan contoh kode selengkapnya dalam bahasa lain, lihat Memperbarui aspek entri.

Mengekstrak data ke BigQuery

Anda dapat mewujudkan entitas dan hubungan yang disimpulkan ke dalam tabel atau tampilan terstruktur di BigQuery menggunakan SQL atau pipeline otomatis.

  1. Dari tab Insights, klik Ekstraksi.

  2. Pilih salah satu metode berikut berdasarkan kebutuhan analisis dan skala data tidak terstruktur Anda:

    • Ekstrak menurut SQL: Pilih opsi ini untuk analisis ad-hoc yang cepat, set data kecil hingga sedang, atau saat Anda menginginkan pendekatan tanpa infrastruktur menggunakan model jarak jauh BigQuery.

      Untuk mengekstrak menggunakan SQL, ikuti langkah-langkah berikut:

      1. Pilih Ekstrak menurut SQL.
      2. Di panel Ekstrak dengan SQL, pilih set data tujuan. Set data harus berada di lokasi yang sama dengan sumber.
      3. Klik Ekstrak.
      4. Di Editor BigQuery, kueri yang telah diisi sebelumnya akan terbuka. Jalankan kueri untuk membuat tabel dan tampilan standar.

      Untuk mengetahui informasi selengkapnya tentang cara menggunakan SQL untuk mengekstrak insight dokumen, lihat Memproses dokumen dengan fungsi ML.PROCESS_DOCUMENT.

    • Ekstrak menurut pipeline: Pilih opsi ini untuk pemrosesan data skala besar atau saat Anda memerlukan logika percobaan ulang yang andal, penanganan error, dan orkestrasi otomatis untuk menangani volume dokumen yang besar.

      Untuk mengekstrak menggunakan pipeline, ikuti langkah-langkah berikut:

      1. Pilih Ekstrak menurut pipeline.
      2. Di panel Ekstrak dengan pipeline, masukkan nama tampilan untuk pipeline.
      3. Pilih region.
      4. Pilih set data tujuan. Set data harus berada di lokasi yang sama dengan sumber.
      5. Klik Ekstrak. Tindakan ini akan membuat pipeline BigQuery yang mengatur materialisasi data.
      6. Jalankan semua tugas di pipeline untuk membuat tampilan node dan edge terstruktur.

      Untuk mengetahui informasi selengkapnya tentang menjalankan alur kerja data, lihat Pengantar Dataform.

Setelah mengekstrak dan mewujudkan insight semantik ke BigQuery, Anda dapat melakukan tugas berikut:

  • Buat kueri data terstruktur. Jalankan kueri SQL standar terhadap tabel yang baru dibuat untuk menganalisis entitas dan hubungan yang diekstrak.

  • Gabungkan dengan data yang ada. Gabungkan insight kualitatif yang diekstrak dari file tidak terstruktur dengan set data BigQuery terstruktur yang ada (seperti menggabungkan data invoice yang diurai dengan tabel akuntansi Anda).

  • Jelajahi insight data. Gunakan fitur Insight data di BigQuery Studio untuk membuat pertanyaan dalam bahasa alami dan kueri SQL secara otomatis untuk aset terstruktur baru Anda.

  • Menganalisis dengan Gemini. Gunakan Gemini di BigQuery untuk melakukan analisis percakapan, meringkas tren, atau membuat dasbor di Data Studio berdasarkan data yang diekstrak.