Menggunakan profil data untuk data tidak terstruktur

Pemindaian profil data untuk data tidak terstruktur (UnstructuredDataProfileSpec) yang didukung oleh model Vertex AI Gemini 2.5 Pro menganalisis tabel objek BigQuery yang ada untuk mengubah file mentah yang tidak terstruktur di Cloud Storage (seperti PDF) menjadi aset terstruktur yang dapat dikueri. Alur kerja mandiri ini dirancang untuk pengguna yang sudah memiliki tabel objek BigQuery dan mendukung panduan ekstraksi dengan perintah yang disesuaikan. Jika Anda memulai dengan file mentah di Cloud Storage dan menginginkan alur kerja penemuan otomatis, lihat Menggunakan pemindaian penemuan untuk data tidak terstruktur.

Dokumen ini menjelaskan cara menyiapkan izin yang diperlukan, menyiapkan tabel objek, membuat pemindaian profil data untuk data tidak terstruktur menggunakan REST API, melihat hasil analisis yang dihasilkan, mengelola profil grafik, dan mengekstrak data ke BigQuery.

Sebelum memulai

Sebelum membuat pemindaian profil data untuk data tidak terstruktur, pastikan Anda memiliki izin yang diperlukan dan API yang diaktifkan.

Mengaktifkan API

Aktifkan API berikut di project Anda:

  • dataplex.googleapis.com
  • bigquery.googleapis.com
  • aiplatform.googleapis.com (Vertex AI)

Peran yang diperlukan untuk mengaktifkan API

Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

Aktifkan API

Peran dan izin yang diperlukan

Inferensi semantik data tidak terstruktur adalah fitur pemindaian profil data lanjutan yang beroperasi pada tabel objek BigQuery. Untuk mengonfigurasi dan menjalankan pemrofilan data tidak terstruktur, Anda harus memenuhi izin dasar untuk mengakses tabel objek dan memberikan peran tambahan untuk inferensi semantik di beberapa agen layanan.

Peran tabel objek dasar

Untuk mengakses dan mengkueri tabel objek BigQuery, pastikan Anda dan akun layanan yang digunakan oleh Knowledge Catalog memiliki peran Identity and Access Management (IAM) dasar berikut di project:

  • BigQuery Data Viewer (roles/bigquery.dataViewer)
  • BigQuery Connection User (roles/bigquery.connectionUser)

Untuk mengetahui daftar lengkap prasyarat tabel objek, lihat Membuat tabel objek.

Peran tambahan untuk inferensi semantik

Selain akses tabel dasar, pastikan Anda dan akun layanan memiliki peran IAM tambahan berikut.

Ringkasan identitas dan peran tambahan

Jenis identitas Format utama standar Peran IAM yang diperlukan Tujuan inti
Pengguna akhir Akun pengguna Google Cloud Anda
  • Editor Dataplex DataScan
  • Editor Katalog Dataplex
  • Editor Data BigQuery
  • BigQuery Job User
Anda menggunakan peran tambahan ini untuk mengonfigurasi pemindaian, melihat hasil yang dibuat AI, mengelola profil grafik, dan memicu ekstraksi data akhir.
Agen penemuan Dataplex Universal Catalog service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com
  • Vertex AI User
  • BigQuery Job User
  • BigQuery Data Viewer
Agen layanan yang dikelola Google ini menggunakan peran tambahan ini untuk memanggil Vertex AI guna membuat skema dan metadata yang disimpulkan.
Akun layanan koneksi BigQuery Identitas unik yang terkait dengan koneksi Anda (misalnya, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com)
  • Storage Object Viewer (di bucket sumber)
  • Pengguna Vertex AI (di project)
BigQuery Connection API menghubungkan BigQuery ke penyimpanan eksternal, sehingga BigQuery dapat membaca file mentah, membuat tabel objek, dan menjalankan inferensi AI tanpa mengekspos kredensial pengguna pribadi Anda.
Akun layanan eksekusi pipeline (Opsional) Akun layanan yang dikelola pengguna
  • Editor Data BigQuery
  • BigQuery Job User
  • BigQuery User
  • Vertex AI User
Jika Anda memilih untuk mengekstrak data menggunakan pipeline otomatis, identitas ini akan menjalankan tugas latar belakang untuk mewujudkan entitas yang dihasilkan AI ke dalam tabel BigQuery.
Akun layanan Dataform default (Opsional) service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com
  • Service Account Token Creator (diberikan di akun layanan eksekusi pipeline)
Saat menggunakan metode ekstraksi pipeline, Dataform memerlukan izin untuk menirukan identitas akun layanan eksekusi pipeline Anda guna mengatur alur kerja.

Peran dan izin pengguna akhir

Untuk memastikan bahwa akun pengguna Anda memiliki izin yang diperlukan untuk membuat pemindaian, melihat insight, menata profil grafik, dan mengekstrak data, minta administrator untuk memberi akun pengguna Anda peran IAM berikut di project:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membuat pemindaian, melihat insight, menyeleksi profil grafik, dan mengekstrak data. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membuat pemindaian, melihat insight, mengatur profil grafik, dan mengekstrak data:

  • DataScans:
    • dataplex.datascans.create
    • dataplex.datascans.get
    • dataplex.datascans.getData
    • dataplex.datascans.list
    • dataplex.datascans.update
  • Ekstraksi data:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.getData
    • bigquery.jobs.create

Administrator Anda mungkin juga dapat memberi akun pengguna Anda izin ini dengan peran khusus atau peran bawaan lainnya.

Peran dan izin agen layanan penemuan Dataplex

Agen layanan penemuan Dataplex adalah agen layanan yang memerlukan akses untuk menjalankan pemindaian dan melakukan inferensi semantik menggunakan Vertex AI.

Untuk memastikan bahwa agen layanan penemuan Dataplex (biasanya service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) memiliki izin yang diperlukan untuk menjalankan pemindaian dan melakukan inferensi semantik menggunakan Vertex AI, minta administrator Anda untuk memberikan peran IAM berikut kepada agen layanan penemuan Dataplex (biasanya service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) di project:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk menjalankan pemindaian dan melakukan inferensi semantik menggunakan Vertex AI. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menjalankan pemindaian dan melakukan inferensi semantik menggunakan Vertex AI:

  • Semua:
    • aiplatform.endpoints.predict
    • bigquery.datasets.create
    • bigquery.datasets.get
    • bigquery.tables.get
    • bigquery.tables.getData
    • storage.buckets.get
    • storage.objects.get
    • storage.objects.list

Administrator Anda mungkin juga dapat memberikan izin ini kepada agen layanan penemuan Dataplex (biasanya service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) dengan peran khusus atau peran bawaan lainnya.

Peran dan izin akun layanan koneksi BigQuery

Koneksi resource Cloud BigQuery memungkinkan Knowledge Catalog mengakses data tidak terstruktur yang disimpan di Cloud Storage. Saat Anda membuat koneksi, BigQuery akan otomatis membuat akun layanan khusus atas nama Anda. Akun layanan ini berfungsi sebagai identitas yang digunakan untuk terhubung ke sumber data eksternal Anda.

Secara default, akun layanan ini tidak memiliki izin apa pun. Anda harus memberikan peran IAM yang diperlukan secara eksplisit ke akun layanan ini di bucket Cloud Storage yang berisi data Anda. Anda dapat menggunakan koneksi BigQuery yang ada atau membuat koneksi baru di lokasi yang sama dengan bucket Cloud Storage sumber Anda. Untuk mengetahui informasi selengkapnya tentang berbagi koneksi, lihat Berbagi koneksi dengan pengguna.

Untuk memastikan akun layanan koneksi BigQuery (ambil ID dari bagian Info koneksi di detail koneksi Anda) memiliki izin yang diperlukan untuk membaca tabel objek dan menjalankan inferensi, minta administrator Anda untuk memberikan peran IAM berikut kepada akun layanan koneksi BigQuery (ambil ID dari bagian Info koneksi di detail koneksi Anda):

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk membaca tabel objek dan menjalankan inferensi. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk membaca tabel objek dan menjalankan inferensi:

  • Semua:
    • storage.buckets.get pada bucket yang berisi data tidak terstruktur
    • storage.objects.get pada bucket yang berisi data tidak terstruktur
    • aiplatform.endpoints.predict dalam project

Administrator Anda mungkin juga dapat memberikan izin ini kepada akun layanan koneksi BigQuery (ambil ID dari bagian Info koneksi di detail koneksi Anda) dengan peran khusus atau peran bawaan lainnya.

Peran dan izin akun layanan eksekusi pipeline (Opsional)

Jika Anda memilih untuk mengekstrak data yang disimpulkan menggunakan pipeline otomatis, Anda harus membuat atau menyediakan akun layanan khusus untuk menjalankan pipeline. Akun layanan eksekusi ini bertindak sebagai identitas yang mengautentikasi dan menjalankan tugas ekstraksi dan analisis data latar belakang di BigQuery. Selain itu, Anda harus memberikan izin ke akun layanan Dataform default untuk meniru identitas akun layanan eksekusi ini.

Untuk memastikan bahwa akun layanan eksekusi pipeline memiliki izin yang diperlukan untuk mengekstrak entitas dan hubungan yang disimpulkan menggunakan pipeline, minta administrator untuk memberikan peran IAM berikut kepada akun layanan eksekusi pipeline di project:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk mengekstrak entitas dan hubungan yang disimpulkan menggunakan pipeline. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk mengekstrak entitas dan hubungan yang disimpulkan menggunakan pipeline:

  • Semua:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.jobs.create
    • aiplatform.endpoints.predict

Administrator Anda mungkin juga dapat memberikan izin ini kepada akun layanan eksekusi pipeline dengan peran khusus atau peran bawaan lainnya.

Untuk memastikan akun layanan Dataform default (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) memiliki izin yang diperlukan untuk meniru akun layanan eksekusi pipeline, minta administrator Anda untuk memberikan peran IAM berikut kepada akun layanan Dataform default (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) di akun layanan eksekusi pipeline:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk meniru akun layanan eksekusi pipeline. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk meniru identitas akun layanan eksekusi pipeline:

  • Semua: iam.serviceAccounts.getAccessToken

Administrator Anda mungkin juga dapat memberikan izin ini kepada akun layanan Dataform default (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) dengan peran khusus atau peran bawaan lainnya.


Menyiapkan tabel objek

Pemindaian profil data untuk data tidak terstruktur beroperasi langsung pada tabel objek BigQuery yang ada. Sebelum membuat pemindaian, pastikan data tidak terstruktur Anda (seperti PDF) disimpan di bucket Cloud Storage dan Anda telah membuat tabel objek BigQuery yang sesuai di bucket tersebut menggunakan koneksi resource Cloud.

Pastikan Anda dan akun layanan Knowledge Catalog memiliki peran BigQuery Connection User (roles/bigquery.connectionUser) pada koneksi yang digunakan oleh tabel objek.

Untuk mengetahui informasi selengkapnya tentang cara membuat tabel objek dan menyiapkan koneksi yang diperlukan, lihat Membuat tabel objek.

Membuat pemindaian profil data untuk data tidak terstruktur

Untuk mengekstrak insight semantik dari tabel objek, Anda harus membuat pemindaian profil data untuk data tidak terstruktur (UnstructuredDataProfileSpec). Pemindaian ini menggunakan model Vertex AI Gemini 2.5 Pro untuk menganalisis file tidak terstruktur yang dirujuk oleh tabel objek Anda dan menghasilkan metadata, skema, dan hubungan yang disimpulkan.

Untuk rilis awal ini, pembuatan pemindaian didukung secara eksklusif dengan menggunakan REST API.

Untuk membuat pemindaian profil data untuk data tidak terstruktur menggunakan REST API, gunakan metode dataScans.create dengan unstructuredDataProfileSpec.

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
  "description": "Data profile scan for unstructured data",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "",
    "graphProfilePublishingEnabled": false
  }
}

Ganti kode berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: wilayah (harus mendukung Gemini 2.5 Pro). Google Cloud
  • DATASCAN: nama pemindaian profil data.
  • DATASET_ID dan TABLE_ID: nama set data dan tabel objek BigQuery.

Parameter spesifikasi pemindaian profil data

  • customizedPrompt: Opsional. Perintah bahasa alami yang menginstruksikan Gemini tentang entitas atau konteks domain tertentu yang akan diekstrak (misalnya, Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Secara default, ini adalah string kosong (""). Ada batasan panjang karakter maksimum untuk perintah yang disesuaikan.

  • graphProfilePublishingEnabled: Opsional. Apakah akan otomatis memublikasikan profil grafik yang disimpulkan ke katalog setelah pemindaian selesai. Secara default, nilainya adalah false.

Knowledge Catalog menjalankan pemindaian profil data dan memperkaya entri katalog dengan metadata yang dihasilkan AI. Proses ini biasanya memerlukan waktu beberapa menit untuk set data standar.

Contoh: Mengekstrak persyaratan kontrak dari PDF penjual

Contoh berikut menunjukkan permintaan REST API untuk perusahaan retail contoh yang membuat pemindaian profil data (seller-contracts-scan) untuk menganalisis PDF perjanjian penjual yang disimpan dalam tabel objek (seller_agreements_obj_table). Contoh ini menggunakan perintah yang disesuaikan untuk menginstruksikan Gemini mengekstrak istilah bisnis tertentu, seperti tarif komisi dan persyaratan pembayaran:

POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
  "description": "Data profile scan for seller PDF agreements",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  }
}

Menjalankan pemindaian profil data

Jika mengonfigurasi pemindaian profil data agar berjalan sesuai permintaan, Anda harus memicu pemindaian secara manual untuk menganalisis data tidak terstruktur.

Untuk menjalankan pemindaian profil data sesuai permintaan menggunakan REST API, gunakan metode dataScans.run:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

Ganti kode berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: region Google Cloud tempat pemindaian profil data berada.
  • DATASCAN: nama pemindaian profil data.

Mempelajari hasil pemindaian profil data

Setelah pemindaian profil data selesai, Knowledge Catalog akan membuat profil grafik yang berisi skema yang disimpulkan untuk entitas dan hubungan. Anda dapat menjelajahi hasil ini menggunakan konsol Google Cloud atau REST API.

Konsol

Jika Anda mengaktifkan publikasi profil grafik ke katalog (graphProfilePublishingEnabled: true), Anda dapat melihat tabel objek dan grafik semantik yang disimpulkan di Knowledge Catalog:

  1. Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.

    Buka Penelusuran

  2. Tempel dan telusuri tabel objek yang ID-nya Anda konfigurasi dalam pemindaian.

  3. Di hasil penelusuran, klik tabel untuk membuka halaman entri.

  4. Di tab Details, di bagian Aspects, verifikasi keberadaan aspek Graph Profile (dataplex-types.global.graph-profile). Aspek ini berisi skema yang disimpulkan untuk entitas dan hubungan.

  5. Klik tab Insights. Di tab Insight, Anda dapat melihat informasi berikut:

    • Ekstraksi semantik. Banner menunjukkan bahwa entitas dan hubungan yang dapat diekstrak terdeteksi. Tab ini menyertakan tombol Ekstrak untuk merealisasikan data menggunakan SQL atau deployment pipeline.

    • Deskripsi. Ringkasan buatan AI yang dapat dibaca manusia menjelaskan isi data tidak terstruktur. Bagian ini menjelaskan node utama (entitas) yang ditemukan dan cara pemetaannya satu sama lain melalui tepi (hubungan).

    • Pipelines. Daftar pipeline ekstraksi data yang sebelumnya di-deploy yang terkait dengan resource ini. Anda dapat melihat nama tampilan, region, waktu pembuatan, dan pengguna yang membuat pipeline.

    • Entity dan hubungan yang disimpulkan. Grafik visual interaktif menampilkan struktur semantik yang ditemukan dari data tidak terstruktur Anda. Grafik berisi node yang merepresentasikan entity yang berbeda, misalnya, Recipe dan Ingredient, serta edge yang merepresentasikan koneksi di antara keduanya, misalnya, HasAllergenStatus. Anda dapat menggunakan legenda untuk memfilter dan menjelajahi node dan tepi tertentu.

    • Entitas. Daftar mendetail entitas utama yang ditemukan. Anda dapat meluaskan setiap entitas untuk melihat deskripsi yang dibuat AI dan skema yang disimpulkan, yang mencakup nama kolom, jenis data, dan deskripsi kolom.

    • Hubungan. Daftar mendetail koneksi yang ditemukan antar-entitas. Anda dapat meluaskan setiap hubungan untuk melihat deskripsinya dan skema yang menentukan cara pemetaan entitas satu sama lain.

REST

Untuk mengambil hasil profil grafik langsung dari eksekusi tugas pemindaian menggunakan REST API, gunakan metode dataScans.jobs.get dengan view=full:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"

Ganti kode berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: region Google Cloud tempat pemindaian profil data berada.
  • DATASCAN: nama pemindaian profil data.
  • JOB_ID: ID unik eksekusi tugas pemindaian profil data.

Contoh berikut menunjukkan respons untuk tugas seller-contracts-scan, termasuk unstructuredDataProfileResult dan graphProfile:

{
  "name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
  "uid": "123e4567-e89b-12d3-a456-426614174000",
  "startTime": "2026-06-08T19:12:03.102Z",
  "endTime": "2026-06-08T19:15:28.415Z",
  "state": "SUCCEEDED",
  "type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  },
  "unstructuredDataProfileResult": {
    "description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
    "graphProfile": {
      "nodeTypes": [
        {
          "name": "Seller Entity",
          "description": "Discovered business entity representing the seller.",
          "fields": [
            {
              "name": "seller_name",
              "dataType": "STRING",
              "description": "The legal name of the seller.",
              "mode": "NULLABLE"
            },
            {
              "name": "address",
              "dataType": "STRING",
              "description": "The physical or mailing address of the seller.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Commission Rate",
          "description": "Discovered agreed commission rate terms.",
          "fields": [
            {
              "name": "rate_percentage",
              "dataType": "NUMBER",
              "description": "The agreed commission percentage.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Payment Terms",
          "description": "Discovered payment schedule and terms.",
          "fields": [
            {
              "name": "billing_cycle",
              "dataType": "STRING",
              "description": "The agreed billing frequency or payment schedule.",
              "mode": "NULLABLE"
            }
          ]
        }
      ],
      "edgeTypes": [
        {
          "name": "AgreedCommission",
          "description": "Defines the commission rate agreed by the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Commission Rate"
        },
        {
          "name": "HasPaymentTerms",
          "description": "Defines the payment terms applicable to the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Payment Terms"
        }
      ]
    }
  }
}

Memperbarui insight yang disimpulkan

Insight yang disimpulkan disimpan di Katalog Knowledge Catalog sebagai aspek yang dilampirkan ke tabel objek. Anda dapat memperbarui insight ini secara manual menggunakan REST API.

REST

Untuk memperbarui insight yang disimpulkan menggunakan REST API, ikuti langkah-langkah berikut:

  1. Buat file bernama payload.json dan tambahkan konten JSON dari aspek yang ingin Anda perbarui. Contoh:

    {
      "aspects": {
        "dataplex-types.global.graph-profile": {
          "data": {
            "nodeTypes": [],
            "edgeTypes": []
          }
        }
      }
    }
    
  2. Jalankan perintah berikut di terminal.

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -d @payload.json \
    "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
    

    Ganti kode berikut:

    • PROJECT_ID: ID project Anda—misalnya, example-project
    • LOCATION: lokasi entri—misalnya, us-central1
    • ENTRY_GROUP_ID: ID grup entri—misalnya, example-entry-group (untuk tabel objek BigQuery, gunakan @bigquery)
    • ENTRY_ID: ID entri—misalnya, example-entry (ambil ini dari tab Ringkasan di halaman detail entri di konsol Google Cloud )

Untuk mengetahui informasi selengkapnya dan contoh kode dalam bahasa lain, lihat Memperbarui aspek entri.

Mengekstrak data ke BigQuery

Anda dapat mewujudkan entitas dan hubungan yang disimpulkan ke dalam tabel atau tampilan terstruktur di BigQuery menggunakan SQL atau pipeline otomatis.

  1. Di konsol Google Cloud , buka halaman Penelusuran Knowledge Catalog.

    Buka Penelusuran

  2. Telusuri tabel objek yang dihasilkan oleh pemindaian Anda.

  3. Di hasil penelusuran, klik tabel untuk membuka halaman entri.

  4. Klik tab Insights.

  5. Di tab Insights, klik Ekstraksi.

  6. Pilih salah satu metode berikut berdasarkan kebutuhan analisis dan skala data tidak terstruktur Anda:

    • Ekstrak menurut SQL: Pilih opsi ini untuk analisis ad hoc yang cepat, set data kecil hingga sedang, atau saat Anda menginginkan pendekatan tanpa infrastruktur menggunakan model jarak jauh BigQuery.

      Untuk mengekstrak menggunakan SQL, ikuti langkah-langkah berikut:

      1. Pilih Ekstrak menurut SQL.
      2. Di panel Ekstrak dengan SQL, pilih set data tujuan. Set data harus berada di lokasi yang sama dengan sumber.
      3. Klik Ekstrak.
      4. Di Editor BigQuery, kueri yang telah diisi sebelumnya akan terbuka menggunakan fungsi ML.PROCESS_DOCUMENT. Jalankan kueri untuk membuat tabel dan tampilan standar.

      Untuk mengetahui informasi selengkapnya tentang penggunaan SQL untuk mengekstrak insight dokumen, lihat Memproses dokumen dengan fungsi ML.PROCESS_DOCUMENT.

    • Ekstrak menurut pipeline: Pilih opsi ini untuk pemrosesan data skala besar atau saat Anda memerlukan logika percobaan ulang, penanganan error, dan orkestrasi otomatis yang andal untuk menangani volume dokumen yang besar.

      Untuk mengekstrak menggunakan pipeline, ikuti langkah-langkah berikut:

      1. Pilih Ekstrak menurut pipeline.
      2. Di panel Ekstrak dengan pipeline, masukkan nama tampilan untuk pipeline.
      3. Pilih region.
      4. Pilih set data tujuan. Set data harus berada di lokasi yang sama dengan sumber.
      5. Klik Ekstrak. Tindakan ini akan membuat pipeline BigQuery yang mengatur materialisasi data menggunakan Dataform.
      6. Jalankan semua tugas di pipeline untuk membuat tampilan node dan tepi terstruktur.

      Untuk mengetahui informasi selengkapnya tentang menjalankan alur kerja data, lihat Pengantar Dataform.

Setelah mengekstrak dan mewujudkan insight semantik ke BigQuery, Anda dapat melakukan tugas berikut:

  • Kueri data terstruktur. Jalankan kueri SQL standar terhadap tabel yang baru dibuat untuk menganalisis entitas dan hubungan yang diekstrak.

  • Gabungkan dengan data yang ada. Gabungkan insight kualitatif yang diekstrak dari file tidak terstruktur dengan set data BigQuery terstruktur yang ada (seperti menggabungkan data invoice yang diurai dengan tabel akuntansi Anda).

  • Jelajahi insight data. Gunakan fitur Insight data di BigQuery Studio untuk membuat pertanyaan dalam bahasa alami dan kueri SQL secara otomatis untuk aset terstruktur baru Anda.

  • Menganalisis dengan Gemini. Gunakan Gemini di BigQuery untuk melakukan analisis percakapan, meringkas tren, atau membuat dasbor di Data Studio berdasarkan data yang diekstrak.

Langkah berikutnya