Tentang insight data untuk data tidak terstruktur

Insight data untuk data tidak terstruktur di Knowledge Catalog mengubah data gelap atau file tidak terstruktur seperti PDF menjadi aset terstruktur yang dapat dikueri. Meskipun alat penemuan standar terbatas pada metadata tingkat file seperti ukuran dan jenis, insight data untuk data tidak terstruktur menggunakan Vertex AI untuk menganalisis konten file. Fitur ini secara otomatis mengekstrak konteks bisnis yang diperlukan untuk mendasari agen AI dan mendukung analisis lanjutan.

Otomatisasi ini menghilangkan kebutuhan akan penguraian dokumen manual dan kode ETL kustom, sehingga Anda dapat menemukan, mengklasifikasikan, dan menggunakan data yang sebelumnya tidak dapat diakses.

Penemuan otomatis data tidak terstruktur

Pemindaian penemuan adalah proses yang secara otomatis menemukan file tidak terstruktur Anda di Cloud Storage dan mengaturnya ke dalam satu atau beberapa tabel objek BigLake di BigQuery untuk dianalisis. Fitur ini berfungsi sebagai titik entri untuk insight data bagi data tidak terstruktur. Sistem otomatis mendaftarkan tabel objek BigLake yang dihasilkan sebagai entri di Knowledge Catalog. Jika beberapa tabel dibuat karena pemindaian penemuan, setiap entri memiliki tab insight-nya sendiri. Kemudian, Anda dapat membuka entri ini untuk mempelajari insight data yang dihasilkan. Saat Anda menjalankan pemindaian penemuan dengan analisis data untuk data tidak terstruktur diaktifkan, sistem akan melakukan tindakan berikut:

  1. Mengidentifikasi dan mengelompokkan file. Mengidentifikasi dan mengatur file tidak terstruktur di Cloud Storage secara otomatis ke dalam tabel objek BigLake. Tabel objek ini adalah tabel hanya baca yang menyediakan antarmuka terstruktur untuk data tidak terstruktur Anda.

  2. Melakukan analisis data untuk data tidak terstruktur. Menggunakan Vertex AI untuk menganalisis konten sebenarnya dalam file untuk memahami makna dan strukturnya. Hal ini mencakup inferensi entitas, yang menggunakan AI Generatif untuk mengekstrak atribut tertentu, misalnya, Company, Product, atau Serial Number, dari konten file. Model ini juga mencakup ekstraksi hubungan, yang mengidentifikasi cara entitas ini terhubung, misalnya, Component is_part_of Product, untuk membuat grafik semantik.

  3. Membuat skema dan profil grafik. Menyediakan skema relasional yang disarankan AI dan aspek profil grafik. Ini adalah aspek metadata Katalog Pengetahuan yang berisi skema yang disimpulkan untuk entitas dan hubungan.

  4. Memperkaya metadata. Mengisi Knowledge Catalog secara otomatis dengan metadata yang dihasilkan AI. Hal ini membuat data dapat dicari dan siap diekstrak.

Daripada mendesain skema database secara manual, Anda dapat melakukan ekstraksi data menggunakan SQL sekali klik atau orkestrasi pipeline. Proses ini mewujudkan entitas dan hubungan yang disimpulkan ke dalam format terstruktur, seperti tabel atau tampilan.

Kasus penggunaan

Anda dapat menggunakan insight data untuk data tidak terstruktur untuk berbagai tujuan, termasuk berikut ini:

  • Pembuatan pipeline ETL otomatis. Otomatiskan ekstraksi data dari Cloud Storage ke BigQuery dengan mengganti parser kustom menggunakan saran skema otomatis dan deployment sekali klik untuk mewujudkan data ke dalam tabel, tampilan, atau grafik semantik BigQuery.

    Misalnya, perusahaan jasa keuangan dapat secara otomatis mengekstrak detail faktur, nama vendor, dan persyaratan kontrak dari ribuan faktur PDF, yang kemudian diwujudkan langsung ke BigQuery untuk analisis pembelanjaan langsung tanpa menulis kode parsing kustom.

  • Klasifikasi dan validasi konten. Mengelompokkan data gelap secara otomatis menjadi aset yang dapat ditelusuri dan diperkaya dengan metadata yang dihasilkan AI, sehingga memungkinkan pengelola data melakukan validasi dan pemantauan entitas yang diekstrak dalam skala besar dengan intervensi manusia.

    Misalnya, departemen hukum atau kepatuhan dapat mengklasifikasikan secara otomatis repositori besar kontrak historis dan mengekstrak entitas utama. Hal ini memungkinkan pengelola data memvalidasi metadata sebelum menggunakannya untuk pelaporan peraturan yang penting.

  • Perujukan agen AI. Melakukan grounding agen Retrieval-Augmented Generation (RAG) dengan grafik terverifikasi. Hal ini memberikan "rantai ketertelusuran" yang jelas yang menghubungkan file mentah ke logika bisnis terstruktur, sehingga mengurangi halusinasi, yang memungkinkan agen AI menavigasi gabungan multi-tabel tanpa ambiguitas.

    Misalnya, perusahaan manufaktur dapat mengekstrak hubungan peralatan dari log pemeliharaan. Saat teknisi bertanya kepada agen AI percakapan, "Wilayah mana yang terpengaruh oleh penarikan kembali silikon?", agen menggunakan grafik hubungan yang terverifikasi untuk memberikan jawaban yang akurat dengan rantai ketertelusuran yang jelas kembali ke manual asli.

Batasan

Tinjau batasan berikut sebelum menggunakan insight data untuk data tidak terstruktur:

  • Format yang didukung. Meskipun pemindaian penemuan secara otomatis mengidentifikasi dan mengelompokkan berbagai jenis file tidak terstruktur ke dalam tabel objek BigQuery, insight data untuk data tidak terstruktur hanya dioptimalkan untuk file PDF.

  • Lokasi. Insight data untuk data tidak terstruktur hanya tersedia di lokasi yang mendukung model Vertex AI Gemini 2.5 Pro. Untuk mengetahui daftar region yang didukung, lihat bagian Region yang didukung di Gemini 2.5 Pro.

Harga

Selama fase Pratinjau, insight data untuk data tidak terstruktur tersedia untuk eksperimen dan pengujian tanpa biaya tambahan untuk kemampuan inferensi semantik. Namun, Anda tetap bertanggung jawab atas biaya resource dan layanan pokok yang digunakan selama proses tersebut.

Periode pratinjau

  • Inferensi semantik. Tidak ada biaya untuk menggunakan Vertex AI guna mengekstrak informasi semantik dan menyimpulkan profil grafik selama pemindaian penemuan di seluruh periode pratinjau.

  • Biaya resource pokok. Biaya standar berlaku untuk resource yang diperlukan untuk menyimpan dan memproses data Anda:

    • Katalog Pengetahuan.

      • Pemindaian penemuan ditagih berdasarkan SKU pemrosesan Knowledge Catalog Premium (jam DCU) untuk pemindaian dan pengelompokan data tidak terstruktur. Untuk mengetahui informasi selengkapnya, lihat harga Knowledge Catalog.

      • Metadata buatan AI, termasuk profil grafik, dikenai biaya penyimpanan Knowledge Catalog standar.

    • BigQuery.

      • Jika menggunakan metode ekstraksi pipeline, biaya standar untuk eksekusi Dataform dan tugas BigQuery berlaku.

      • Jika menggunakan metode SQL, biaya BigQuery ML standar dan biaya tugas BigQuery berlaku.

      • Setiap data yang diwujudkan ke dalam BigQuery, termasuk tabel objek, metadata yang disimpulkan, dan entitas yang diekstrak, akan dikenai biaya penyimpanan dan kueri BigQuery standar. Untuk mengetahui informasi selengkapnya, lihat Harga BigQuery.

Ketersediaan Umum (GA)

Penagihan resmi untuk insight data untuk data tidak terstruktur dimulai setelah Ketersediaan Umum (GA).

Kuota

Kuota API dan resource DataScan standar berlaku untuk setiap tugas penemuan individual. Kuota tertentu mengatur volume inferensi semantik: Total eksekusi inferensi semantik harian pada tabel objek BigQuery dibatasi hingga satu per project per hari.

Karena insight data untuk data tidak terstruktur mengandalkan pemindaian penemuan, batas jumlah tabel yang didukung oleh pemindaian penemuan berlaku. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas BigQuery.

Langkah berikutnya