Tentang insight data untuk data tidak terstruktur

Insight data untuk data tidak terstruktur di Knowledge Catalog mengubah data gelap atau file tidak terstruktur seperti PDF menjadi aset terstruktur yang dapat dikueri. Meskipun alat penemuan standar terbatas pada metadata tingkat file seperti ukuran dan jenis, insight data untuk data tidak terstruktur menggunakan Vertex AI untuk menganalisis konten file. Alat ini secara otomatis mengekstrak konteks bisnis yang diperlukan untuk mendasari agen AI dan mendukung analisis lanjutan.

Otomatisasi ini menghilangkan kebutuhan untuk penguraian dokumen manual dan kode ETL kustom, sehingga Anda dapat menemukan, mengklasifikasikan, dan menggunakan data yang sebelumnya tidak dapat diakses.

Penemuan otomatis data tidak terstruktur

Pemindaian penemuan adalah proses yang secara otomatis menemukan file tidak terstruktur Anda di Cloud Storage dan mengatalogkannya ke dalam satu atau beberapa tabel objek di BigQuery untuk dianalisis. Pemindaian ini berfungsi sebagai titik entri untuk insight data untuk data tidak terstruktur. Sistem secara otomatis mendaftarkan tabel objek yang dihasilkan sebagai entri di Knowledge Catalog. Jika beberapa tabel dibuat karena pemindaian penemuan, setiap entri akan memiliki tab insight-nya sendiri. Kemudian, Anda dapat membuka entri ini untuk menjelajahi insight data yang dihasilkan. Saat Anda menjalankan pemindaian penemuan dengan insight data untuk data tidak terstruktur diaktifkan, sistem akan melakukan tindakan berikut:

  1. Mengidentifikasi dan mengelompokkan file. Secara otomatis mengidentifikasi dan mengatur file tidak terstruktur di Cloud Storage ke dalam tabel objek. Tabel objek ini adalah tabel hanya baca yang menyediakan antarmuka terstruktur ke data tidak terstruktur Anda.

  2. Melakukan insight data untuk data tidak terstruktur. Menggunakan Vertex AI untuk menganalisis konten sebenarnya dalam file untuk memahami arti dan strukturnya. Hal ini mencakup inferensi entitas, yang menggunakan AI Generatif untuk mengekstrak atribut tertentu, misalnya, Company, Product, atau Serial Number, dari konten file. Hal ini juga mencakup ekstraksi relasi, yang mengidentifikasi cara entitas ini terhubung, misalnya, Component is_part_of Product, untuk membuat diagram semantik.

  3. Membuat skema dan profil diagram. Menyediakan skema relasional yang disarankan AI dan aspek profil diagram. Ini adalah aspek metadata Knowledge Catalog yang berisi skema yang disimpulkan untuk entitas dan relasi.

  4. Memperkaya metadata. Mengisi Knowledge Catalog secara otomatis dengan metadata yang dihasilkan AI. Hal ini membuat data dapat ditelusuri dan siap untuk diekstrak.

Daripada mendesain skema database secara manual, Anda dapat melakukan ekstraksi data menggunakan SQL sekali klik atau orkestrasi pipeline. Proses ini mewujudkan entitas dan relasi yang disimpulkan ke dalam format terstruktur, seperti tabel atau tampilan.

Kasus penggunaan

Anda dapat menggunakan insight data untuk data tidak terstruktur untuk berbagai tujuan, termasuk:

  • Penyiapan pipeline. Memudahkan ekstraksi data dari Cloud Storage ke BigQuery dengan mengganti parser kustom dengan saran skema otomatis dan deployment sekali klik untuk mewujudkan data ke dalam tabel, tampilan, atau diagram semantik BigQuery.

    Misalnya, perusahaan layanan keuangan dapat lebih mudah mengekstrak detail faktur, nama vendor, dan ketentuan kontrak dari ribuan faktur PDF, mewujudkannya langsung ke BigQuery untuk analisis pengeluaran langsung tanpa menulis kode penguraian kustom.

  • Klasifikasi dan validasi konten. Mengelompokkan data gelap secara otomatis ke dalam aset yang dapat ditelusuri yang diperkaya dengan metadata yang dihasilkan AI, yang memungkinkan pengelola data melakukan validasi dan pemantauan entitas yang diekstrak secara skala besar.

    Misalnya, departemen hukum atau kepatuhan dapat mengklasifikasikan repositori besar kontrak historis secara otomatis dan mengekstrak entitas utama. Hal ini memungkinkan pengelola data memvalidasi metadata sebelum menggunakannya untuk pelaporan peraturan penting.

  • Dasar-dasar agen AI. Mendasari agen Retrieval-Augmented Generation (RAG) dengan diagram terverifikasi. Hal ini memberikan "rantai keterlacakan" yang jelas yang menghubungkan file mentah ke logika bisnis terstruktur, mengurangi halusinasi, yang memungkinkan agen AI menavigasi gabungan multi-tabel tanpa ambiguitas.

    Misalnya, perusahaan manufaktur dapat mengekstrak relasi peralatan dari log pemeliharaan. Saat teknisi bertanya kepada agen AI percakapan "Wilayah mana yang terpengaruh oleh penarikan silikon?", agen akan menggunakan diagram relasi terverifikasi untuk memberikan jawaban yang akurat dengan rantai keterlacakan yang jelas kembali ke panduan asli.

Batasan

Tinjau batasan berikut sebelum menggunakan insight data untuk data tidak terstruktur:

  • Format yang didukung. Meskipun pemindaian penemuan secara otomatis mengidentifikasi dan mengelompokkan berbagai jenis file tidak terstruktur ke dalam tabel objek BigQuery, insight data untuk data tidak terstruktur hanya dioptimalkan untuk file PDF.

  • Lokasi. Insight data untuk data tidak terstruktur hanya tersedia di lokasi yang mendukung model Vertex AI Gemini 2.5 Pro. Untuk mengetahui daftar region yang didukung, lihat bagian Region yang didukung di Gemini 2.5 Pro.

Harga

Selama fase Pratinjau, insight data untuk data tidak terstruktur tersedia untuk eksperimen dan pengujian tanpa biaya tambahan untuk kemampuan inferensi semantik. Namun, Anda tetap bertanggung jawab atas biaya resource dan layanan yang mendasarinya yang digunakan selama proses tersebut.

Periode pratinjau

  • Inferensi semantik. Tidak ada biaya untuk menggunakan Vertex AI guna mengekstrak informasi semantik dan menyimpulkan profil diagram selama pemindaian penemuan sepanjang periode pratinjau.

  • Biaya resource yang mendasarinya. Biaya standar berlaku untuk resource yang diperlukan untuk menyimpan dan memproses data Anda:

    • Knowledge Catalog.

      • Pemindaian penemuan ditagih berdasarkan SKU pemrosesan Premium Knowledge Catalog (jam DCU) untuk pemindaian dan pengelompokan data tidak terstruktur. Untuk mengetahui informasi selengkapnya, lihat Harga Knowledge Catalog.

      • Metadata yang dihasilkan AI, termasuk profil diagram, dikenai biaya penyimpanan Knowledge Catalog standar.

    • BigQuery.

      • Jika menggunakan metode ekstraksi pipeline, biaya standar untuk eksekusi Dataform dan tugas BigQuery akan berlaku.

      • Jika menggunakan metode SQL, biaya ML BigQuery standar dan biaya tugas BigQuery akan berlaku.

      • Data apa pun yang diwujudkan ke BigQuery, termasuk tabel objek, metadata yang disimpulkan, dan entitas yang diekstrak, dikenai biaya kueri dan penyimpanan BigQuery standar. Untuk mengetahui informasi selengkapnya, lihat Harga BigQuery.

Ketersediaan Umum (GA)

Penagihan resmi untuk insight data untuk data tidak terstruktur dimulai setelah Ketersediaan Umum (GA).

Kuota

Kuota resource dan API DataScan standar berlaku untuk setiap tugas penemuan. Kuota tertentu mengatur volume inferensi semantik: Total eksekusi inferensi semantik harian pada tabel objek BigQuery dibatasi satu per project per hari.

Karena insight data untuk data tidak terstruktur bergantung pada pemindaian penemuan, batas untuk jumlah tabel yang didukung pemindaian penemuan akan berlaku. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas BigQuery.

Langkah berikutnya