非結構化資料的洞察資料簡介

Knowledge Catalog 中的非結構化資料洞察功能可將暗資料或非結構化檔案 (例如 PDF) 轉換為可查詢的結構化資產。標準探索工具只能分析檔案層級的中繼資料 (例如大小和類型),但非結構化資料的資料洞察功能會使用 Vertex AI 分析檔案內容。這項功能會自動擷取 AI 代理所需的公司業務背景資訊,並支援進階分析。

這項自動化功能可免除手動剖析文件和自訂 ETL 程式碼的需要,讓您探索、分類及使用先前無法存取的資料。

自動探索非結構化資料

探索掃描程序會自動找出 Cloud Storage 中的非結構化檔案,並將這些檔案編入 BigQuery 的一或多個 BigLake 物件資料表,以供分析。這是非結構化資料的資料洞察進入點。系統會自動將產生的 BigLake 物件資料表登錄為 Knowledge Catalog 中的項目。如果探索掃描作業建立多個資料表,每個項目都會有專屬的「洞察」分頁。接著開啟這個項目,即可查看產生的資料洞察。如果執行探索掃描時已啟用非結構化資料的資料洞察功能,系統會執行下列動作:

  1. 識別檔案並分組。自動識別及整理 Cloud Storage 中的非結構化檔案,並將其歸入 BigLake 物件資料表。這些物件資料表是唯讀資料表,可為非結構化資料提供結構化介面。

  2. 針對非結構化資料執行資料洞察。使用 Vertex AI 分析檔案中的實際內容,瞭解其意義和結構。這包括實體推論,這項功能會使用生成式 AI 從檔案內容中擷取特定屬性,例如 CompanyProductSerial Number。這也包括關係擷取,可識別這些實體之間的連結方式 (例如 Component is_part_of Product),進而建立語意圖。

  3. 產生結構定義和圖形設定檔。提供 AI 建議的關聯式結構定義和圖表設定檔層面。這是 Knowledge Catalog 中繼資料層面,內含實體和關係的推論結構定義。

  4. 充實中繼資料。自動在 Knowledge Catalog 中填入 AI 生成的中繼資料。這樣一來,資料就能供人搜尋及擷取。

您不必手動設計資料庫結構定義,只要按一下滑鼠,就能使用 SQL 或管道自動調度功能擷取資料。這個程序會將推論出的實體和關係具體化為結構化格式,例如資料表或檢視畫面。

用途

您可以將非結構化資料的資料洞察用於各種目的,包括:

  • 自動產生 ETL 管道。使用自動結構定義建議取代自訂剖析器,並一鍵部署,將資料具體化為 BigQuery 資料表、檢視區塊或語意圖,自動從 Cloud Storage 擷取資料至 BigQuery。

    舉例來說,金融服務公司可以從數千份 PDF 發票中,自動擷取發票詳細資料、供應商名稱和合約條款,並直接將這些資料具體化到 BigQuery 中,立即進行支出分析,完全不必編寫自訂剖析程式碼。

  • 內容分類和驗證。自動將暗資料分組為可供搜尋的資產,並以 AI 生成的中繼資料加以擴充,讓資料監管者大規模執行人機迴圈驗證,以及監控擷取的實體。

    舉例來說,法務或法規遵循部門可以自動分類大量歷史合約,並擷取重要實體。資料管理員可先驗證中繼資料,再用於重要的依法呈報。

  • AI 代理建立基準。使用經過驗證的圖表,建立檢索增強生成 (RAG) 代理程式的基準。這會提供清楚的「追溯鏈」,將原始 RAW 檔案連結至結構化商業邏輯,減少產生幻覺,讓 AI 代理程式毫無模稜兩可地瀏覽多個資料表聯結。

    舉例來說,製造公司可以從維護記錄中擷取設備關係,當技術人員詢問對話式 AI 代理「哪些地區受到矽膠召回事件影響?」時,代理會使用經過驗證的關係圖提供準確答案,並清楚追溯至原始手冊。

限制

使用非結構化資料的資料洞察前,請先瞭解下列限制:

  • 支援的格式。探索掃描會自動識別各種非結構化檔案類型,並將其分組到 BigQuery 物件資料表中,但非結構化資料的資料洞察功能只會針對 PDF 檔案進行最佳化。

  • 地點:非結構化資料的資料洞察功能僅適用於支援 Vertex AI Gemini 2.5 Pro 模型的地區。如需支援的區域清單,請參閱 Gemini 2.5 Pro 的「支援的區域」一節。

定價

在預先發布階段,您可免費試用非結構化資料的資料洞察功能,並測試語意推論功能。不過,您仍須負責支付程序期間耗用的基礎資源和服務費用。

預覽期

  • 語意推論。在預先發布期間,使用 Vertex AI 擷取語意資訊,以及在探索掃描期間推斷圖表設定檔,都不會產生額外費用。

  • 基礎資源費用。儲存及處理資料所需的資源會收取標準費用:

    • Knowledge Catalog

      • 探索掃描作業的費用,是根據掃描及分組非結構化資料的 Knowledge Catalog Premium 處理 SKU (DCU 時數) 計算。詳情請參閱「Knowledge Catalog 定價」。

      • AI 生成的中繼資料 (包括圖表設定檔) 會產生標準的 Knowledge Catalog 儲存空間費用。

    • BigQuery

      • 如果使用管道擷取方法,則須支付 Dataform 執行和 BigQuery 工作相關的標準費用。

      • 如果使用 SQL 方法,則須支付標準 BigQuery ML 費用和 BigQuery 工作費用。

      • 任何具體化到 BigQuery 的資料 (包括物件表格、推斷的中繼資料和擷取的實體),都會產生標準的 BigQuery 儲存空間和查詢費用。詳情請參閱 BigQuery 計價方式一文。

正式發布 (GA)

非結構化資料的資料洞察功能正式發布後,系統就會開始收取相關費用。

配額

標準 DataScan 資源和 API 配額適用於每個探索工作。語意推論量受特定配額限制: BigQuery 物件資料表每天的語意推論執行總次數,每個專案每天最多一次。

由於非結構化資料的資料洞察資訊是透過探索掃描取得,因此探索掃描支援的表格數量上限也適用於這項功能。詳情請參閱 BigQuery 配額和限制

後續步驟