Knowledge Catalog 中的非結構化資料洞察功能可將暗資料或非結構化檔案 (例如 PDF) 轉換為可查詢的結構化資產。標準探索工具只能分析檔案層級的中繼資料 (例如大小和類型),但非結構化資料的資料洞察功能會使用 Vertex AI 分析檔案內容。這項功能會自動擷取 AI 代理所需的公司業務背景資訊,並支援進階分析。
這項自動化功能可免除手動剖析文件和自訂 ETL 程式碼的需要,讓您探索、分類及使用先前無法存取的資料。
自動探索非結構化資料
探索掃描程序會自動找出 Cloud Storage 中的非結構化檔案,並將這些檔案編入 BigQuery 的一或多個 BigLake 物件資料表,以供分析。這是非結構化資料的資料洞察進入點。系統會自動將產生的 BigLake 物件資料表登錄為 Knowledge Catalog 中的項目。如果探索掃描作業建立多個資料表,每個項目都會有專屬的「洞察」分頁。接著開啟這個項目,即可查看產生的資料洞察。如果執行探索掃描時已啟用非結構化資料的資料洞察功能,系統會執行下列動作:
識別檔案並分組。自動識別及整理 Cloud Storage 中的非結構化檔案,並將其歸入 BigLake 物件資料表。這些物件資料表是唯讀資料表,可為非結構化資料提供結構化介面。
針對非結構化資料執行資料洞察。使用 Vertex AI 分析檔案中的實際內容,瞭解其意義和結構。這包括實體推論,這項功能會使用生成式 AI 從檔案內容中擷取特定屬性,例如
Company、Product或Serial Number。這也包括關係擷取,可識別這些實體之間的連結方式 (例如Component is_part_of Product),進而建立語意圖。產生結構定義和圖形設定檔。提供 AI 建議的關聯式結構定義和圖表設定檔層面。這是 Knowledge Catalog 中繼資料層面,內含實體和關係的推論結構定義。
充實中繼資料。自動在 Knowledge Catalog 中填入 AI 生成的中繼資料。這樣一來,資料就能供人搜尋及擷取。
您不必手動設計資料庫結構定義,只要按一下滑鼠,就能使用 SQL 或管道自動調度功能擷取資料。這個程序會將推論出的實體和關係具體化為結構化格式,例如資料表或檢視畫面。
用途
您可以將非結構化資料的資料洞察用於各種目的,包括:
自動產生 ETL 管道。使用自動結構定義建議取代自訂剖析器,並一鍵部署,將資料具體化為 BigQuery 資料表、檢視區塊或語意圖,自動從 Cloud Storage 擷取資料至 BigQuery。
舉例來說,金融服務公司可以從數千份 PDF 發票中,自動擷取發票詳細資料、供應商名稱和合約條款,並直接將這些資料具體化到 BigQuery 中,立即進行支出分析,完全不必編寫自訂剖析程式碼。
內容分類和驗證。自動將暗資料分組為可供搜尋的資產,並以 AI 生成的中繼資料加以擴充,讓資料監管者大規模執行人機迴圈驗證,以及監控擷取的實體。
舉例來說,法務或法規遵循部門可以自動分類大量歷史合約,並擷取重要實體。資料管理員可先驗證中繼資料,再用於重要的依法呈報。
AI 代理建立基準。使用經過驗證的圖表,建立檢索增強生成 (RAG) 代理程式的基準。這會提供清楚的「追溯鏈」,將原始 RAW 檔案連結至結構化商業邏輯,減少產生幻覺,讓 AI 代理程式毫無模稜兩可地瀏覽多個資料表聯結。
舉例來說,製造公司可以從維護記錄中擷取設備關係,當技術人員詢問對話式 AI 代理「哪些地區受到矽膠召回事件影響?」時,代理會使用經過驗證的關係圖提供準確答案,並清楚追溯至原始手冊。
限制
使用非結構化資料的資料洞察前,請先瞭解下列限制:
支援的格式。探索掃描會自動識別各種非結構化檔案類型,並將其分組到 BigQuery 物件資料表中,但非結構化資料的資料洞察功能只會針對 PDF 檔案進行最佳化。
地點:非結構化資料的資料洞察功能僅適用於支援 Vertex AI Gemini 2.5 Pro 模型的地區。如需支援的區域清單,請參閱 Gemini 2.5 Pro 的「支援的區域」一節。
定價
在預先發布階段,您可免費試用非結構化資料的資料洞察功能,並測試語意推論功能。不過,您仍須負責支付程序期間耗用的基礎資源和服務費用。
預覽期
語意推論。在預先發布期間,使用 Vertex AI 擷取語意資訊,以及在探索掃描期間推斷圖表設定檔,都不會產生額外費用。
基礎資源費用。儲存及處理資料所需的資源會收取標準費用:
Knowledge Catalog。
探索掃描作業的費用,是根據掃描及分組非結構化資料的 Knowledge Catalog Premium 處理 SKU (DCU 時數) 計算。詳情請參閱「Knowledge Catalog 定價」。
AI 生成的中繼資料 (包括圖表設定檔) 會產生標準的 Knowledge Catalog 儲存空間費用。
BigQuery。
如果使用管道擷取方法,則須支付 Dataform 執行和 BigQuery 工作相關的標準費用。
如果使用 SQL 方法,則須支付標準 BigQuery ML 費用和 BigQuery 工作費用。
任何具體化到 BigQuery 的資料 (包括物件表格、推斷的中繼資料和擷取的實體),都會產生標準的 BigQuery 儲存空間和查詢費用。詳情請參閱 BigQuery 計價方式一文。
正式發布 (GA)
非結構化資料的資料洞察功能正式發布後,系統就會開始收取相關費用。
配額
標準 DataScan 資源和 API 配額適用於每個探索工作。語意推論量受特定配額限制: BigQuery 物件資料表每天的語意推論執行總次數,每個專案每天最多一次。
由於非結構化資料的資料洞察資訊是透過探索掃描取得,因此探索掃描支援的表格數量上限也適用於這項功能。詳情請參閱 BigQuery 配額和限制。
後續步驟
- 瞭解如何使用非結構化資料的資料洞察。
- 進一步瞭解如何探索資料。