Document AI 倉儲總覽

概念總覽

Document AI Warehouse 是雲端式整合平台,可儲存、搜尋、整理、管理及分析文件和當中的結構化中繼資料 (稱為「屬性」)。文件包括結構化 (例如表單、發票) 和非結構化 (例如合約、研究論文),而文件屬性 (中繼資料) 則包括從文件中擷取的 AI 資料,以及手動或 AI 指派的標記 (例如帳號、貸款 ID、文件類型)。

主要優點和功能

與舊版存放區相比,Document AI Warehouse 具備多項優勢。以下列舉部分功能和優點:

  • 以 API 為主:單一整合式 API,可管理文件和文件屬性 (擷取或標記的中繼資料),並整合至工作流程和應用程式。
  • 中繼資料管理:管理已擷取並加上標記的中繼資料。
  • 控管:與 IAM 和公司目錄整合
    • 您可以將文件和資料夾層級的精細存取權控管機制 (權限) 指派給使用者和群組,藉此查看、編輯、管理 (共用、刪除) 文件。
    • Document AI 倉儲已與 IAM (Cloud Identity) 整合,因此您可以將使用者和群組佈建至 Cloud Identity
    • 使用者/群組也可以從企業 LDAP/識別資訊提供者 (例如 Azure AD、Active Directory 和 Keycloak) 聯合 / 同步到 Cloud Identity。
  • 搜尋:產品支援豐富的語意搜尋,包括下列功能:
    • 全文搜尋
    • 依屬性 (日期、數字、列舉、文字) 篩選搜尋結果。 篩選器可與 ANDOR 運算子搭配使用
    • 語意搜尋 - 支援常見同義詞、錯別字和詞幹。 查詢中可使用半形引號 (" ") 指定完全比對關鍵字
    • 自訂同義詞 - 產業專屬或公司專屬字詞,例如。
    • 在根資料夾階層中搜尋
    • 搜尋關鍵字的運算子:"" 完全比對、| 或、+ 和、- 排除
  • 機構彈性資料夾管理
    • 視應用程式而定,文件可以編入一或多個資料夾 (例如 ID 卡片放在客戶身分驗證資料夾、貸款資料夾或銀行帳戶資料夾中),無須複製文件。
    • 這些資料夾有專屬的屬性和存取權控管,與文件屬性和存取權控管無關。
    • 資料夾可巢狀內嵌在一或多個階層中 [例如,AllLoans->State->Branch->Loans 或 LoanTypes->Loans]。
    • 使用者可以在資料夾階層中搜尋文件,例如在 AllLoans->State 中搜尋
  • 使用者介面* - 產品包含可透過網路存取的使用者介面,並提供下列功能:
    • 文件探索工具:搜尋文件、篩選搜尋結果、選取文件,以便大量更新屬性或刪除
    • 文件檢視器:檢視文件、檢視/更新文件屬性、指派存取控制清單、新增至資料夾
    • 上傳:上傳文件,並透過 DocAI** 擷取器 (OCR 或支援的專業剖析器,例如應付憑據 DocAI) 處理。
    • 資料夾瀏覽器:將文件新增至一或多個資料夾,瀏覽資料夾階層。
    • 可嵌入的 UI:文件探索器和文件檢視器 (適用於 PDF) 元件可整合至客戶的應用程式
  • 連結器***,可連結至常見的內部部署和雲端存放區:我們提供 Cloud Storage 至 Document AI Warehouse 的連結器 (以 Google Workflows 為基礎的獨立範本),可自訂/擴充至其他存放區。我們也與合作夥伴合作,提供現成可用的存放區連接器 (例如 Sharepoint、Amazon S3、IBM FileNet 等),以便擷取及編製文件索引。
  • 遷移與聯合的彈性:本產品支援彈性架構,如果遷移內容有限制,您的文件內容就能遷移至 Document AI 倉儲或存放在存放區中 (我們會單純針對內容和中繼資料建立索引)
  • 與文件工作流程整合:支援下列項目,與 Google 工作流程和其他文件處理工作流程整合:
    • 屬性:代表工作流程中文件的狀態,以及工作流程可用來更新文件狀態的 API
    • 文件探索器介面:追蹤文件在工作流程管道中的處理進度,並以人工方式檢查及管理工作流程管道中的錯誤和進度停滯的文件。
    • 條件式通知:如果文件符合特定條件,即可透過 Pub/Sub 主題或 Web API 呼叫觸發/通知工作流程。舉例來說,觸發條件:OnUpdate;條件:(DocType=Invoice and TotalAmount>$1000) -> 傳送 Pub/Sub 通知
  • 政策管理與法規遵循強制執行:條件式通知和排定時間的通知可用於觸發工作流程,對 Document AI Warehouse 中的特定文件強制執行政策 (例如記錄管理、保留和處置、法律保留)。
  • 支援的檔案 - 文字 PDF、圖片 (掃描的 PDF、TIFF 檔案、JPEG 檔案)、Office (DOCX、PPTX、XLSX) 檔案 - 透過 OCR 執行並建立索引。
    • 注意:雖然產品的重點是文件,但也會用於管理相關聯的圖片 (例如保險、工程、建築、研究等產業)。
  • 整合 DocAI:Document AI Warehouse 在多個層級整合了 Document AI 處理器:

    • 在使用者介面中處理 Document AI:使用者可透過 Document AI 倉儲使用者介面上傳掃描的 PDF 檔/TIFF 檔或特殊文件類型。Document AI OCR 或特殊處理器會分別自動擷取上述兩種文件,再將文件存放至 Document AI 倉儲並建立索引。
    • 管理 Document AI 批次管道***:Document AI Warehouse 與 Workflows 整合,提供多種批次管道範本,方便您透過 Document AI 擷取和分類功能處理文件。這並非簡單的作業,因為需要長時間執行作業 (LRO) 和非同步 API 呼叫,且必須管理失敗和重試作業。工作流程範本會調度管理這類管道。您可以使用 Document AI Warehouse UI 搜尋及追蹤文件在這些管道中的流動情形,以視覺化方式呈現管道各步驟中 Document AI 的輸出內容,並對停滯/失敗的文件採取行動。

*使用者介面目前為預先發布版,預計很快就會正式發布。

**Document AI 產品提供 OCR 和其他文件擷取器,但 Document AI 倉儲並不包含這類工具。

***這些功能不屬於 Document AI 倉儲。這些功能必須透過外部開放原始碼元件和指令碼啟用,但 Document AI 倉儲並未導入這些內容,客戶可自行部署或自訂所需元件和指令碼。

免責事項和已知限制

如要進一步瞭解免責事項和已知限制,請參閱「免責事項和已知限制」一節。

術語

以下是 Document AI 倉儲中使用的術語。

用語和概念 定義、範例
文件 Document AI 倉儲中的記錄,使用者可以搜尋、管理及強制執行存取控管。其中包含原始文件和一些相關聯的中繼資料。

[儲存在 Document AI 倉儲中的圖片也稱為「文件」]

原始文件 [內容] 文件的原始內容檔案 (PDF/圖片/二進位/Blob)。
結構定義 [文件類型] 每份文件都屬於特定文件類型,並由結構定義指定。例如,月結單包含下列結構定義:供應商名稱、廠商名稱、月結單金額等。
屬性 [中繼資料] 可從文件中擷取,或由使用者擴充 (標示) 的文件結構定義欄位。目前中繼資料包含下列類型:任意文字值、列舉、數值、日期、對應 (鍵/值組合的 JSON 階層)。我們預計在未來支援布林值、貨幣和其他類型。
文件擷取器 (DocAI 和其他工具) 文件可由 AI 管道擷取,以便在 Document AI 倉儲中擷取及管理 (做為中繼資料),以及原始文件。您可以透過下列方式擷取資料:
  • Document AI 專用剖析器 (適用於採購表單、貸款表單等)
  • 光學字元辨識、AutoML、表單剖析器 (適用於 TIFF/PNG 等圖片)
  • 其他自訂模型
  • 文字擷取工具,適用於 PDF、Office 文件等特定文件格式。

    請注意,Document AI 倉儲可與任何擷取管道搭配使用,只要該管道會呼叫 Document AI 倉儲 API 來擷取/更新文件即可。

資料夾 資料夾是文件的虛擬集合 (虛擬是因為同一份文件可以存放在一或多個資料夾中)。它具有「文件類型/結構定義」,並包含中繼資料和存取控制清單,與文件相同。

使用者必須擁有資料夾的編輯權限和文件的檢視權限,才能將文件新增至資料夾

連結 連結可用來將文件新增至資料夾,或連結相關文件。連結沒有「連結類型」
相關文件 文件可透過單向連結相互關聯。
連結權限 使用者必須擁有「連結來源」物件 (例如資料夾) 的編輯權限,以及「連結目標」物件 (例如文件) 的檢視權限,才能將文件新增至資料夾。
政策 在建立/更新文件/資料夾時評估的政策,用於驗證或更新文件中繼資料、ACL,或從資料夾新增/移動/移除文件。政策包含:
  • 例如,在文件更新/建立時觸發
  • 條件,例如 Invoice.Amount <$1000
  • 動作,例如更新文件中繼資料、傳回條件評估結果、將文件新增至資料夾等。

    政策通常與文件類型相關聯。

    以低程式碼的通用運算式語言 (JSON 格式,稍後會說明) 表示

通知政策 這是一種特殊類型的政策,當符合特定條件時,動作是將訊息發布至 Pub/Sub 主題。應用程式 / 工作流程可能會使用訊息,在文件或業務工作流程的其他部分觸發動作。
政策引擎、政策 API 引擎:評估政策並採取行動的伺服器

API:用於建立/更新/讀取/刪除政策的 Admin API。

多面向搜尋 Facet 是搜尋查詢中使用的中繼資料篩選器。舉例來說,如果搜尋「月份 = 2021 年 3 月」和「分行州別 = CA」的銀行對帳單,搜尋結果就會依這 2 個層面篩選。
  • Facet 通常是列舉欄位。我們會在日後版本中支援日期和數值層面。
  • 管理員 (透過 Admin API) 在文件結構定義中指定文件類型的構面
語意搜尋 語意搜尋支援搜尋查詢中的同義字或「語意相關」字詞。例如:「駕照」會傳回「駕駛執照」。
搜尋直方圖 直方圖是 Search API 的一項功能,可依分面傳回搜尋結果的分布情形 (計數)。舉例來說,搜尋「駕照」的結果會傳回「加州 500、內華達州 150…」直方圖。
通用存取權與文件層級存取權控管機制 Document AI Warehouse 支援每個專案的兩種存取模式
  1. 通用存取權 - 任何使用者都能存取專案中的任何文件。API 存取權受使用者帳戶或服務帳戶控管,但沒有文件層級的權限
  2. 文件層級 ACL - 授予使用者文件層級權限。每份文件都會為使用者/群組指派 R/U/D 權限。