概念總覽
Document AI Warehouse 是雲端式整合平台,可儲存、搜尋、整理、管理及分析文件和當中的結構化中繼資料 (稱為「屬性」)。文件包括結構化 (例如表單、發票) 和非結構化 (例如合約、研究論文),而文件屬性 (中繼資料) 則包括從文件中擷取的 AI 資料,以及手動或 AI 指派的標記 (例如帳號、貸款 ID、文件類型)。
主要優點和功能
與舊版存放區相比,Document AI Warehouse 具備多項優勢。以下列舉部分功能和優點:
- 以 API 為主:單一整合式 API,可管理文件和文件屬性 (擷取或標記的中繼資料),並整合至工作流程和應用程式。
- 中繼資料管理:管理已擷取並加上標記的中繼資料。
- 控管:與 IAM 和公司目錄整合
- 您可以將文件和資料夾層級的精細存取權控管機制 (權限) 指派給使用者和群組,藉此查看、編輯、管理 (共用、刪除) 文件。
- Document AI 倉儲已與 IAM (Cloud Identity) 整合,因此您可以將使用者和群組佈建至 Cloud Identity
- 使用者/群組也可以從企業 LDAP/識別資訊提供者 (例如 Azure AD、Active Directory 和 Keycloak) 聯合 / 同步到 Cloud Identity。
- 搜尋:產品支援豐富的語意搜尋,包括下列功能:
- 全文搜尋
- 依屬性 (日期、數字、列舉、文字) 篩選搜尋結果。
篩選器可與
AND和OR運算子搭配使用 - 語意搜尋 - 支援常見同義詞、錯別字和詞幹。 查詢中可使用半形引號 (" ") 指定完全比對關鍵字
- 自訂同義詞 - 產業專屬或公司專屬字詞,例如。
- 在根資料夾階層中搜尋
- 搜尋關鍵字的運算子:
""完全比對、|或、+和、-排除
- 機構:彈性資料夾管理
- 視應用程式而定,文件可以編入一或多個資料夾 (例如 ID 卡片放在客戶身分驗證資料夾、貸款資料夾或銀行帳戶資料夾中),無須複製文件。
- 這些資料夾有專屬的屬性和存取權控管,與文件屬性和存取權控管無關。
- 資料夾可巢狀內嵌在一或多個階層中 [例如,AllLoans->State->Branch->Loans 或 LoanTypes->Loans]。
- 使用者可以在資料夾階層中搜尋文件,例如在 AllLoans->State 中搜尋
- 使用者介面* - 產品包含可透過網路存取的使用者介面,並提供下列功能:
- 文件探索工具:搜尋文件、篩選搜尋結果、選取文件,以便大量更新屬性或刪除
- 文件檢視器:檢視文件、檢視/更新文件屬性、指派存取控制清單、新增至資料夾
- 上傳:上傳文件,並透過 DocAI** 擷取器 (OCR 或支援的專業剖析器,例如應付憑據 DocAI) 處理。
- 資料夾瀏覽器:將文件新增至一或多個資料夾,瀏覽資料夾階層。
- 可嵌入的 UI:文件探索器和文件檢視器 (適用於 PDF) 元件可整合至客戶的應用程式
- 連結器***,可連結至常見的內部部署和雲端存放區:我們提供 Cloud Storage 至 Document AI Warehouse 的連結器 (以 Google Workflows 為基礎的獨立範本),可自訂/擴充至其他存放區。我們也與合作夥伴合作,提供現成可用的存放區連接器 (例如 Sharepoint、Amazon S3、IBM FileNet 等),以便擷取及編製文件索引。
- 遷移與聯合的彈性:本產品支援彈性架構,如果遷移內容有限制,您的文件內容就能遷移至 Document AI 倉儲或存放在存放區中 (我們會單純針對內容和中繼資料建立索引)
- 與文件工作流程整合:支援下列項目,與 Google 工作流程和其他文件處理工作流程整合:
- 屬性:代表工作流程中文件的狀態,以及工作流程可用來更新文件狀態的 API
- 文件探索器介面:追蹤文件在工作流程管道中的處理進度,並以人工方式檢查及管理工作流程管道中的錯誤和進度停滯的文件。
- 條件式通知:如果文件符合特定條件,即可透過 Pub/Sub 主題或 Web API 呼叫觸發/通知工作流程。舉例來說,觸發條件:OnUpdate;條件:(DocType=Invoice and TotalAmount>$1000) -> 傳送 Pub/Sub 通知
- 政策管理與法規遵循強制執行:條件式通知和排定時間的通知可用於觸發工作流程,對 Document AI Warehouse 中的特定文件強制執行政策 (例如記錄管理、保留和處置、法律保留)。
- 支援的檔案 - 文字 PDF、圖片 (掃描的 PDF、TIFF 檔案、JPEG 檔案)、Office (DOCX、PPTX、XLSX) 檔案 - 透過 OCR 執行並建立索引。
- 注意:雖然產品的重點是文件,但也會用於管理相關聯的圖片 (例如保險、工程、建築、研究等產業)。
整合 DocAI:Document AI Warehouse 在多個層級整合了 Document AI 處理器:
- 在使用者介面中處理 Document AI:使用者可透過 Document AI 倉儲使用者介面上傳掃描的 PDF 檔/TIFF 檔或特殊文件類型。Document AI OCR 或特殊處理器會分別自動擷取上述兩種文件,再將文件存放至 Document AI 倉儲並建立索引。
- 管理 Document AI 批次管道***:Document AI Warehouse 與 Workflows 整合,提供多種批次管道範本,方便您透過 Document AI 擷取和分類功能處理文件。這並非簡單的作業,因為需要長時間執行作業 (LRO) 和非同步 API 呼叫,且必須管理失敗和重試作業。工作流程範本會調度管理這類管道。您可以使用 Document AI Warehouse UI 搜尋及追蹤文件在這些管道中的流動情形,以視覺化方式呈現管道各步驟中 Document AI 的輸出內容,並對停滯/失敗的文件採取行動。
*使用者介面目前為預先發布版,預計很快就會正式發布。
**Document AI 產品提供 OCR 和其他文件擷取器,但 Document AI 倉儲並不包含這類工具。
***這些功能不屬於 Document AI 倉儲。這些功能必須透過外部開放原始碼元件和指令碼啟用,但 Document AI 倉儲並未導入這些內容,客戶可自行部署或自訂所需元件和指令碼。
免責事項和已知限制
如要進一步瞭解免責事項和已知限制,請參閱「免責事項和已知限制」一節。
術語
以下是 Document AI 倉儲中使用的術語。
| 用語和概念 | 定義、範例 |
| 文件 | Document AI 倉儲中的記錄,使用者可以搜尋、管理及強制執行存取控管。其中包含原始文件和一些相關聯的中繼資料。
[儲存在 Document AI 倉儲中的圖片也稱為「文件」] |
| 原始文件 [內容] | 文件的原始內容檔案 (PDF/圖片/二進位/Blob)。 |
| 結構定義 [文件類型] | 每份文件都屬於特定文件類型,並由結構定義指定。例如,月結單包含下列結構定義:供應商名稱、廠商名稱、月結單金額等。 |
| 屬性 [中繼資料] | 可從文件中擷取,或由使用者擴充 (標示) 的文件結構定義欄位。目前中繼資料包含下列類型:任意文字值、列舉、數值、日期、對應 (鍵/值組合的 JSON 階層)。我們預計在未來支援布林值、貨幣和其他類型。 |
| 文件擷取器 (DocAI 和其他工具) | 文件可由 AI 管道擷取,以便在 Document AI 倉儲中擷取及管理 (做為中繼資料),以及原始文件。您可以透過下列方式擷取資料:
|
| 資料夾 | 資料夾是文件的虛擬集合 (虛擬是因為同一份文件可以存放在一或多個資料夾中)。它具有「文件類型/結構定義」,並包含中繼資料和存取控制清單,與文件相同。
使用者必須擁有資料夾的編輯權限和文件的檢視權限,才能將文件新增至資料夾 |
| 連結 | 連結可用來將文件新增至資料夾,或連結相關文件。連結沒有「連結類型」 |
| 相關文件 | 文件可透過單向連結相互關聯。 |
| 連結權限 | 使用者必須擁有「連結來源」物件 (例如資料夾) 的編輯權限,以及「連結目標」物件 (例如文件) 的檢視權限,才能將文件新增至資料夾。 |
| 政策 | 在建立/更新文件/資料夾時評估的政策,用於驗證或更新文件中繼資料、ACL,或從資料夾新增/移動/移除文件。政策包含:
|
| 通知政策 | 這是一種特殊類型的政策,當符合特定條件時,動作是將訊息發布至 Pub/Sub 主題。應用程式 / 工作流程可能會使用訊息,在文件或業務工作流程的其他部分觸發動作。 |
| 政策引擎、政策 API | 引擎:評估政策並採取行動的伺服器 API:用於建立/更新/讀取/刪除政策的 Admin API。 |
| 多面向搜尋 | Facet 是搜尋查詢中使用的中繼資料篩選器。舉例來說,如果搜尋「月份 = 2021 年 3 月」和「分行州別 = CA」的銀行對帳單,搜尋結果就會依這 2 個層面篩選。
|
| 語意搜尋 | 語意搜尋支援搜尋查詢中的同義字或「語意相關」字詞。例如:「駕照」會傳回「駕駛執照」。 |
| 搜尋直方圖 | 直方圖是 Search API 的一項功能,可依分面傳回搜尋結果的分布情形 (計數)。舉例來說,搜尋「駕照」的結果會傳回「加州 500、內華達州 150…」直方圖。 |
| 通用存取權與文件層級存取權控管機制 | Document AI Warehouse 支援每個專案的兩種存取模式
|