Document AI Warehouse 概览

概念性概览

Document AI Warehouse 是一个基于云的集成平台,用于存储、搜索、整理、治理和分析文档及其结构化元数据(称为“属性”)。文档包括结构化文档(例如表单、账单)和非结构化文档(例如合同、研究论文),其属性(元数据)包括从文档中提取的 AI 数据以及手动或 AI 分配的标记(例如账号、贷款 ID、文档类型)。

主要优势和功能

与旧版知识库相比,Document AI Warehouse 具有多项优势。以下是部分功能和优势:

  • API 优先:单个集成式 API,用于管理文档及其属性(提取的元数据或标记的元数据),可集成到您的工作流和应用中。
  • 元数据管理:用于管理提取和已标记的元数据。
  • 治理:与 IAM 和公司目录集成
    • 您可以将文档和文件夹级层的精细访问权限控制(权限)分配给用户和群组,以允许其查看、修改、管理(共享、删除)文档。
    • Document AI Warehouse 与 IAM (Cloud Identity) 集成,因此您可以将用户和群组预配到 Cloud Identity 中
    • 您也可以从企业 LDAP/身份提供方(如 Azure AD、Active Directory 和 Keycloak)将用户/群组联合 / 同步到 Cloud Identity 中。
  • 搜索:该产品支持丰富的语义搜索,包括以下功能:
    • 全文搜索
    • 按属性(日期、数字、枚举、文本)过滤搜索结果。过滤条件可以与 ANDOR 运算符结合使用
    • 语义搜索 - 支持常见同义词、拼写错误和词干。 您可以在搜索查询中使用引号 (" ") 来指定完全匹配的关键字
    • 自定义同义词 - 例如,行业专用术语或公司专用术语。
    • 在根文件夹层次结构中搜索
    • 搜索关键字的运算符:"" 完全匹配、| 或、+ 和、- 排除
  • 组织灵活的文件夹管理
    • 您可以根据应用将文档编目到一个或多个文件夹中(例如,将一张身份证放在 KYC 文件夹、贷款文件夹或银行账户文件夹中),而不需要复制该文档。
    • 这些文件夹有自己的属性和访问权限控制,独立于文档属性和访问权限控制。
    • 文件夹可以嵌套在一个或多个层次结构中 [例如,AllLoans->State->Branch->Loans 或 LoanTypes->Loans]。
    • 用户可以在文件夹层次结构中搜索文档,例如在 AllLoans->State 中搜索
  • 界面* - 产品包含可通过网络访问的界面,具有以下功能:
    • 文档浏览器:搜索文档、过滤搜索结果、选择文档以批量更新属性或删除
    • 文档查看器:查看文档、查看/更新其属性、分配 ACL、添加到文件夹
    • 上传:上传文档,并通过 DocAI **提取器(OCR 或受支持的专业解析器,例如 Invoice DocAI)运行文档。
    • 文件夹浏览器:将文档添加到一个或多个文件夹,探索文件夹层次结构。
    • 可嵌入的界面:Doc Explorer 和 Doc Viewer(适用于 PDF)组件可集成到客户的应用中
  • 连接器***,用于连接到常见的本地和云端代码库:我们提供了一个 Cloud Storage 到 Document AI Warehouse 的连接器(作为基于 Google Workflows 的单独模板),可以自定义/扩展到其他代码库。我们还与合作伙伴合作,提供可直接使用的连接器,以便连接到 Sharepoint、Amazon S3、IBM FileNet 等代码库,从而注入和索引文档。
  • 迁移与联合的灵活性:该产品支持灵活的架构,您的文档内容可以迁移到 Document AI Warehouse,或者如果内容迁移存在限制,可以原地保留(我们只将内容和元数据编入索引)。
  • 与文档工作流集成 - 通过支持以下功能与 Google Workflows 和其他文档处理工作流集成:
    • 属性 - 用于表示工作流中文档的状态,以及工作流可用于更新文档状态的 API
    • 文档浏览器界面 - 用于通过工作流流水线跟踪文档的进度,以便人工检查和管理工作流流水线中的故障和停滞的文档。
    • 有条件通知 - 其中,满足特定条件的文档可以通过 Pub/Sub 主题或 Web API 调用来触发/通知工作流:例如,触发条件:OnUpdate;条件:(DocType=Invoice and TotalAmount>$1000) -> 发送 Pub/Sub 通知
  • 政策管理和合规性强制执行:条件式通知和预定通知可用于触发工作流,以在 Document AI Warehouse 中的特定文档上强制执行政策(例如记录管理、保留和处置、诉讼保留)。
  • 支持的文件 - 文本 PDF、图片(扫描的 PDF、TIFF 文件、JPEG 文件)、Office(DOCX、PPTX、XLSX)文件 - 通过 OCR 运行并编入索引。
    • 注意 - 虽然该产品侧重于文档,但也可用于管理相关联的图片(例如,在保险、工程、建筑、研究等垂直领域)。
  • 与 DocAI 集成:Document AI Warehouse 在多个层级与 Document AI 处理器集成:

    • 界面中的 Document AI 处理:Document AI Warehouse 界面允许用户上传扫描的 PDF/TIFF 或特殊文档类型。文档在 Document AI Warehouse 中编入索引之前,会分别由 Document AI OCR 或专用处理器自动提取。
    • 管理批处理 Document AI 流水线***:Document AI Warehouse 与 Workflows 集成,提供通过 Document AI 提取和分类来处理文档的批处理流水线的模板。这并非易事,因为它需要长时间运行的操作 (LRO) 和异步 API 调用,而这些操作和调用需要进行故障和重试管理。工作流模板可编排此类流水线。Document AI Warehouse 界面可用于搜索和跟踪文档在这些流水线中的流转情况,直观呈现流水线中每个步骤的 Document AI 输出(如果出现故障),并对停滞/失败的文档采取相应措施。

*此界面目前为预览版,预计很快会正式发布。

**Document AI 产品中提供 OCR 和其他文档提取器,但它们不包含在 Document AI Warehouse 中。

***这些功能不属于 Document AI Warehouse。这些功能通过可由客户部署或自定义的外部开源组件和脚本启用,未在 Document AI Warehouse 中实现。

免责声明和已知限制

如需详细了解免责声明和已知限制,请参阅免责声明和已知限制

术语

以下是 Document AI Warehouse 中使用的术语。

术语、概念 定义、示例
文档 Document AI Warehouse 中的一种记录,用户可以搜索、管理该记录,并对其强制执行访问权限控制。它包含原始文档和一些关联的元数据。

[存储在 Document AI Warehouse 中的图片也称为“文档”]

原始文档 [内容] 相应文档的原始内容文件(PDF/图片/二进制/Blob)。
架构 [文档类型] 每个文档都属于某种文档类型,并由架构指定。例如,某张发票包含以下架构:供应商名称、商家名称、发票金额等。
属性 [元数据] 文档架构的字段,这些字段可能从文档中提取,也可能由用户进行丰富(标记)。目前,元数据包括以下类型:自由文本值、枚举、数值、日期、映射(键值对的 JSON 层次结构)。我们计划在未来支持布尔值、货币和其他类型。
文档提取器(DocAI 和其他提取器) 文档可由 AI 流水线提取,以便在 Document AI Warehouse 中与原始文档一起提取和管理(作为元数据)。提取操作可通过以下方式完成:
  • Document AI 专用解析器(适用于采购表单、借贷表单等)
  • OCR、AutoML、表单解析器(适用于 TIFF/PNG 等格式的图片)
  • 其他自定义模型
  • 用于提取专业文档格式(如 PDF、Office 文档等)的文本的工具。

    请注意,Document AI Warehouse 可以与任何调用 Document AI Warehouse API 来注入/更新文档的注入流水线搭配使用。

文件夹 文件夹是文档的虚拟集合(之所以说是虚拟,是因为同一文档可以包含在一个或多个文件夹中)。它具有“文档类型/架构”,并且包含元数据和访问控制列表,就像文档一样。

用户需要拥有文件夹的“修改”权限和文档的“查看”权限,才能将文档添加到文件夹中

链接 链接用于将文档添加到文件夹将相关文档链接在一起。链接没有“链接类型”
相关文档 文档可以通过从一个文档到另一个文档的定向链接相关联。
关联权限 用户需要对链接源对象(例如文件夹)拥有“修改”权限,并对链接目标对象(例如文档)拥有“查看”权限,才能将文档添加到文件夹中
政策 在创建/更新文档/文件夹时评估的政策,用于验证或更新文档元数据、ACL,或添加/移动/移除文件夹中的文档。政策包含以下内容:
  • 触发器,例如在 DocUpdate/DocCreate 时触发
  • 条件,例如“Invoice.Amount <$1000”
  • 操作,例如“更新文档元数据”“返回条件评估”“将文档添加到文件夹”等。

    政策通常与文档类型相关联。

    以低代码通用表达式语言(JSON 格式,稍后指定)表示

通知政策 是一种特殊类型的政策,当满足特定条件时,其操作是将消息发布到 Pub/Sub 主题。使用应用 / 工作流可能会使用该消息来触发文档或业务工作流的其他部分执行操作。
政策引擎、政策 API 引擎:评估政策并采取行动的服务器

API:用于创建/更新/读取/删除政策的 Admin API。

分面搜索 分面是搜索查询中使用的元数据过滤条件。例如,搜索“Month = March 2021”和“Branch State = CA”的银行对账单会按这两个方面过滤搜索结果。
  • 分面通常是枚举字段。我们将在未来的版本中支持日期和数值型多面搜索。
  • 文档类型的 Facet 由管理员通过 Admin API 在文档架构中指定
语义搜索 语义搜索支持搜索查询中的同义词或“语义相关”的字词。例如,“驾照”会返回“驾驶许可”。
搜索直方图 直方图是一种搜索 API 功能,可按分面返回搜索结果的分布(数量)。例如,针对“驾照”的搜索结果会返回直方图“加利福尼亚州 500、内华达州 150、…”
公开访问权限与文档级访问权限控制 Document AI Warehouse 支持两种访问模式,适用于每个项目
  1. 普遍访问权限 - 任何用户都可以访问项目中的任何文档。API 的访问权限受用户账号或服务账号控制,但没有文档级权限
  2. 文档级 ACL - 用户获得文档级权限。每个文档都为用户/群组分配了 R/U/D 权限。