验证和更正

您可以使用 Document AI 定义自定义业务规则,以验证文档处理结果。验证是一种文档处理流程,可针对最终提取的实体执行验证规则。更正是一种可选流程,可根据验证规则的结果尝试改进提取结果,从而提高提取准确率。

验证规则可以检查订单项价格之和是否等于总价值,验证多个文档之间的字段一致性,或确保提取的字段在布局中(例如在水平块内)在空间上对齐。使用通用表达式语言 (CEL) 定义业务规则,并根据自然语言提示生成这些规则。

启用验证和更正

您可以在 Document AI 控制台中单独启用验证和更正功能。这些设置适用于所选处理器版本的所有 processDocument 请求。不过,您可以使用 processDocument API 调用中的参数针对各个请求替换此行为。

验证和更正配置(包括验证规则)特定于每个处理器版本。请注意,所有 Google 管理的预训练处理器版本都共享一个通用基本配置。当您创建新的自定义处理器版本(例如,通过微调)时,Document AI 会复制基本配置,并将其附加到新版本。

启用验证后,所有已定义的验证规则的结果都会包含在同步请求和批量请求的 ProcessDocument 响应中。只有在启用验证的情况下,才能启用更正。仅当给定文档至少有一条验证规则失败时,Document AI 才会运行更正流程。更正后,Document AI 会重新运行验证流程以提供最终结果。更正前后的验证结果会以修订列表的形式显示在 processDocument 响应中。

CEL 验证规则

验证规则是使用基于通用表达式语言 (CEL) 的表达式定义的。CEL 是一种非图灵完备的表达式语言,旨在实现简单性和安全性。您可以定义的规则示例:

  • 字段 A 的总和等于字段 B
  • 字段 B 与指定的正则表达式模式匹配。
  • 每个父实体的所有子字段都横向对齐。

为了简化规则创建,您可以通过提供自然语言提示来生成 CEL 规则。这种方法可避免 CEL 语法的复杂性。Document AI 的 CEL 实现可能与标准规范略有不同。如需详细说明和示例,请参阅 CEL 规则参考

在 Google Cloud 控制台中激活验证

  1. 在现有处理器的 Google Cloud 控制台中,选择验证和更正条目。

    ce-validation-1

  2. 在处理文档之前,请前往规则管理

    ce-validation-2

  3. 选择启用验证切换开关。

  4. 可选:选择启用校正切换开关。

创建规则

  1. 点击添加规则 (Add Rule)。

    ce-validation-6

  2. 在规则创建表单中,输入自然语言提示。

    ce-validation-5

  3. 为规则命名,并使用通用表达式语言 (CEL) 定义行为。

  4. 可选。使用修改删除选项来管理现有规则。

跨处理器复制配置

  1. 规则管理部分中,点击 复制到其他 PV

    ce-validation-4

  2. 选择要将配置复制到的处理器名称和版本。

    ce-validation-3

规则结果

  1. 管理数据集页面中,前往规则管理

    ce-validation-7

  2. 评估通过和失败的测试总数。

  3. 查看各个规则结果的细分数据。

  4. 您可以比较更改,以查看更正后创建的新实体(以绿色显示)和修改的实体(以黄色显示)。

    ce-validation-8

  5. 评估和测试部分,系统会显示启用校正功能前后的得分列。

    ce-validation-9

评估

处理器版本评估包括校正后结果和校正前结果(如果已启用校正)的关键指标。使用这些指标来评估校正流程对提取质量的影响。

后续步骤