您可以使用 Document AI 定义自定义业务规则,以验证文档处理结果。验证是一种文档处理流程,可针对最终提取的实体执行验证规则。更正是一种可选流程,可根据验证规则的结果尝试改进提取结果,从而提高提取准确率。
验证规则可以检查订单项价格之和是否等于总价值,验证多个文档之间的字段一致性,或确保提取的字段在布局中(例如在水平块内)在空间上对齐。使用通用表达式语言 (CEL) 定义业务规则,并根据自然语言提示生成这些规则。
启用验证和更正
您可以在 Document AI 控制台中单独启用验证和更正功能。这些设置适用于所选处理器版本的所有 processDocument 请求。不过,您可以使用 processDocument API 调用中的参数针对各个请求替换此行为。
验证和更正配置(包括验证规则)特定于每个处理器版本。请注意,所有 Google 管理的预训练处理器版本都共享一个通用基本配置。当您创建新的自定义处理器版本(例如,通过微调)时,Document AI 会复制基本配置,并将其附加到新版本。
启用验证后,所有已定义的验证规则的结果都会包含在同步请求和批量请求的 ProcessDocument 响应中。只有在启用验证的情况下,才能启用更正。仅当给定文档至少有一条验证规则失败时,Document AI 才会运行更正流程。更正后,Document AI 会重新运行验证流程以提供最终结果。更正前后的验证结果会以修订列表的形式显示在 processDocument 响应中。
CEL 验证规则
验证规则是使用基于通用表达式语言 (CEL) 的表达式定义的。CEL 是一种非图灵完备的表达式语言,旨在实现简单性和安全性。您可以定义的规则示例:
- 字段
A的总和等于字段B。 - 字段
B与指定的正则表达式模式匹配。 - 每个父实体的所有子字段都横向对齐。
为了简化规则创建,您可以通过提供自然语言提示来生成 CEL 规则。这种方法可避免 CEL 语法的复杂性。Document AI 的 CEL 实现可能与标准规范略有不同。如需详细说明和示例,请参阅 CEL 规则参考。
在 Google Cloud 控制台中激活验证
在现有处理器的 Google Cloud 控制台中,选择验证和更正条目。

在处理文档之前,请前往规则管理。

选择启用验证切换开关。
可选:选择启用校正切换开关。
创建规则
点击添加规则 (Add Rule)。

在规则创建表单中,输入自然语言提示。

为规则命名,并使用通用表达式语言 (CEL) 定义行为。
可选。使用修改或删除选项来管理现有规则。
跨处理器复制配置
在规则管理部分中,点击 复制到其他 PV。

选择要将配置复制到的处理器名称和版本。
规则结果
在管理数据集页面中,前往规则管理。

评估通过和失败的测试总数。
查看各个规则结果的细分数据。
您可以比较更改,以查看更正后创建的新实体(以绿色显示)和修改的实体(以黄色显示)。

在评估和测试部分,系统会显示启用校正功能前后的得分列。

评估
处理器版本评估包括校正后结果和校正前结果(如果已启用校正)的关键指标。使用这些指标来评估校正流程对提取质量的影响。