概念

以下是本产品中使用的一些概念和功能:

概念 定义
查看 直观地将提取的字段值与文档中的实际值进行比较,并更正任何提取错误,或添加 DocAI 处理器遗漏的提取字段的过程。
标签添加者 审核提取的文档的人员。客户可以使用自己的员工(自带标签添加者 [BYOL]),也可以使用 Google 标签添加者进行 HITL 审核。
任务 标签添加者审核的已提取文档的队列。当处理器配置为 HITL 审核时,会生成单个任务。
Labeler Workbench 标签添加者用于审核文档的界面。界面会显示队列中的文档,供标记人员查看、更正并提交或拒绝。
  • 自带许可的标注人员需要拥有 Google Workforce 账号或 Gmail 账号才能访问标注界面。
  • 在分配任务后,标签员可以通过标签管理器通过电子邮件发送的链接访问工作台。
回答时间 这是标签员处理文档所花费的时间。Labeler Workbench 会跟踪文档提交时间,并提供效率分析数据(例如,针对每个标签添加者的文档审核)。
Labeling Manager 一个或多个加标签经理被分配给一个加标签员池,以便他们可以:
  • 向标记员池添加或从中移除标记员。
  • 向标注员分配任务或取消分配任务。标签人员经理可以访问项目中的所有任务。他们可能会根据任务优先级的变化来更改向标记者分配的任务。
  • 暂停任务,以便标注员可以处理分配给他们的下一个任务。
在 BYOL 方案中,标签管理器由客户提供。 如果使用 Google 标签添加者,Google 会提供标签添加管理器。
标签管理器控制台 Labeling Manager 用于管理 Labeler 池和任务分配的界面。打开控制台
任务中的排队、已回答、已完成、已拒绝的文档 任务是持续的工作流程。文档会经历以下状态:
  • 已加入队列 - 当处理器处理文档时,这些文档会enqueued(添加)到 HITL 任务中。
  • 已回答 - 当注释者审核、更正并提交文档后,该文档即为已完成,并会保存到客户配置的 Cloud Storage 存储桶中。
  • 已完成 - 如果任务已启用复制功能(多位标注员处理任务中的每个文档),则当所有标注员都回答了某个文档时,该文档的状态会变为“已完成”。如果任务没有复制(由单个加标签人员审核),则 AnsweredCompleted 相同。
  • 被拒 - 如果证件无效(证件类型不正确、伪造等)或质量不佳(有眩光、边缘被截断等),则可能会被拒绝
每个处理器一个任务 我们不支持每个处理器执行多个任务。如果客户需要在不同任务中处理单一文档类型(例如,发票),则可以配置多个具有 HITL 审核功能的处理器。
任务分配与标签添加者池 Labeling Manager 会向池中添加标记员。添加后,池中的任何标注员都可以分配到任务。 请注意,“Labeler pool”(标签员池)不应与分配给任务的标签员“group”(组)混淆。Pool 在项目级进行管理,用于确定注释者对分析和任务的访问权限。池中的任何标注员都可以分配到项目中的一项或多项任务。
标签添加者池 标签员池是在项目级层创建的,请勿与任务分配混淆。标签添加经理可以为任务分配任何标签添加者,以便多个标签添加者可以并行查看文档并更快地完成任务。客户可以将标记员池分配给项目中的任何任务。
验证过滤条件和阈值 提取的字段具有置信度分数(0-100),表示 DocAI 提取的准确性。客户可以为每个字段配置验证阈值,这样只有字段低于此验证阈值的网页才会排队等待审核;高于阈值的字段不会排队等待审核。 客户可以配置 3 种类型的验证过滤条件:
  • 字段级过滤 - 选择需要审核的重要字段,并为每个字段指定置信度阈值。如果任何字段的此阈值设置为 100%,则包含此字段的所有网页都会送审。
  • 文档级过滤条件 - 选择总体文档级置信度阈值。如果任何字段低于阈值,则整个页面都会送审。如果此阈值设置为 100%,则所有预测的文档都会送审。
  • 无过滤条件 - 发布到 HITL 端点的每个文档都会送交审核。
Labeler Manager Analytics 标签管理器会针对每个任务和每个标签员获取分析数据,包括已加入队列、已回答、已跳过、已完成、每个文档的平均处理时间和总回答时间。 您可以在标签管理器控制台的“分析”标签页中访问分析数据。