ベスト プラクティス
- プロジェクトごとに 1 つのラベラー プール - BYOL シナリオでは、HITL 設定 UI でプロセッサごとに新しいラベラー プールを作成できますが、シンプルさを保つために、プロジェクト内のすべてのプロセッサで 1 つのラベラー プールを使用することをおすすめします。これは、複数のラベラー プールのユーザーを同じタスクに割り当てることができ、ラベラー プールをタスクに割り当てても、ラベリング マネージャーが他のラベラーをそのタスクに割り当てることを制限しないためです。
- 複数のタスク/ドキュメント タイプ - 単一のドキュメント タイプを処理するために複数のタスクが必要になる場合があります。これは、次のシナリオで必要です。
- 同じドキュメントの異なるフィールドを確認/検証するために、異なるスキルや資格を持つラベル付け担当者が必要。
- フィールドが異なるドキュメント(異なるベンダーからの請求書など)は、検証に異なるスキーマが必要になるため、異なるタスクに転送する必要があります。
- 異なる顧客のドキュメントには、異なるラベル付け担当者プールが割り当てられます(異なる顧客、言語、国の請求書など)。
- レビューを必要なフィールドのみに制限し(ページ上のすべての抽出フィールドではなく)、レビューの時間とコストを削減する - 回答時間/ページは、レビューするフィールドの数に応じて変わります。Google ラベラーの費用は、確認するフィールドの数に基づきます。そのため、レビューするフィールドは、ダウンストリームのビジネス プロセスで使用されるフィールドに限定することをおすすめします。
- たとえば、請求書には 30 以上のフィールドがあるかもしれませんが、請求書の決済に重要な 4 ~ 5 個のフィールドのみにレビューを制限したい場合があります。
- HITL 対応プロセッサの命名 - HITL タスク名はプロセッサ名と同じです。ラベル付けマネージャーとラベル付け担当者が理解でき、他のタスクと簡単に区別できる名前を使用することをおすすめします。
- タスクの優先順位付け - 複数のタスクにラベル付け担当者が割り当てられている場合、これらのタスクは順番に処理されます。ラベル付け担当者がタスクを切り替える必要がある場合(お客様のエスカレーションに対応するため、または SLO を満たすためなど)、ラベル付けマネージャーは、ラベル付けマネージャー コンソールの [Assignments] タブを使用して、現在のタスクの割り当てを解除し、優先度の高いタスクをラベル付け担当者に割り当てる必要があります。
- コンソールの [Labelers X Tasks] グリッド(下図)では、ラベル付けマネージャーがさまざまなタスクに対するすべてのラベラーの割り当てを確認し、タスクの優先度をサポートするために、どのラベラーがどのタスクに取り組むかを微調整できます。
-
検証フィルタの設定
- 不承認のドキュメント - ドキュメントの不承認状態と理由コード(ドキュメント タイプが異なる、偽造、グレア、ぼやけ、端が切れているなど)がドキュメントの JSON ファイル(すべての変更の TextChange 構造、不承認理由の HumanReview)にキャプチャされ、構成された Cloud Storage バケットに出力されます。このメタデータを使用して、不承認のドキュメントを分離することをおすすめします。
- 大量のドキュメントの取り込みを処理する - 現在の割り当てでは、オンライン ドキュメント リクエストは 1 分あたり 600 件に制限され、オフライン(バッチ)リクエストは最大 5 件まで同時実行できます。各リクエストで最大 50 件のドキュメントを処理できます。この設定では、1 時間あたり 36,000 件のオンライン リクエストと、1 時間あたり最大 15,000 件のオフライン(バッチ)ドキュメント リクエストを処理することが想定されています(各バッチで最大 50 件のドキュメントを処理するため)。より多くのボリュームが必要な場合は、サポートにお問い合わせください。
- 人間による検証の費用と時間の管理 - 独自のラベラーまたは Google のラベラーのいずれを使用するかにかかわらず、人間による検証は料金が高くなることがあります。1 ページに必要な時間は、確認するフィールドの数に応じて変わります。Google Workforce(限定公開プレビュー)では、確認済みラベルごとに課金されます。検証と修正が必要な重要なフィールドに HITL を制限することで、確認の作業と費用を抑えることができます。これを行うには、人間による審査の構成画面でラベルレベルの検証フィルタを使用します。
- Enterprise 認証情報によるシングル サインオン アクセス - Labeler Workbench と Labeling Manager Console は、Google Workforce または Gmail の認証情報をサポートしています。企業認証情報によるシングル サインオンが必要な場合は、ラベル付け担当者向けの Basic Google Workforce アカウントを作成してください。Google Workforce は SAML をサポートしています。SSO プロバイダを構成して、企業認証情報で Labeler Workbench または Labeling Manager Console にログインできます。
既知の制限事項と回避策
既知の制限事項と回避策を以下に示します。現在、制限事項に対処中です。
- 境界ボックスでテキストをキャプチャする必要がある - HITL を使用してトレーニング用のドキュメントにアノテーションを付ける場合、描画された境界ボックスで OCR を検出する必要があります。値を空にすることはできません。値を手動で入力しても、この問題は解決しません。
- VPC-SC - HITL プロジェクトで VPC-SC が有効になっているお客様は、HITL レビューに Google ラベラーを使用できない場合があります。
- レビュー後のレイテンシ - ドキュメントのレビュー後、事前構成された Cloud Storage フォルダに保存されるまでに最大 30 分かかることがあります。
- 10 ページの制限 - HITL 審査は、請求書で 10 ページに制限されます。10 ページを超える請求書は HITL レビューに送信されません。
- 単一ラベル付けワークフロー - 現在のワークフロー タスクは、単一のラベル付け担当者によるレビューに限定されます。ドキュメントを複数のレビュー担当者(品質保証、不正行為防止など)がレビューする必要がある場合は、レビュー済みのドキュメントを「プロセッサをスキップして、すべてのドキュメントを HITL レビューに送信」モードで 2 番目のプロセッサにアップロードして、レビューしてもらいます。
- ラベルプールのラベル付けマネージャーを編集する - BYOL タスクでは、ラベルプールが作成されると、ラベル付けマネージャーをラベルプールに追加したり、ラベルプールから削除したりすることはできません。回避策: 新しいラベリング プールを作成するときに、
- タスクが完了する前に 1 人のラベリング マネージャーが離職した場合に、他のラベリング マネージャーがプールとタスクの割り当てを管理できるように、ラベリング マネージャーを複数割り当ててください。
- Labeling Manager UI でラベラーまたはタスクの分析ダッシュボードを表示する必要があるユーザーは、プールの作成時にプール管理者として追加する必要があります。
- タスクのキャンセル - タスクは一度開始するとキャンセルできません。回避策として、ラベル マネージャーがラベル マネージャー コンソールでタスクを一時停止するか、タスクからラベル付け担当者の割り当てを解除します。
- ワンクリックでラベル付け担当者プール全体にタスクを割り当てる - 現在はサポートされていませんが、まもなくサポートされる予定です。回避策として、すべてのラベラーを選択してタスクを割り当てます。
- Google Workspace アカウントを持つ BYOL ラベラー - BYOL ラベリング マネージャーとラベラーが Google Workspace アカウントを持っている場合、ラベリング マネージャー コンソールとラベラー ワークベンチへのアクセスを有効にするには、Google Workspace 管理者が Google サービスのページの下部にある [その他のサービス](以下のスクリーンショットを参照)を有効にする必要があります。