Best Practices
- Ein Labeler-Pool pro Projekt: Im BYOL-Szenario wird zwar in der HITL-Einrichtungs-UI das Erstellen neuer Labeler-Pools für jeden Prozessor unterstützt, es wird jedoch empfohlen, einen einzelnen Labeler-Pool für alle Prozessoren in einem Projekt zu verwenden, um die Dinge einfach zu halten. Das liegt daran, dass Nutzer aus mehreren Labeler-Pools derselben Aufgabe zugewiesen werden können. Wenn Sie einer Aufgabe einen Labeler-Pool zuweisen, wird der Labeling Manager nicht daran gehindert, andere Labeler dieser Aufgabe zuzuweisen.
- Mehrere Aufgaben/Dokumenttyp: Für die Verarbeitung eines einzelnen Dokumenttyps können mehrere Aufgaben erforderlich sein. Dies ist in den folgenden Szenarien erforderlich:
- Labelersteller mit unterschiedlichen Fähigkeiten oder Anmeldedaten, die zum Überprüfen/Validieren verschiedener Felder desselben Dokuments erforderlich sind.
- Für Dokumente mit unterschiedlichen Feldern (z. B. Rechnungen von verschiedenen Anbietern) muss möglicherweise ein anderes Schema validiert werden. Daher müssen sie an unterschiedliche Aufgaben weitergeleitet werden.
- Für Dokumente von verschiedenen Kunden sind unterschiedliche Labeler-Pools zuständig (z.B. Rechnungen von verschiedenen Kunden, Sprachen oder Ländern).
- Überprüfung auf die erforderlichen Felder beschränken (im Gegensatz zu allen extrahierten Feldern auf der Seite), um Zeit und Kosten für die Überprüfung zu sparen: Die Antwortzeit pro Seite hängt von der Anzahl der zu überprüfenden Felder ab. Die Kosten für die Google-Kennzeichnung basieren auf der Anzahl der überprüften Felder. Daher wird empfohlen, die zu überprüfenden Felder auf die zu beschränken, die im nachgelagerten Geschäftsprozess verwendet werden.
- Eine Rechnung kann beispielsweise mehr als 30 Felder enthalten. Sie möchten die Überprüfung aber vielleicht auf 4–5 Felder beschränken, die für die Begleichung der Rechnung wichtig sind.
- HITL-fähige Prozessoren benennen: Der Name der HITL-Aufgabe entspricht dem Namen des Prozessors. Es wird empfohlen, einen Namen zu verwenden, der für die Labeling-Manager und Labelersteller verständlich ist und sich leicht von anderen Aufgaben unterscheidet, an denen sie arbeiten.
- Aufgaben priorisieren: Wenn einem Labelersteller mehrere Aufgaben zugewiesen sind, werden diese nacheinander bearbeitet. Wenn ein Labeler die Aufgabe wechseln muss (z.B. um auf eine Kundeneskalierung zu reagieren oder ein SLO einzuhalten), sollte der Labeling Manager die aktuelle Aufgabe über den Tab „Assignments“ (Zuweisungen) in der Labeling Manager Console aufheben und die Aufgabe mit hoher Priorität den Labelern zuweisen.
- Im Raster „Labelers X Tasks“ (Labeler × Aufgaben) in der Console (siehe unten) kann der Labeling Manager alle Labeler-Zuweisungen für verschiedene Aufgaben sehen und festlegen, welcher Labeler an welcher Aufgabe arbeitet, um die Aufgabenprioritäten zu berücksichtigen.
-
Validierungsfilter festlegen
- Abgelehnte Dokumente: Der abgelehnte Status des Dokuments sowie der Ablehnungsgrund (z. B. anderer Dokumenttyp, gefälscht, Blendung, unscharf, abgeschnittener Rand usw.) werden in den JSON-Dokumentdateien erfasst (TextChange für alle Änderungen, HumanReview für den Ablehnungsgrund) und im konfigurierten Cloud Storage-Bucket ausgegeben. Es wird empfohlen, diese Metadaten zu verwenden, um die abgelehnten Dokumente zu trennen.
- Verarbeiten großer Mengen von Dokumenten: Die aktuellen Kontingente begrenzen die Anzahl der Online-Dokumentanfragen auf 600 pro Minute und die Anzahl der gleichzeitigen Offline- (Batch-)Anfragen auf 5, wobei jede Anfrage bis zu 50 Dokumente verarbeiten kann. Es wird erwartet, dass 36.000 Onlineanfragen/Stunde und bis zu 15.000 Offline-Dokumentanfragen (Batch) pro Stunde verarbeitet werden können [da jeder Batch bis zu 50 Dokumente umfasst]. Wenn Sie ein höheres Volumen benötigen, wenden Sie sich bitte an den Support.
- Kosten und Zeit für die manuelle Überprüfung verwalten: Die manuelle Überprüfung kann teuer werden, unabhängig davon, ob Sie Ihre eigenen Labelersteller oder Google-Labelersteller verwenden. Die für die einzelnen Seiten aufgewendete Zeit hängt von der Anzahl der überprüften Felder ab. Google Workforce (in der privaten Vorschau) wird pro geprüftem Label in Rechnung gestellt. Sie können die Prüfung und Kosten im Blick behalten, indem Sie die Funktion auf die wichtigsten Felder beschränken, die überprüft und korrigiert werden müssen. Verwenden Sie dazu die Validierungsfilter auf Labelebene auf dem Bildschirm für die manuelle Überprüfung.
- Single Sign-on-Zugriff mit Enterprise-Anmeldedaten: Die Labeler Workbench und die Labeling Manager Console unterstützen Google-Arbeitskonten oder Gmail-Anmeldedaten. Wenn eine Einmalanmeldung mit Unternehmensanmeldedaten erforderlich ist, erstellen Sie bitte Basic Google Workforce-Konten für Ihre Labeler. Google Workforce unterstützt SAML. Sie können Ihren SSO-Anbieter so konfigurieren, dass er sich mit Unternehmensanmeldedaten in der Labeler Workbench oder Labeling Manager Console anmeldet.
Bekannte Einschränkungen und Problemumgehungen
Im Folgenden finden Sie einige bekannte Einschränkungen und mögliche Problemumgehungen. Wir arbeiten derzeit daran, die Einschränkungen zu beheben.
- Der Begrenzungsrahmen muss Text enthalten: Wenn HITL zum Annotieren von Dokumenten für das Training verwendet wird, muss in jedem gezeichneten Begrenzungsrahmen OCR erkannt werden. Der Wert darf nicht leer sein. Wenn Sie einen Wert manuell eingeben, wird das Problem nicht behoben.
- VPC-SC: Kunden, die VPC-SC in ihrem HITL-Projekt aktiviert haben, können möglicherweise keine Google-Labeler für die HITL-Überprüfung verwenden.
- Latenz nach der Überprüfung: Nachdem ein Dokument überprüft wurde, kann es bis zu 30 Minuten dauern, bis es im vorkonfigurierten Cloud Storage-Ordner abgelegt wird.
- Limit von 10 Seiten: Die HITL-Prüfung ist bei Rechnungen auf 10 Seiten begrenzt. Rechnungen mit mehr als 10 Seiten werden nicht zur manuellen Überprüfung gesendet.
- Workflow mit einem einzelnen Labeler: Die aktuellen Workflow-Aufgaben sind auf eine Überprüfung durch einen einzelnen Labeler beschränkt. Wenn das Dokument von mehreren Prüfern überprüft werden muss (z. B. zur Qualitätssicherung oder zur Betrugsprävention), laden Sie die geprüften Dokumente in einen zweiten Prozessor im Modus „Prozessor überspringen, alle Dokumente zur manuellen Überprüfung senden“ hoch, damit sie überprüft werden.
- Labeling-Administratoren des Labeling-Pools bearbeiten: Bei BYOL-Aufgaben können Labeling-Administratoren einem Labeling-Pool nach der Erstellung nicht mehr hinzugefügt oder daraus entfernt werden. Workaround: Wenn Sie einen neuen Labeling-Pool erstellen,
- Weisen Sie mehr als einen Labeling-Manager zu, damit die anderen den Pool und die Aufgabenzuweisungen verwalten können, falls einer vor Abschluss der Aufgabe ausscheidet.
- Personen, die die Dashboards für Labeler- oder Aufgabenanalysen in der Labeling Manager-Benutzeroberfläche aufrufen müssen, sollten beim Erstellen des Pools als Pool-Manager hinzugefügt werden.
- Aufgabe abbrechen: Eine Aufgabe kann nach dem Start nicht mehr abgebrochen werden. Der Labeling Manager kann die Aufgabe in der Labeling Manager Console pausieren oder die Labeler von der Aufgabe entfernen.
- Aufgabe mit einem einzigen Klick einem gesamten Labeler-Pool zuweisen: Diese Funktion wird derzeit nicht unterstützt, ist aber in Kürze verfügbar. Als Workaround können Sie alle Labeler auswählen und ihnen die Aufgabe zuweisen.
- BYOL-Labeler mit Google Workspace-Konten: Wenn BYOL-Labeling-Manager und ‑Labeler Google Workspace-Konten haben, muss der Google Workspace-Administrator möglicherweise „Andere Dienste“ unten auf der Seite „Google-Dienste“ aktivieren (siehe Screenshots unten), um den Zugriff auf die Labeling Manager Console und die Labeler Workbench zu ermöglichen.