ייצוא מסמכים אל Document AI Workbench

במאמר הזה מוסבר איך לייצא מסמכים מ-Document AI Warehouse אל מערך הנתונים של כלי מותאם אישית לחילוץ מסמכים (CDE) ב-Document AI Workbench.

הכלי CDE מאפשר למשתמשים ליצור כלי לחילוץ מסמכים. הם מייבאים מסמכים למערך הנתונים של המעבד, ואז מתייגים אותם לפני אימון המודל. כשמשתמשים מייצאים מסמכים נבחרים למערך נתונים של CDE, הם יכולים לבנות את מערך הנתונים על ידי ניהול או חיפוש המסמכים ב-Document AI Warehouse.

יצירת CDE ב-Document AI Workbench

הוראות מלאות ליצירת CDE מופיעות במדריך הרשמי הזה. במדריך הזה אנחנו מדגישים כמה שלבים חשובים.

יצירת CDE מתוך רשימת המעבדים

  1. עוברים לדף My processors (המעבדים שלי) ולוחצים על Create Custom Processor (יצירת מעבד בהתאמה אישית):

    שלב 1

  2. בכרטיס Custom Document Extractor (כלי לחילוץ נתונים ממסמכים בהתאמה אישית), בוחרים באפשרות Create Processor (יצירת מעבד):

    שלב 2

  3. מזינים שם לתצוגה ולוחצים על יצירה:

    שלב 3

ה-CDE אמור להיווצר במהירות.

הגדרת מערך הנתונים של CDE

  1. בדף הפרטים של המעבד, לוחצים על הגדרת המיקום של מערך הנתונים:

    שלב 4

  2. מציינים נתיב של קטגוריה שבה יישמרו המסמכים במערך הנתונים:

    שלב 5

    תהליך ההגדרה נמשך כמה דקות. אחרי כן, תוכלו לראות את נתיב הדלי ואת מספר הפריטים בדף הפרטים:

    שלב 6

    כדי להפעיל את צינור הנתונים של export-to-Workbench, צריך את מזהה המעבד שמופיע למעלה.

הפעלת צינור עיבוד הנתונים לייצוא ל-Workbench

  1. בוחרים את המסמכים לייצוא ולוחצים על ייצוא ל-Document AI Workbench בסרגל הפעולות:

    Step 7

    כדאי לצמצם את החיפוש או את קריטריוני הסינון.
  2. מזינים פרמטרים של קלט ומפעילים את צינור העיבוד על ידי העתקת מזהה המעבד מ-CDE והדבקתו בתיבת הדו-שיח.

    צריך נתיב של מאגר זמני כדי לאחסן את המסמכים באופן זמני לפני ייצוא שלהם. פיצול נתונים מאפשר למשתמשים להוסיף את המסמך באופן אקראי למערך אימון או לקבוצת נתונים לבדיקה. היחס בין החלקים מבוסס על הערך הזה.

    שלב 8

    לחיצה על ייצוא מפעילה את עבודת צינור עיבוד הנתונים.

  3. סטטוס המסלול

    אחרי הפעלת הצינור, מופיע דף למעקב אחר הסטטוס. נכון לעכשיו, אין מעקב פעיל בדף. בדף הסטטוס מוצג סטטוס ההמתנה עד שהמשימה מסתיימת.

    שלב 9

  4. בודקים את התוצאות.

    1. אחרי שהמשימה מסתיימת, אפשר לראות את המסמכים שהועלו בהצלחה ואת המסמכים שלא הועלו.

      שלב 10

    2. כדי לבדוק אם המסמכים יוצאו בצורה נכונה, חוזרים לדף הפרטים של CDE:

      Step 11

    3. אם הדף פתוח לפני הפעלת צינור הנתונים, צריך לרענן אותו כדי לראות את הנתונים הסטטיסטיים המעודכנים. ההתפלגויות של קבוצת האימון וקבוצת נתונים לבדיקה מבוססות על יחס פיצול הנתונים.

    4. כדי לראות את המסמכים בפירוט, עוברים לכרטיסייה Train (אימון):

      Step 12

השלב הבא

מידע נוסף על runPipeline API