אתם יכולים לאמן מודל עם ביצועים גבוהים עם שלושה מסמכי אימון ושלושה מסמכי בדיקה בלבד לתרחישי שימוש בפריסה קבועה. לקצר את זמן הפיתוח ואת הזמן עד להפקה של סוגי מסמכים מבוססי-תבניות כמו W9, 1040, ACORD, סקרים ושאלונים.
הגדרת מערך נתונים
כדי לאמן גרסה של מעבד, לאמן אותה מחדש או להעריך אותה, צריך מערך נתונים של מסמכים. מעבדים של Document AI לומדים מדוגמאות, בדיוק כמו בני אדם. מערך הנתונים תורם ליציבות המעבד מבחינת הביצועים.קבוצת נתונים לאימון
כדי לשפר את המודל ואת רמת הדיוק שלו, מאמנים מערך נתונים על המסמכים שלכם. המודל מורכב ממסמכים עם נתוני אמת. כדי לאמן מודל חדש, צריך לפחות שלושה מסמכים.מערך נתונים לבדיקה
קבוצת הנתונים של הבדיקה היא מה שהמודל משתמש בו כדי ליצור ציון F1 (דיוק). הוא מורכב ממסמכים עם נתוני אמת. כדי לראות כמה פעמים המודל צדק, נעשה שימוש בנתוני האמת כדי להשוות בין התחזיות של המודל (שדות שחולצו מהמודל) לבין התשובות הנכונות. מערך נתוני הבדיקה צריך לכלול לפחות שלושה מסמכים.לפני שמתחילים
אם עדיין לא עשיתם זאת, מפעילים את האפשרויות הבאות:
שיטות מומלצות לתיוג במצב תבנית
הקפדה על תיוג נכון היא אחד השלבים החשובים ביותר להשגת רמת דיוק גבוהה. למצב התבנית יש מתודולוגיה ייחודית של תיוג ששונה ממצבי אימון אחרים:
- מציירים תיבות תוחמות סביב כל האזור שבו צפויים להיות נתונים (לכל תווית) במסמך, גם אם התווית ריקה במסמך האימון שמתייגים.
- יכול להיות שתצטרכו להוסיף תוויות לשדות ריקים כדי לאמן את המודל על סמך תבנית. לא לתייג שדות ריקים לאימון מבוסס-מודל.
יצירה והערכה של כלי חילוץ בהתאמה אישית באמצעות מצב תבנית
יוצרים כלי חילוץ בהתאמה אישית. יוצרים מעבד ומגדירים שדות שרוצים לחלץ לפי השיטות המומלצות. זה חשוב כי זה משפיע על איכות החילוץ.
הגדרת מיקום של מערך נתונים. בוחרים את תיקיית ברירת המחדל (בניהול Google). יכול להיות שהפעולה הזו תתבצע באופן אוטומטי זמן קצר אחרי יצירת המעבד.
עוברים לכרטיסייה Build (בנייה) ובוחרים באפשרות Import documents (ייבוא מסמכים) עם הפעלת התיוג האוטומטי. בדרך כלל, הוספה של יותר משלושה מסמכים (המינימום הנדרש) לא משפרת את האיכות של אימון מבוסס-תבנית. במקום להוסיף עוד, כדאי להתמקד בסימון מדויק מאוד של קבוצה קטנה.
הרחבת תיבות תוחמות. התיבות האלה למצב תבנית צריכות להיראות כמו בדוגמאות הקודמות. כדי לקבל את התוצאה האופטימלית, כדאי להרחיב את תיבות התוחמות בהתאם לשיטות המומלצות.
אימון המודל.
- בוחרים באפשרות Train new version (אימון גרסה חדשה).
- נותנים שם לגרסת המעבד.
- עוברים אל הצגת אפשרויות מתקדמות ובוחרים בגישה של מודל מבוסס-תבנית.

הערכה.
- עוברים אל הערכה ובדיקה.
- בוחרים את הגרסה שאומנה זה עתה ואז בוחרים באפשרות הצגת ההערכה המלאה.

עכשיו מוצגים מדדים כמו F1, דיוק וזיכרון לכל המסמך ולכל שדה. 1. בודקים אם הביצועים עומדים ביעדי הייצור שהגדרתם. אם לא, מעריכים מחדש את קבוצות האימון והבדיקה.
הגדרת גרסה חדשה כברירת מחדל.
- עוברים אל ניהול גרסאות.
- בוחרים באפשרות להצגת תפריט ההגדרות, ואז מסמנים את האפשרות הגדרה כברירת מחדל.

המודל שלכם פרוס עכשיו, ומסמכים שנשלחים למעבד הזה משתמשים בגרסה המותאמת אישית שלכם. אתם רוצים להעריך את הביצועים של המודל (כאן מוסבר איך לעשות את זה) כדי לבדוק אם הוא צריך אימון נוסף.
הפניה להערכה
מנוע ההערכה יכול לבצע התאמה מדויקת או התאמה משוערת. כדי שתהיה התאמה מדויקת, הערך שחולץ חייב להיות זהה לערך האמת הבסיסי, אחרת הוא ייחשב כפספוס.
חילוצים של התאמה משוערת עם הבדלים קלים כמו הבדלים באותיות רישיות עדיין נחשבים להתאמה. אפשר לשנות את זה במסך הערכה.

סימון אוטומטי בתוויות באמצעות מודל בסיס
מודל הבסיס יכול לחלץ שדות בצורה מדויקת ממגוון סוגי מסמכים, אבל אפשר גם לספק נתוני אימון נוספים כדי לשפר את הדיוק של המודל עבור מבנים ספציפיים של מסמכים.
Document AI משתמש בשמות התוויות שאתם מגדירים ובביאורים קודמים כדי להוסיף תוויות למסמכים בקנה מידה גדול בצורה מהירה וקלה יותר באמצעות הוספת תוויות אוטומטית.
- אחרי שיוצרים מעבד בהתאמה אישית, עוברים לכרטיסייה תחילת העבודה.
בוחרים באפשרות יצירת שדה חדש.

עוברים לכרטיסייה Build (יצירה) ובוחרים באפשרות Import documents (ייבוא מסמכים).

בוחרים את הנתיב של המסמכים ואת הקבוצה שאליה רוצים לייבא את המסמכים. מסמנים את תיבת הסימון של התיוג האוטומטי ובוחרים את מודל הבסיס.
בכרטיסייה יצירה, לוחצים על ניהול קבוצת נתונים. המסמכים המיובאים אמורים להופיע. בוחרים אחד מהמסמכים.

התחזיות מהמודל מודגשות בסגול. צריך לבדוק כל תווית שהמודל חזה ולוודא שהיא נכונה. אם יש שדות חסרים, צריך להוסיף גם אותם.

אחרי שהמסמך נבדק, לוחצים על סימון כפריט שסומן בתווית.
המסמך מוכן עכשיו לשימוש על ידי המודל. חשוב לוודא שהמסמך נמצא בקבוצת הבדיקה או בקבוצת נתונים לאימון.