אימון מודלים מותאמים אישית וחילוץ נתונים מאפשרים לכם ליצור מודל משלכם שמותאם במיוחד למסמכים שלכם, בלי להשתמש ב-AI גנרטיבי. האפשרות הזו מתאימה במיוחד אם אתם לא רוצים להשתמש ב-AI גנרטיבי ורוצים לשלוט בכל ההיבטים של המודל המאומן.
הגדרת מערך נתונים
כדי לאמן גרסה של מעבד, לאמן אותה מחדש או להעריך אותה, צריך מערך נתונים של מסמכים. מעבדים של Document AI לומדים מדוגמאות, בדיוק כמו בני אדם. מערך הנתונים תורם ליציבות המעבד מבחינת הביצועים.קבוצת נתונים לאימון
כדי לשפר את המודל ואת רמת הדיוק שלו, מאמנים מערך נתונים על המסמכים שלכם. המודל מורכב ממסמכים עם נתוני אמת. כדי לאמן מודל חדש, צריך לפחות שלושה מסמכים.מערך נתונים לבדיקה
קבוצת הנתונים של הבדיקה היא מה שהמודל משתמש בו כדי ליצור ציון F1 (דיוק). הוא מורכב ממסמכים עם נתוני אמת. כדי לראות כמה פעמים המודל צדק, נעשה שימוש בנתוני האמת כדי להשוות בין התחזיות של המודל (שדות שחולצו מהמודל) לבין התשובות הנכונות. מערך נתוני הבדיקה צריך לכלול לפחות שלושה מסמכים.לפני שמתחילים
אם עדיין לא עשיתם זאת, מפעילים את החיוב ואת Document AI API.
יצירה והערכה של מודל בהתאמה אישית
מתחילים בבנייה של מעבד מותאם אישית, ואז מעריכים אותו.
יוצרים מעבד ומגדירים את השדות שרוצים לחלץ. זה חשוב כי זה משפיע על איכות החילוץ.
מגדירים את המיקום של קבוצת הנתונים: בוחרים בתיקייה של אפשרות ברירת המחדל בניהול Google. יכול להיות שהפעולה הזו תתבצע אוטומטית זמן קצר אחרי שיוצרים את המעבד.
עוברים לכרטיסייה Build (בנייה) ובוחרים באפשרות Import Documents (ייבוא מסמכים) עם הפעלה של תיוג אוטומטי (ראו תיוג אוטומטי באמצעות מודל בסיסי). כדי לאמן מודל בהתאמה אישית, צריך לפחות 10 מסמכים בקבוצת הנתונים לאימון ו-10 בקבוצת הנתונים לבדיקה.
אימון מודל:
- בוחרים באפשרות Train new version (אימון גרסה חדשה) ונותנים שם לגרסת המעבד.
- עוברים אל הצגת אפשרויות מתקדמות ובוחרים באפשרות מבוסס מודל.

הערכה:
- עוברים אל הערכה ובדיקה, בוחרים את הגרסה שאומנה זה עתה ולוחצים על הצגת ההערכה המלאה.

- עכשיו מוצגים מדדים כמו f1, דיוק וזיכרון לגבי המסמך כולו וכל שדה.
- מחליטים אם הביצועים עומדים ביעדי הייצור. אם לא, מעריכים מחדש את קבוצות האימון והבדיקה, ובדרך כלל מוסיפים לקבוצת הבדיקה של האימון מסמכים שלא עוברים ניתוח טוב.
הגדרת גרסה חדשה כברירת מחדל.
- עוברים אל ניהול גרסאות.
- עוברים לתפריט ובוחרים באפשרות הגדרת ברירת מחדל.

המודל שלכם פרוס עכשיו, ומסמכים שנשלחים למעבד הזה משתמשים עכשיו בגרסה המותאמת אישית שלכם. אתם רוצים להעריך את ביצועי המודל כדי לבדוק אם הוא צריך אימון נוסף.
הפניה להערכה
מנוע ההערכה יכול לבצע התאמה מדויקת או התאמה משוערת. כדי שתהיה התאמה מדויקת, הערך שחולץ חייב להיות זהה לערך האמת הבסיסי, אחרת הוא ייחשב כפספוס.
חילוצים של התאמה משוערת עם הבדלים קלים כמו הבדלים באותיות רישיות עדיין נחשבים להתאמה. אפשר לשנות את זה במסך הערכה.

סימון אוטומטי בתוויות באמצעות מודל בסיס
מודל הבסיס יכול לחלץ שדות בצורה מדויקת ממגוון סוגי מסמכים, אבל אפשר גם לספק נתוני אימון נוספים כדי לשפר את הדיוק של המודל עבור מבנים ספציפיים של מסמכים.
Document AI משתמש בשמות התוויות שאתם מגדירים ובביאורים קודמים כדי להוסיף תוויות למסמכים באופן אוטומטי בהיקף גדול.
- אחרי שיוצרים מעבד בהתאמה אישית, עוברים לכרטיסייה Get Started (תחילת העבודה).
- בוחרים באפשרות יצירת שדה חדש.
- מזינים שם תיאורי וממלאים את שדה התיאור. תיאור הנכס מאפשר לכם לספק הקשר נוסף, תובנות וידע קודם לכל ישות כדי לשפר את הדיוק והביצועים של החילוץ.

עוברים לכרטיסייה Build (בנייה) ובוחרים באפשרות Import documents (ייבוא מסמכים).

בוחרים את הנתיב של המסמכים ואת הקבוצה שאליה רוצים לייבא את המסמכים. מסמנים את התיבה 'תיוג אוטומטי' ובוחרים את מודל הבסיס.
בכרטיסייה יצירה, בוחרים באפשרות ניהול קבוצת נתונים. המסמכים המיובאים אמורים להופיע. בוחרים אחד מהמסמכים.

החיזויים מהמודל מודגשים עכשיו בסגול.
- בודקים כל תווית שהמודל חוזה ומוודאים שהיא נכונה. אם יש שדות חסרים, מוסיפים גם אותם.

- אחרי שהמסמך נבדק, לוחצים על סימון כפריט עם תווית. המסמך מוכן עכשיו לשימוש על ידי המודל. מוודאים שהמסמך נמצא בקבוצת הבדיקה או בקבוצת האימון.