סקירה כללית על חילוץ מותאם אישית

חילוץ מותאם אישית מחלץ ישויות ממסמכים מסוג מסוים. לדוגמה, הוא יכול לחלץ את הפריטים בתפריט או את השם והפרטים ליצירת קשר מקורות חיים.

סקירה כללית

המטרה של הכלי לחילוץ מותאם אישית היא לאפשר למשתמשי Document AI ליצור פתרונות מותאמים אישית לחילוץ ישויות מסוגי מסמכים חדשים שאין להם מעבדים שאומנו מראש. הכלי לחילוץ מותאם אישית כולל שילוב של מודלים של למידה עמוקה שמודעים לפריסה (לבינה מלאכותית גנרטיבית ולמודלים מותאמים אישית) ומודלים מבוססי-תבניות.

באיזו שיטת אימון כדאי להשתמש?

הכלי Custom extractor תומך במגוון רחב של תרחישי שימוש בשלושה מצבים שונים.

שיטת האימון דוגמאות למסמכים וריאציה של פריסת מסמך פריסה גמישה או פסקאות מספר מסמכי האימון שנדרשים כדי להגיע לאיכות שמתאימה להפקה, בהתאם למידת השונות
מודל בסיס (AI גנרטיבי) חוזה, תנאים והגבלות, חשבונית, דף חשבון בנק, שטר מטען, תלושי שכר. מהגבוה לנמוך (המועדף). גבוהה. בינונית: 0-50+ מסמכים.
מודל בהתאמה אישית. מודל. טפסים דומים עם פריסה שונה לאורך השנים או בין ספקים (לדוגמה, טופס W9). נמוך עד בינוני. נמוכה. גבוהה: 10-100+ מסמכים.
תבנית. טפסים מס עם פריסה קבועה (לדוגמה, טפסים 941 ו-709). אין. נמוכה. נמוך (3 מסמכים).

מודלים בסיסיים בדרך כלל דורשים פחות מסמכי אימון, ולכן מומלץ להשתמש בהם כאפשרות הראשונה לכל הפריסות המשתנות.

לשלבים הנדרשים ליצירת מעבד חילוץ בהתאמה אישית, ראו יצירת מעבד.

ציון מהימנות

ציון מהימנות מציין את מידת הקשר בין כל ישות לבין הערך החזוי במודל. הערך הוא בין אפס לאחד. ככל שהוא קרוב יותר לאחד, כך רמת הוודאות של המודל גבוהה יותר לגבי ההתאמה של הערך לישות. כך המשתמשים יכולים להגדיר טריגרים לבדיקה ידנית של ישויות ספציפיות כשהערך נמוך. לדוגמה, קביעה אם הטקסט בישות הוא Hello, world!‎ או HeIIo vvorld!‎

היתרונות של הגישה הזו מאפשרים לזהות ישויות נפרדות עם רמת מהימנות נמוכה, להגדיר ספים שלפיהם נעשה שימוש בתחזיות, לבחור את סף המהימנות האופטימלי ולפתח אסטרטגיות חדשות לאימון מודלים עם דיוק גבוה יותר וציוני מהימנות גבוהים יותר.

מידע נוסף על מושגי הערכה ומדדים זמין במאמר הערכת הביצועים