סקירה כללית על חילוץ נתונים

‫Document AI מציע כמה מוצרים לשליפת מידע ממסמכים לתרחישי שימוש שונים:

  • Form Parser
  • כלי חילוץ בהתאמה אישית, שמציע שלושה סוגים שונים של מודלים:

    • מודל בסיס
    • כללים שמבוססים על מודל בהתאמה אישית
    • מבוסס על תבנית מותאמת אישית
  • Layout Parser

מנתח טפסים

הכלי Form Parser מחלץ צמדי מפתח/ערך (KVP), טבלאות, סימני בחירה (תיבות סימון) ושדות כלליים כדי לשפר את החילוץ ולהפוך אותו לאוטומטי. הוא יכול לחלץ עד 11 ישויות כלליות ותיבות סימון מוכנות לשימוש. לא מציינים את השדות (סכימה) שרוצים לחלץ באמצעות הכלי 'ניתוח טפסים'. המודל מזהה ישויות מעניינות בכל דף במסמכים ומחזיר אותן.

חילוץ מותאם אישית

הכלי לחילוץ בהתאמה אישית מחלץ ישויות שאתם מגדירים בסכימה, ומציע שלוש אפשרויות ליצירת מודלים: מודל בסיסי, מודל מותאם אישית מבוסס-תבנית ומודל מותאם אישית מבוסס-תבנית. בהתחשב בתוצאות המבטיחות של מודלים בסיסיים עם נתוני אימון מועטים או ללא נתוני אימון, מומלץ להתחיל עם המודל הבסיסי כאפשרות הראשונה ולנסות אפשרויות אחרות לפי הצורך. מודלי הבסיס מבצעים חיזוי עם אפס עד כמה דוגמאות, על סמך עד 5 מסמכים מתויגים במערך הנתונים, וחיזוי עם כוונון עדין על סמך יותר מ-10 מסמכים מתויגים במערך הנתונים.

שיטת האימון דוגמאות למסמכים וריאציה של פריסת מסמך פריסה גמישה או פסקאות מספר מסמכי האימון שנדרשים כדי להגיע לאיכות שמתאימה להפקה, בהתאם למידת השונות
מודל בסיס (AI גנרטיבי) חוזה, תנאים והגבלות, חשבונית, דף חשבון בנק, שטר מטען, תלושי שכר. מהגבוה לנמוך (המועדף). גבוהה. בינונית: 0-50+ מסמכים.
מודל בהתאמה אישית. מודל. טפסים דומים עם פריסה שונה לאורך השנים או בין ספקים (לדוגמה, טופס W9). נמוך עד בינוני. נמוכה. גבוהה: 10-100+ מסמכים.
תבנית. טפסים מס עם פריסה קבועה (לדוגמה, טפסים 941 ו-709). אין. נמוכה. נמוך (3 מסמכים).

מודלים בסיסיים בדרך כלל דורשים פחות מסמכי אימון, ולכן מומלץ להשתמש בהם כאפשרות הראשונה לכל הפריסות המשתנות.

כלי לניתוח פריסות

הכלי Layout Parser ממיר מסמכים בפורמטים שונים לייצוגים מובנים, וכך מאפשר גישה לתוכן כמו פסקאות, טבלאות, רשימות ורכיבים מבניים כמו כותרות, כותרות עליונות וכותרות תחתונות של דפים. בנוסף, הוא יוצר נתחים שמודעים להקשר ומקלים על אחזור מידע במגוון אפליקציות של AI גנרטיבי ואפליקציות לגילוי מידע.