הכלי Form Parser מחלץ זוגות של מפתח-ערך (KVP), טבלאות, סימני בחירה (כמו תיבות סימון), שדות כלליים וטקסט כדי לשפר את עיבוד המסמכים ולבצע אותו באופן אוטומטי.
כדאי להשתמש ב-Form Parser במקרים הבאים:
- טיפול בטפסים מובְנים: הוא מצטיין בחילוץ זוגות של מפתח/ערך מטפסים מוגדרים היטב שנראים כמו טפסים רגילים עם שדות ריקים מתויגים למילוי, כמו
name: __. המודל שאומן מראש ב-Form Parser מציע רמת דיוק גבוהה בשדות נפוצים כמו שמות, תאריכים וכתובות. - נדרש חילוץ גמיש של טבלאות: הכלי לחילוץ מידע מטפסים מחלץ מידע מטבלאות פשוטות (ללא תאים שמשתרעים על פני שורות או עמודות) שנראות כמו טבלאות. לא נדרש אימון (וגם אי אפשר). במקרה של חילוץ טבלאות שאומנו, אפשר להשתמש בכלי החילוץ המותאם אישית עם שדה אב שמכיל שדות צאצא של עמודות (תאים).
- צריך יעילות: מומלץ להימנע מבנייה ותחזוקה של מנתחי חילוץ, במיוחד עבור משימות חילוץ בכמויות גדולות ובפורמטים מגוונים.
תכונות לחילוץ נתונים
התכונות של כלי הניתוח של טפסים כוללות:
KVP: אלה קבוצות של שני פריטים במסמך – תווית או מפתח והנתונים התואמים (ערך). אתם יכולים להשתמש ישירות בצמדי מפתח/ערך (אם המפתחות עקביים) או ליצור לוגיקה מותאמת אישית כדי להמיר מפתחות שונים למידע מובנה עקבי.
ישויות כלליות: ניתוח של 11 שדות שונים ממסמכים, ללא צורך בהגדרה. למשל:
emailphoneurldate_timeaddresspersonorganizationquantitypriceidpage_number
טקסט ופריסה: אפשר להשתמש במנוע ה-OCR העדכני שלנו כדי לחלץ טקסט ופרטי פריסה. התוכן הזה כולל טקסט מוטמע מקובצי PDF דיגיטליים (גרסה 2.1 בלבד) או טקסט מתמונות.
טבלאות: זיהוי וחילוץ של טבלאות מתמונות ומקובצי PDF.
תיבות סימון: גלאי סימון באיכות גבוהה, שמחלץ תיבות סימון מתמונות ומפלט PDF כזוגות של מפתח וערך (KVP), באמצעות הטקסט הקרוב ביותר לתיבת הסימון, עם
valueTypeשמציין אם היא מסומנת או לא.
שפות ואזורים
- כלי ניתוח הטפסים 2.0 תומך ביותר מ-200 שפות. מידע נוסף
- אנחנו מספקים תמיכה בתכונות בשמונה אזורים. מידע נוסף
גרסאות המודלים
התכונה הזו תואמת לגרסאות המעבד הבאות. מידע נוסף מופיע במאמר בנושא ניהול גרסאות של מעבדים.
מגבלות
דחיסות JPEG קודמות ל-TIFF לא נתמכות. סוג האנקפסולציה של JPEG שמוגדר על ידי מפרט גרסה 6.0 של TIFF.
מודל תיבת הסימון לא תומך בניתוח של לחצני בחירה. יכול להיות שלחלק מתיבות הסימון שזוהו אין מפתחות תואמים.
המודל לא מנתח באופן מהימן זוגות של מפתח וערך עם ערך לא מלא, כמו טופס ריק.
יכול להיות שאיכות הניתוח של זוגות מפתח/ערך במסמכים בשפות מסוימות תהיה נמוכה יותר מאשר בשפות לטיניות.
עיבוד מסמכים באמצעות הכלי 'ניתוח טפסים'
במדריך למתחילים הזה נסביר על התכונה Form Parser (ניתוח טפסים) ב-Document AI. במדריך הזה להתחלה מהירה, משתמשים במסוף Google Cloud כדי להגדיר את הפרויקט Google Cloud וההרשאה, ליצור כלי לניתוח טפסים ואז לשלוח בקשה ל-Document AI כדי לעבד טופס PDF.
בקישורים הבאים תוכלו ללמוד איך:
מפעילים את Document AI בפרויקט ב- Google Cloud .
יוצרים מעבד Form Parser, שיכול לזהות ולחלץ טקסט, צמדי מפתח-ערך, טבלאות וישויות כלליות מסוגים רבים של מסמכים.
משתמשים במעבד כדי להוסיף הערות למסמך לדוגמה.
לחצו על תראו לי איך כדי לקרוא הסבר מפורט על המשימה ישירות במסוף Google Cloud :
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Document AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Document AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
יצירת מעבד Form Parser
משתמשים במסוף Google Cloud כדי ליצור מעבד Form Parser. מידע נוסף אפשר למצוא במאמר בנושא יצירה וניהול של מעבדים.
בתפריט הניווט במסוף Google Cloud , לוחצים על Document AI ובוחרים באפשרות Processor Gallery.
בגלריית המעבדים,
מחפשים את כלי הניתוח של טפסים ולוחצים על יצירה.
בחלון הצדדי, מזינים שם מעבד, כמו
quickstart-form-processor.בוחרים את האזור שהכי קרוב אליכם.
לוחצים על הלחצן יצירה.
תועברו לדף פרטי המעבד של מעבד חדש לניתוח טפסים.
מעבד בדיקה
אחרי שיוצרים את המעבד, אפשר לשלוח אליו בקשות להוספת הערות.
-
זהו קובץ PDF שמכיל טופס רפואי לדוגמה בכתב יד. המסמך הזה מאוחסן בקטגוריה של Cloud Storage שנגישה לציבור.
לוחצים על הלחצן
Upload Test Document (העלאת מסמך בדיקה) ובוחרים את המסמך שהורדתם.עכשיו אתם אמורים להיות בדף Form Parser analysis. אתם יכולים לראות את הטקסט שזוהה באמצעות OCR, את הצמדים של מפתחות וערכים, את הטבלאות ואת הישויות הגנריות שחולצו מהמסמך.
הסרת המשאבים
כדי להימנע מחיובים מיותרים ב- Google Cloud , אפשר להשתמש ב-Google Cloud console כדי למחוק את המעבד והפרויקט אם אין בהם צורך.
המאמרים הבאים
- מעיינים ברשימת המעבדים.