מנגנוני חילוץ מותאמים אישית
אתם יכולים ליצור מחלצים בהתאמה אישית שמתאימים במיוחד למסמכים שלכם, ולבצע אימון והערכה שלהם באמצעות הנתונים שלכם. מעבד התוכן הזה מזהה ישויות במסמכים שלכם ומחלץ אותן. לאחר מכן תוכלו להשתמש במעבד המאומן הזה במסמכים נוספים.
לפני שמתחילים
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
התפקידים הנדרשים
כדי לקבל את ההרשאות שדרושות ליצירת סיווג בהתאמה אישית, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:
- אדמין של Document AI (
roles/documentai.admin) - אדמין באחסון (
roles/storage.admin)
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.
יצירת מעבד
במסוף Google Cloud , בקטע Document AI, עוברים לדף Workbench.
בקטע custom extractor (מחולץ מותאם אישית), בוחרים באפשרות
Create processor (יצירת מעבד).
בתפריט Create processor, מזינים שם למעבד, למשל
my-custom-document-extractor.
בוחרים את האזור שהכי קרוב אליכם.
אופציונלי: פותחים את האפשרויות המתקדמות.
אתם יכולים לאפשר ל-Google ליצור בשבילכם קטגוריה של Cloud Storage, או ליצור קטגוריה משלכם. במדריך הזה, בוחרים באפשרות Google-managed storage.
יש גם אפשרות להשתמש במפתחות הצפנה בניהול Google או במפתחות הצפנה בניהול הלקוח (CMEK). במדריך הזה, בוחרים באפשרות Google-managed encryption key.
לוחצים על יצירה כדי ליצור את המעבד.
הנחיות ברמת המסמך
הנחיה ברמת המסמך מאפשרת לתאר את המסמך באופן כללי כדי להעשיר את המודל בידע עסקי מעמיק ולשפר את איכות החילוץ. הוא יכול לכלול מידע כללי על השדות, למשל: כל שדות הכתובת ממוקמים בארה"ב.
הנחיות יכולות לספק מידע למודל, אבל לא צריך להשתמש בהן כדי לבדוק אם מתקיימים כללים או תנאים. דוגמה: סכום כל המחירים צריך להיות שווה למחיר הכולל. ההנחיה ברמת המסמך מתווספת להנחיה הכוללת, וצריך להתייחס אליה כאל רמזים ברמת המסמך ולא כאל הנחיה מלאה.
הזנת הנחיה ברמת המסמך
במסוף Google Cloud , עוברים לכרטיסייה
Get started .כדי להזין את ההנחיה למסמך, לוחצים על עריכה ליד שדה להזנת קלט של ההנחיה למסמך.
בחלונית הצדדית, כותבים הנחיה שמתארת את המסמך כולו.
הגדרת שדות לעיבוד
עכשיו אתם בדף סקירה כללית של מעבד של המעבד שיצרתם.
אתם יכולים לציין את השדות שאתם רוצים שהמעבד יחלץ ויתחיל לתייג מסמכים.
בוחרים בכרטיסייה
תחילת העבודה . מופיע תפריט השדות.בוחרים באפשרות יצירת שדה חדש.
מזינים את השם של השדה. בוחרים את סוג הנתונים ואת המופע. נותנים לתווית תיאור ברור ומובחן. תיאור הנכס מאפשר לכם לספק הקשר נוסף, תובנות וידע קודם לכל ישות כדי לשפר את הדיוק והביצועים של החילוץ.
- לוחצים על יצירה. הוראות מפורטות ליצירה ולעריכה של סכימה זמינות במאמר בנושא הגדרת סכימת מעבד.
צריך ליצור כל אחת מהתוויות הבאות לסכימת המעבד.
שם סוג הנתונים אירוע control_numberמספר כמות אופציונלית employees_social_security_numberמספר כפולה נדרשת employer_identification_numberמספר כפולה נדרשת employers_name_address_and_zip_codeכתובת כפולה נדרשת federal_income_tax_withheldכסף כפולה נדרשת social_security_tax_withheldכסף כפולה נדרשת social_security_wagesכסף כפולה נדרשת wages_tips_other_compensationכסף כפולה נדרשת אפשר גם ליצור ולהשתמש בסוגים אחרים של תוויות בסכימת המעבד, כמו תיבות סימון וישויות טבלאיות. לדוגמה, בטופסי W-2 יש תיבות סימון של עובד סטטוטורי, תוכנית פנסיה ותשלום מחלה מצד שלישי, שאפשר להוסיף גם לסכימה.
העלאת מסמך לדוגמה
בודקים באמצעות מסמך לדוגמה.
בוחרים באפשרות העלאת מסמך לדוגמה.
בסרגל הצד, בוחרים באפשרות ייבוא מסמכים מ-Cloud Storage.
בדוגמה הזו, מזינים את שם הקטגוריה בשדה
נתיב המקור . הקישור הזה מוביל ישירות למסמך אחד.cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdfלוחצים על ייבוא.
תועברו למסוף התיוג.
הוספת תוויות למסמך
התהליך של בחירת טקסט במסמך והוספת תוויות נקרא הערה או הוספת תוויות.
כשנמצאים במסוף התיוג, אפשר לראות שרבים מהתוויות כבר מאוכלסות. הסיבה לכך היא שסוג ברירת המחדל של מודל חילוץ בהתאמה אישית הוא מודל בסיסי, שיכול לבצע חיזוי zero-shot, כלומר ללא אימון.
כדי להשתמש בתוויות המוצעות, מעבירים את מצביע העכבר מעל כל
תווית בחלונית הצד, ולוחצים על סימן הווי כדי לאשר שהתווית נכונה. אל תערכו את הטקסט, גם אם ה-OCR קורא את הטקסט בצורה שגויה.בדוגמה הזו, הערכים בתחתית המסמך לא זוהו באופן אוטומטי, ולכן צריך להוסיף להם תוויות באופן ידני.
משתמשים בסמלים שבסרגל הכלים שמעל המסמך כדי להוסיף תוויות. כדי לבחור את התוכן ולהחיל את התווית, משתמשים בכלי
תיבת התוחמת כברירת מחדל, או בכליבחירת טקסט כדי לבחור ערכים בכמה שורות.אחרי שבוחרים טקסט, מופיע תפריט נפתח עם כל השדות (הישויות) המוגדרים, וצריך לבחור אחד מהם. בדוגמה הזו, הערך של
wages_tips_other_compensationנבחר באמצעות הכלי לתיבת תוחמת, והתווית הזו מוחלת.
בודקים את ערכי הטקסט שזוהו כדי לוודא שהם משקפים את המיקום הנכון של הטקסט בכל שדה. כשמסיימים, מסמך ה-W2 עם התוויות אמור להיראות כך:
במקרה הצורך, אפשר ללחוץ על
יצירת שדה חדש כדי להוסיף שדה חדש לסכימה מהדף הזה.כשמסיימים להוסיף הערות למסמך, בוחרים באפשרות
סימון כ'תויג' . תועברו לכרטיסייה תחילת העבודה.
גרסת מעבד שנוצרה באמצעות מודל בסיס
אחרי שתתייגו מסמך אחד, תוכלו ליצור גרסת מעבד באמצעות מודל בסיס שאומן מראש כדי לחלץ ישויות.
בוחרים בכרטיסייה
Build (פיתוח).
בקטע קריאה למודל בסיסי, בוחרים באפשרות יצירת גרסה חדשה.
מזינים שם לגרסת המעבד, למשל
w2-foundation-model.לוחצים על יצירת גרסה. היצירה נמשכת כמה דקות.
אופציונלי: בוחרים בכרטיסייה
Deploy & use . בדף הזה אפשר לראות את הגרסאות הזמינות של המעבד ואת סטטוס הפריסה של הגרסה החדשה.
שימוש ב-AI גנרטיבי כדי להוסיף תוויות למסמכים באופן אוטומטי
מודל הבסיס יכול לחלץ שדות בצורה מדויקת ממגוון סוגי מסמכים, אבל אפשר גם לספק נתוני אימון נוספים כדי לשפר את הדיוק של המודל עבור מבנים ספציפיים של מסמכים.
הכלי לחילוץ מותאם אישית משתמש בשמות התוויות שאתם מגדירים ובביאורים קודמים כדי להפוך את התיוג של מסמכים בהיקף גדול למהיר וקל יותר באמצעות תיוג אוטומטי.
עוברים לדף
Build .לוחצים על
ייבוא מסמכים .בסרגל הצד, בוחרים באפשרות ייבוא מסמכים מ-Google Cloud Storage.
מזינים את שם הקטגוריה שמכילה את המסמכים.
ברשימה פיצול נתונים, בוחרים באפשרות פיצול אוטומטי. המסמכים יפוצלו אוטומטית כך ש-80% מהם יהיו בקבוצת נתונים לאימון ו-20% בקבוצת נתונים לבדיקה.
בקטע תיוג אוטומטי, מסמנים את התיבה
ייבוא עם תיוג אוטומטי .בוחרים את גרסת המעבד של המודל הבסיסי לתיוג המסמכים.
בוחרים באפשרות ייבוא ומחכים עד שהמסמכים ייווצרו. אפשר לצאת מהדף ולחזור אליו מאוחר יותר.
כדי להשתמש במסמכים עם תוויות אוטומטיות לצורך אימון או בדיקה, צריך לאמת אותם. לוחצים על
התחלת התיוג כדי לראות את המסמכים שתויגו אוטומטית.כדי להשתמש בתוויות המוצעות, מעבירים את הסמן מעל כל
הערה ובוחרים בסימן הווי כדי לאשר שהתווית נכונה. למטרות אימון, אל תשנו את הערכים אם הם לא תואמים לטקסט במסמך. משנים את תיבת התוחמת רק אם נבחר טקסט שגוי.כשמסיימים להוסיף הערות למסמך, בוחרים באפשרות
סימון כ'תויג' .חוזרים על הפעולה לכל מסמך עם תווית אוטומטית.
ייבוא מסמכי אימון עם תוויות שהוגדרו מראש
עוברים לדף
Build .לוחצים על
ייבוא מסמכים .בסרגל הצד, בוחרים באפשרות ייבוא מסמכים מ-Cloud Storage.
מזינים את הנתיב בנתיב המקור שמכיל את המסמכים. הבאקט הזה צריך להכיל מסמכים עם תוויות מראש בפורמט Document JSON.
ברשימה פיצול נתונים, בוחרים באפשרות פיצול אוטומטי. המסמכים יפוצלו אוטומטית כך ש-80% מהם יהיו בקבוצת נתונים לאימון ו-20% בקבוצת נתונים לבדיקה. משאירים את התיבה ייבוא עם תיוג אוטומטי לא מסומנת.
לוחצים על ייבוא. הייבוא נמשך כמה דקות.
אופציונלי: הצגה וניהול של מערך נתונים
- בדף Build, אפשר לגשת למסוף
Manage dataset כדי לראות ולערוך את כל המסמכים והתוויות במערך הנתונים.
אימון מעבד מבוסס-מודל בהתאמה אישית
תהליך האימון עשוי להימשך כמה שעות. לפני שמתחילים באימון, חשוב לוודא שהגדרתם את המעבד עם הנתונים והתוויות המתאימים.
למידע על הדרישות של מערך הנתונים, בקטע Train a custom model (אימון מודל בהתאמה אישית), בוחרים באפשרות Create new version (יצירת גרסה חדשה) או באפשרות View full requirements (הצגת הדרישות המלאות). זה לא מודל של AI גנרטיבי. כדי להשתמש במעבד מבוסס-מודל בהתאמה אישית, צריך לפחות 10 מקרים לאימון ו-10 מקרים לבדיקה של כל שדה.
בשדה Version name (שם הגרסה), מזינים שם לגרסה הזו של המעבד, למשל
w2-custom-model.אופציונלי: בוחרים באפשרות הצגת נתונים סטטיסטיים של התוויות כדי לראות מידע על תוויות המסמך. כך תוכלו לקבוע את הכיסוי שלכם. לוחצים על סגירה כדי לחזור להגדרת ההדרכה.
בקטע שיטת אימון המודל, בוחרים באפשרות מבוסס מודל.
לוחצים על התחלת האימון. תהליך האימון נמשך כמה שעות. אפשר לסגור את הדף הזה ולחזור אליו מאוחר יותר.
אופציונלי: בוחרים בכרטיסייה
Deploy & use . בדף הזה אפשר לראות את הגרסאות הזמינות של המעבד ואת סטטוס האימון של הגרסה החדשה.
פריסת גרסת המעבד
אחרי שהאימון מסתיים, לוחצים על הכרטיסייה
פריסה ושימוש .מסמנים את תיבת הסימון שמימין לגרסה שרוצים לפרוס ולוחצים על פריסה.
בתיבת הדו-שיח, בוחרים באפשרות פריסה. הפריסה נמשכת כמה דקות.
אחרי פריסת הגרסה, אפשר להגדיר אותה כ
גרסת ברירת המחדל , או לספק את מזהה הגרסה כשמעבדים מסמכים באמצעות ה-API.
הערכה ובדיקה של המעבד
לוחצים על הכרטיסייה
הערכה כדי לבדוק את גרסת המעבד. בדף הזה אפשר לראות מדדי הערכה, כולל ציון F1, דיוק והחזרה של המסמך המלא ושל תוויות נפרדות. מידע נוסף על הערכה ועל נתונים סטטיסטיים זמין במאמר בנושא evaluate processor.בוחרים את האפשרות
Version (גרסה) ובוחרים את הגרסה שמשתמשת במודל הבסיס.הורידו מסמך שלא היה מעורב בהדרכה או בבדיקה קודמות, כדי שתוכלו להשתמש בו להערכת גרסת המעבד. אם משתמשים בנתונים משלכם, צריך להשתמש במסמך שנועד למטרה הזו.
בוחרים באפשרות
העלאת מסמך בדיקה ובוחרים את המסמך שהורדתם. ייפתח הדף Custom Document Extractor analysis. הפלט במסך מראה עד כמה המסמך חולץ בצורה טובה.בודקים שוב את המסמך באמצעות הגרסה עם מודל שעבר אימון בהתאמה אישית.
שימוש במעבד
יצרתם והכשרתם בהצלחה מעבד לחילוץ מותאם אישית.
אפשר לנהל את הגרסאות של מעבד שעבר אימון בהתאמה אישית בדיוק כמו כל גרסה אחרת של מעבד. מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.
כדי להשתמש ב-Document AI API:
- כדי להשתמש בעיבוד אונליין או בעיבוד באצווה, פועלים לפי דוגמאות הקוד במאמר בנושא שליחת בקשת עיבוד.
- במאמר מכסות ומגבלות מפורט מספר הדפים שנתמכים בעיבוד אונליין ובעיבוד ברצף (batch processing).
- כדי לקבל את הישויות שחולצו מהמעבד, פועלים לפי דוגמת הקוד של כלי החילוץ המותאם אישית שבקטע טיפול בתגובת העיבוד.
הסרת המשאבים
כדי לא לצבור חיובים לחשבון Google Cloud על המשאבים שבהם השתמשתם בדף הזה, פועלים לפי השלבים הבאים:
כדי להימנע מחיובים מיותרים Google Cloud , אפשר להשתמש ב-Google Cloud console כדי למחוק את המעבד והפרויקט אם אין בהם צורך.
אם יצרתם פרויקט חדש כדי ללמוד על Document AI ואתם כבר לא צריכים אותו, אפשר למחוק אותו.
אם השתמשתם בפרויקט קיים Google Cloud , מחקו את המשאבים שיצרתם כדי להימנע מחיובים בחשבון:
בתפריט הניווט במסוף Google Cloud , בוחרים באפשרות Document AI ואז באפשרות My Processors.
בוחרים באפשרות
עוד פעולות באותה שורה של המעבד שרוצים למחוק.בוחרים באפשרות מחיקת מעבד, מזינים את שם המעבד ובוחרים שוב באפשרות מחיקה כדי לאשר.
המאמרים הבאים
פרטים נוספים מופיעים במאמר בנושא מדריכים. מידע נוסף על חילוץ אוטומטי של סכימות למידע על שדרוגים אוטומטיים של גרסאות, אפשר לעיין במאמר