העלאה בכמות גדולה באמצעות צינור ההעברה של Cloud Storage

במאמר הזה מוסבר איך לבצע העלאה בכמות גדולה, שגורמת להפעלת צינור ההזנה של Cloud Storage ברקע.

אפשרויות לעיבוד מקדים

נכון לעכשיו, ההעלאה בכמות גדולה מספקת שלוש אפשרויות לעיבוד מקדים:

  1. העלאה בכמות גדולה ללא עיבוד מוקדם: הפעולה הזו מפעילה את runPipeline API עם GcsIngestPipeline בלי לעבד את המסמכים באמצעות מעבדים של Document AI.

  2. חילוץ ישויות באמצעות מעבדים של Document AI: הפעולה הזו מפעילה את runPipeline API עם GcsIngestWithDocAiProcessorsPipeline. הצינור יקרא קודם למעבד Document AI שצוין, ואז יטמיע את המסמכים עם התוצאות המעובדות.

  3. סיווג סוגי מסמכים וחילוץ ישויות לכל סוג: הפעולה הזו מפעילה גם את runPipeline API עם GcsIngestWithDocAiProcessorsPipeline, שקודם קורא לסיווג. לאחר מכן, לכל סוג מסמך, אפשר לציין סכימה ומעבד מתאימים לעיבוד של סוגי המסמכים הספציפיים האלה. הם מוזנים עם התוצאות ומוגדרים לסכימה הזו.

כל אחד מסוגי העיבוד המקדים תואם לאחת מהאפשרויות הבאות בממשק המשתמש:

שלב 0

דוגמה: הפעלת העלאה בכמות גדולה באמצעות מעבד OCR

בדוגמה הזו מוצג השימוש השני בצינור העיבוד.

יצירת מעבד OCR וקבלת מזהה המעבד

אם יצרתם בעבר מעבד OCR, פשוט חפשו אותו ברשימת המעבדים, עברו לדף הפרטים של המעבד והעתיקו את מזהה המעבד.

אם לא יצרתם חשבון, אתם צריכים לפעול לפי השלבים הבאים:

  1. בחלק העליון של רשימת המעבדים, לוחצים על גלריית המעבדים:

    שלב 4

  2. מוצאים את מעבד ה-OCR של המסמכים בגלריה, ובחלק התחתון של הכרטיס לוחצים על יצירת מעבד:

    שלב 5

  3. מזינים שם מוצג למעבד:

    שלב 6

  4. לוחצים על יצירה. כשמועברים לדף פרטי מעבד, מאתרים את המזהה:

    Step 7

    זה מה שצריך להעתיק לשדות הקלט בתצוגת ההעלאה בכמות גדולה.

הפעלת העלאה בכמות גדולה

  1. פותחים את התצוגה של העלאה בכמות גדולה.

    לצד הוספת פריט חדש, לוחצים על העלאה בכמות גדולה:

    שלב 1

  2. מאתרים את המעבד הנכון.

    1. בוחרים באפשרות השנייה של עיבוד מקדים.

    2. בוחרים סכימה ומציינים מעבד ונתיב לקטגוריה של Cloud Storage כדי לשמור את תוצאות החילוץ בפורמט JSON.

  3. אפשר למצוא את מזהה המעבד באמצעות הקישור בתיאור:

    שלב 2

  4. הפעלת העלאה:

    1. מעתיקים את מזהה המעבד מהשלב הקודם ומציינים את שדות הקלט. נתיב הדלי של קובץ המקור יכול להיות דלי, תיקייה או תיקיית משנה בדלי.

    2. אם שדות הקלט תקינים, כדי להפעיל העלאה בכמות גדולה, לוחצים על העלאה בפינה השמאלית העליונה.

בדיקת ההתקדמות בדף הסטטוס

אחרי שמפעילים את ההעלאה בכמות גדולה, מועברים לדף מעקב הסטטוס:

שלב 9

בטבלה הראשונה מוצגים מסמכים בהמתנה או מסמכים שעברו עיבוד. אחרי שהמסמך נטען, הוא לא מופיע יותר בטבלה הראשונה. מסמכים שלא הועלו מופיעים בטבלה השנייה. בצד שמאל, הנתונים הסטטיסטיים מראים את מספר המסמכים שהועלו, המסמכים שנכשלו והמסמכים שממתינים לאישור.

שלב 10

אחרי שהעבודה מסתיימת, בדף הסטטוס מוצג שהעבודה הושלמה ב-100% בלי מסמכים בהמתנה:

Step 11

בדיקת המסמכים שהועלו

  1. כדי למצוא את המסמכים החדשים שהועלו, חוזרים לתצוגת החיפוש. לוחצים על הלוגו של Document AI Warehouse או על חיפוש בסרגל הניווט העליון:

    Step 12

  2. פותחים אחד מהמסמכים החדשים שהועלו על ידי לחיצה על שם המסמך. בתצוגת המסמך, אפשר לפתוח את תצוגת ה-AI.

    שלב 13

  3. עוברים לכרטיסייה בלוק טקסט. תוצאות ה-OCR מאוחסנות במסמך:

    שלב 13

השלב הבא

עדכון מסמכים קיימים באמצעות צינור הנתונים extract with Document AI.