סקירה כללית של המושגים
Document AI Warehouse היא פלטפורמה משולבת מבוססת-ענן לאחסון, לחיפוש, לארגון, לניהול ולניתוח של מסמכים ושל המטא-נתונים המובְנים שלהם (שנקראים מאפיינים). מסמכים כוללים מסמכים מובְנים (למשל, טפסים, חשבוניות) ומסמכים לא מובְנים (למשל, חוזים, מאמרי מחקר). המאפיינים שלהם (מטא-נתונים) כוללים נתונים שחולצו ממסמכים באמצעות AI ותגים שהוקצו באופן ידני או באמצעות AI (לדוגמה, מספר חשבון, מזהה הלוואה, סוג מסמך).
יתרונות ותכונות עיקריים
ל-Document AI Warehouse יש כמה יתרונות בהשוואה למאגרי מידע מדור קודם. הנה כמה מהתכונות והיתרונות:
- גישה שמתמקדת בממשקי API: ממשק API משולב יחיד לניהול מסמכים והמאפיינים שלהם (מטא-נתונים שחולצו או שתויגו), שניתן לשלב בתהליכי העבודה ובאפליקציות שלכם.
- ניהול מטא-נתונים: לניהול מטא-נתונים שחולצו ותויגו.
- ניהול: משולב עם IAM וספריות ארגוניות
- אפשר להקצות הרשאות גישה ברמת המסמך והתיקייה למשתמשים ולקבוצות כדי לצפות במסמכים, לערוך אותם ולנהל אותם (לשתף, למחוק).
- Document AI Warehouse משולב עם IAM (Cloud Identity), כך שאפשר להקצות למשתמשים ולקבוצות הרשאות ב-Cloud Identity
- אפשר גם לאחד או לסנכרן משתמשים או קבוצות עם Cloud Identity מספק זהויות או מ-LDAP ארגוני, כמו Azure AD, Active Directory ו-Keycloak.
- חיפוש: המוצר תומך בחיפוש סמנטי עשיר, כולל התכונות הבאות:
- חיפוש טקסט מלא
- סינון תוצאות החיפוש לפי מאפיינים (תאריך, מספרי, enum, טקסט).
אפשר לשלב מסננים עם האופרטורים
ANDו-OR - חיפוש סמנטי – תמיכה במילים נרדפות נפוצות, בשגיאות כתיב ובגזרי מילים. אפשר להשתמש במירכאות (" ") בשאילתה כדי לציין מילות מפתח להתאמה מדויקת
- מילים נרדפות בהתאמה אישית – מונחים ספציפיים לתחום או לחברה, למשל.
- חיפוש בהיררכיה של תיקיית שורש
- אופרטורים למילות מפתח לרשת החיפוש:
""התאמה מדויקת,|or,+and,-exclude
- ארגון: ניהול גמיש של תיקיות
- אפשר לקטלג מסמכים בתיקייה אחת או יותר, על סמך האפליקציה (לדוגמה, תעודת זהות ממוקמת בתיקייה KYC, בתיקייה Loan, בתיקייה Bank Account), בלי לשכפל את המסמך.
- לתיקיות האלה יש מאפיינים משלהן ובקרת גישה משלהן, שאינם תלויים במאפיינים של המסמך ובבקרת הגישה שלו.
- אפשר להשתמש בתיקיות מקוננות בהיררכיה אחת או יותר [לדוגמה, AllLoans->State->Branch->Loans או LoanTypes->Loans].
- המשתמשים יכולים לחפש מסמכים בהיררכיית תיקיות, למשל: חיפוש בתוך AllLoans->State
- ממשק משתמש* – המוצר כולל ממשק משתמש נגיש לאינטרנט עם התכונות הבאות:
- כלי לבדיקת מסמכים: חיפוש מסמכים, סינון תוצאות החיפוש, בחירת מסמכים לעדכון מאפיינים או למחיקה בכמות גדולה
- Doc Viewer: צפייה במסמכים, צפייה במאפיינים או עדכון שלהם,הקצאת ACL, הוספה לתיקיות
- העלאה: העלאת מסמכים והרצתם באמצעות כלי לחילוץ נתונים מ-DocAI** (OCR או מנתח נתונים מיוחד נתמך כמו Invoice DocAI).
- סייר התיקיות: הוספת מסמכים לתיקייה אחת או יותר, בדיקת היררכיית התיקיות.
- ממשק משתמש להטמעה: אפשר לשלב באפליקציות של הלקוחות את הרכיבים Doc Explorer ו-Doc Viewer (ל-PDF)
- מחברים*** למאגרי מידע נפוצים מקומיים ומבוססי-ענן: אנחנו מספקים מחבר Cloud Storage ל-Document AI Warehouse (כתבנית נפרדת שמבוססת על Google Workflows) שאפשר להתאים אישית או להרחיב למאגרי מידע אחרים. אנחנו גם עובדים עם שותפים כדי לספק מחברים מוכנים לשימוש למאגרי מידע כמו Sharepoint, Amazon S3, IBM FileNet ועוד, כדי להטמיע מסמכים ולבצע בהם אינדוקס.
- גמישות בהעברה לעומת איחוד: המוצר תומך בארכיטקטורה גמישה שמאפשרת להעביר את תוכן המסמכים אל Document AI Warehouse או להשאיר אותו במקום אם יש מגבלות על העברת התוכן (אנחנו פשוט מבצעים אינדוקס של התוכן והמטא-נתונים).
- משולב עם תהליכי עבודה של מסמכים – השילוב הזה תומך ב-Google Workflows ובתהליכי עבודה אחרים לעיבוד מסמכים, באמצעות:
- מאפיינים – שמייצגים את מצב המסמך בתהליך העבודה וממשקי API שתהליכי עבודה יכולים להשתמש בהם כדי לעדכן את מצב המסמכים
- ממשק Doc Explorer – כדי לעקוב אחר התקדמות המסמכים בצינור עיבוד נתונים של תהליך עבודה, ולאפשר לאדם לבדוק, לנהל כשלים ולטפל במסמכים תקועים בצינור עיבוד הנתונים של תהליך העבודה.
- התראות מותנות – מסמכים שעומדים בתנאים מסוימים יכולים להפעיל תהליך עבודה או לשלוח התראה לגביו באמצעות נושא Pub/Sub או קריאה ל-API של Web. לדוגמה: טריגר: OnUpdate; תנאי: (DocType=Invoice and TotalAmount>$1000) -> שליחת התראה ב-Pub/Sub
- ניהול מדיניות ואכיפת תאימות: אפשר להשתמש בהתראות מותנות ובהתראות מתוזמנות כדי להפעיל תהליכי עבודה שמבצעים אכיפה של מדיניות (לדוגמה, ניהול רשומות, שמירה וסילוק, הקפאה משפטית) במסמכים ספציפיים ב-Document AI Warehouse.
- קבצים נתמכים – קובצי PDF טקסטואליים, תמונות (קובצי PDF סרוקים, קובצי TIFF, קובצי JPEG), קובצי Office (DOCX, PPTX, XLSX) – מופעל OCR ומתבצעת הוספה לאינדקס.
- הערה – למרות שהמוצר מתמקד במסמכים, הוא משמש גם לניהול תמונות משויכות (למשל, בתחומים כמו ביטוח, הנדסה, בנייה, מחקר וכו').
משולב עם DocAI: Document AI Warehouse משולב עם מעבדי Document AI בכמה רמות:
- עיבוד באמצעות AI ב-Document AI דרך ממשק המשתמש: ממשק המשתמש של Document AI Warehouse מאפשר למשתמשים להעלות קובצי PDF או TIFF סרוקים, או סוגים מיוחדים של מסמכים. המערכת שולפת מהם נתונים באופן אוטומטי באמצעות OCR של Document AI או מעבדי מידע ייעודיים, לפני שהמסמך עובר אינדוקס ב-Document AI Warehouse.
- ניהול צינורות (pipelines) של Document AI לעיבוד קבוצות של מסמכים***: Document AI Warehouse משתלב עם Workflows כדי לספק תבניות לעיבוד צינורות (pipelines) של קבוצות מסמכים באמצעות חילוץ וסיווג של Document AI. הפעולה הזו לא פשוטה כי היא כוללת פעולות ממושכות (LRO) וקריאות אסינכרוניות ל-API שצריך לנהל כדי לטפל בכשלים ובניסיונות חוזרים. תבנית Workflows מתזמרת צינורות כאלה. אפשר להשתמש בממשק המשתמש של Document AI Warehouse כדי לחפש ולעקוב אחרי זרימת המסמכים דרך צינורות כאלה, להציג את הפלט של Document AI לגבי כשלים בכל שלב בצינור ולבצע פעולות לגבי מסמכים תקועים או מסמכים שעיבוד שלהם נכשל.
*ממשק המשתמש נמצא בגרסת Preview וצפוי לעבור לזמינות כללית בקרוב.
**OCR וכלי חילוץ אחרים של מסמכים זמינים במוצרי Document AI, אבל לא נכללים ב-Document AI Warehouse.
***התכונות האלה לא נכללות ב-Document AI Warehouse. התכונות האלה מופעלות על ידי רכיבים וסקריפטים חיצוניים בקוד פתוח, שהלקוחות יכולים לפרוס או להתאים אישית, והן לא מוטמעות ב-Document AI Warehouse.
כתבי ויתור ומגבלות ידועות
מידע נוסף על כתבי ויתור ומגבלות ידועות זמין במאמר כתבי ויתור ומגבלות ידועות
הסברים על המונחים
בהמשך מפורטים מונחים שמשמשים ב-Document AI Warehouse.
| תנאים, מושגים | הגדרה, דוגמאות |
| מסמך | רשומה ב-Document AI Warehouse שמשתמשים יכולים לחפש, לנהל ולאכוף בה בקרת גישה. הוא כולל את המסמך הגולמי ומטא-נתונים שקשורים אליו.
[תמונות שמאוחסנות ב-Document AI Warehouse נקראות גם 'מסמכים'] |
| מסמך גולמי [תוכן] | קובץ התוכן הגולמי (pdf/image/binary/blob) של המסמך. |
| סכימה [סוג המסמך] | כל מסמך הוא מסוג מסוים של מסמך, והוא מוגדר על ידי סכימה. לדוגמה, חשבונית מכילה את הסכימה הבאה: שם הספק, שם המוכר, סכום החשבונית וכו'. |
| נכס [מטא-נתונים] | שדות בסכימת המסמך שאפשר לחלץ מהמסמך או להעשיר (לתייג) על ידי משתמשים. נכון לעכשיו, המטא-נתונים כוללים את הסוגים הבאים: ערכי טקסט חופשי, Enum, מספרי, תאריך, מפה (היררכיית JSON של צמדי מפתח/ערך). אנחנו מתכננים להוסיף תמיכה בערכים בוליאניים, בערכי כסף ובסוגים אחרים בעתיד. |
| כלי חילוץ מסמכים (DocAI ואחרים) | יכול להיות שמסמכים יחולצו על ידי צינור נתונים של AI, כדי שאפשר יהיה להזין את החילוצים ולנהל אותם ב-Document AI Warehouse (כמטא-נתונים) יחד עם המסמך הגולמי. אפשר לבצע את החילוץ באמצעות
|
| תיקיות | תיקייה היא אוסף וירטואלי של מסמכים (וירטואלי כי אותו מסמך יכול להיכלל בתיקייה אחת או יותר). יש לו 'סוג מסמך/סכימה' והוא מכיל מטא-נתונים ורשימות בקרת גישה בדיוק כמו מסמכים.
משתמש צריך הרשאת עריכה בתיקייה והרשאת צפייה במסמך כדי להוסיף מסמך לתיקייה. |
| קישורים | משתמשים בקישורים כדי להוסיף מסמכים לתיקיות או כדי לקשר בין מסמכים קשורים. לקישורים אין 'סוג קישור' |
| מסמכים קשורים | יכול להיות שיהיה קשר בין מסמכים באמצעות קישורים ישירים ממסמך אחד למסמך אחר. |
| הרשאות קישור | כדי להוסיף מסמך לתיקייה, משתמש צריך הרשאת עריכה באובייקט שממנו מקשרים (לדוגמה, תיקייה) והרשאת צפייה באובייקט שמקשרים אליו (לדוגמה, מסמך). |
| מדיניות | מדיניות שמוערכת כשיוצרים או מעדכנים מסמך או תיקייה, ומשמשת לאימות או לעדכון של מטא-נתונים של מסמכים, רשימות ACL או להוספה, להעברה או להסרה של מסמכים מתיקיות. מדיניות כוללת:
|
| מדיניות ההתראות | סוג מיוחד של מדיניות שבו הפעולה היא פרסום הודעה בנושא Pub/Sub כשמתקיים תנאי מסוים. אפליקציות או תהליכי עבודה שצורכים את ההודעה יכולים להפעיל פעולות במסמכים או בחלקים אחרים של תהליך עבודה עסקי. |
| Policy Engine, Policy APIs | מנוע: השרת שמעריך את המדיניות ומבצע פעולות
API: Admin API משמש ליצירה, לעדכון, לקריאה ולמחיקה של מדיניות. |
| חיפוש עם מסננים | היבט הוא מסנן מטא-נתונים שמשמש בשאילתת חיפוש. לדוגמה, אם מחפשים דפי בנק עם המסננים 'חודש = מרץ 2021' ו'מדינה של הסניף = קליפורניה', תוצאות החיפוש יסוננו לפי 2 ההיבטים האלה.
|
| חיפוש סמנטי | חיפוש סמנטי תומך במילים נרדפות או במונחים שקשורים סמנטית בשאילתת החיפוש. לדוגמה, אם מחפשים "רישיון נהיגה", התוצאה תהיה "היתר נהיגה". |
| היסטוגרמה של חיפושים | היסטוגרמה היא תכונה של Search API שמחזירה את ההתפלגות (הספירות) של תוצאות החיפוש לפי מאפיין. לדוגמה, תוצאות החיפוש של 'רישיון נהיגה' מחזירות את ההיסטוגרמה 'קליפורניה 500, נבאדה 150, …' |
| גישה אוניברסלית לעומת בקרת גישה ברמת המסמך | ב-Document AI Warehouse יש שני מצבי גישה לכל פרויקט
|