במסמך הזה מוסבר איך לנהל את סכימות המסמכים ב-Document AI Warehouse, כולל פעולות של יצירה, אחזור, רישום, עדכון ומחיקה.
מהן סכימות של מסמכים
כל מסמך הוא מסוג מסוים של מסמך, והוא מוגדר על ידי סכימה.
סכימת מסמך מגדירה את המבנה של סוג מסמך (לדוגמה, חשבונית או תלוש שכר) במאגר Document AI, שבו אדמינים יכולים לציין מאפיינים של סוגי נתונים שונים (טקסט | מספרי | תאריך | מנייה).
המאפיינים משמשים לייצוג הנתונים שחולצו, תגי הסיווג או תגים עסקיים אחרים שנוספו למסמכים על ידי AI או משתמשים אנושיים – לדוגמה, Invoice_Amount (מספרי), Due_Date (תאריך) או Supplier_Name (טקסט).
מאפייני הנכס: כל נכס יכול להיות מוצהר כ
ניתן לסינון – אפשר להשתמש בו כדי לסנן את תוצאות החיפוש
ניתן לחיפוש – נוסף לאינדקס כדי שאפשר יהיה למצוא אותו בשאילתות חיפוש
חובה –
requiredמשמש כדי לוודא שהמאפיין קיים במסמך (מומלץ לשמור את רוב המאפיינים כ-required = false, אלא אם המאפיין נדרש).
סכימה ניתנת להרחבה: במקרים מסוימים, משתמשי קצה עם הרשאת עריכה צריכים להוסיף או למחוק מאפייני סכימה חדשים במסמכים. התמיכה הזו מתבצעת באמצעות 'מאפיין MAP', שהוא רשימה של צמדי מפתח/ערך.
כל צמד מפתח-ערך במאפיין MAP יכול להיות מסוג נתונים (Text | Numeric | Date | Enumeration).
לדוגמה, יכול להיות שהמסמך Invoice יכיל מאפיין Map בשם Invoice_Entities עם צמדי מפתח/ערך הבאים:
סכום_החשבונית (מספרי) 1000
מועד_לתשלום (תאריך) 24 בדצמבר 2021
Supplier_Name (text) ABC Corp
אי אפשרות לשינוי סכימה: שימו לב שאפשר להוסיף סכימה או מאפייני סכימה, אבל אי אפשר לערוך או למחוק אותם בשלב הזה, לכן חשוב להגדיר את הסכימה בקפידה.
לפני שמתחילים
לפני שמתחילים, חשוב לוודא שסיימתם את השלבים במדריך למתחילים.
יצירת סכימה
יוצרים סכימת מסמך.
REST
curl --location --request POST --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--data '{
"display_name": "Test Doc Schema",
"property_definitions": [
{
"name": "plaintiff",
"display_name": "Plaintiff",
"is_searchable": true,
"is_repeatable": true,
"text_type_options": {}
}
]
}'Python
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Python API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Java API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Node.js API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
קבלת סכימה
קבלת פרטים על סכימת מסמך.
REST
curl --request GET --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/{document_schema_id} \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8"Python
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Python API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Java API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Node.js API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
הצגת סכימות
החזרת רשימה של סכימות מסמכים.
REST
curl --request GET --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8"Python
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Python API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Java API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
מחיקת סכימה
מחיקת סכימת מסמך.
REST
curl --request DELETE --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/{document_schema_id} \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8"Python
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Python API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Java API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Node.js API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
עדכון סכימה
עדכון סכימת מסמך. כרגע, לוגיקת העדכון תומכת רק בהוספה של הגדרות מאפיינים חדשות. סכימת המסמך החדשה צריכה לכלול את כל הגדרות הנכסים שקיימות בסכימה הקיימת.
נתמך:
- במאפיינים קיימים, המשתמשים יכולים לשנות את הגדרות המטא-נתונים הבאות:
is_repeatable,is_metadata,is_required. - במאפייני ENUM קיימים, המשתמשים יכולים להוסיף ערכים אפשריים חדשים של ENUM או למחוק ערכים אפשריים קיימים של ENUM. הם יכולים לעדכן את הדגל
EnumTypeOptions.validation_check_disabledכדי להשבית את בדיקת האימות. במהלך קריאה ל-APICreateDocument, מתבצעת בדיקת אימות כדי לוודא שהערכים של ENUM שמצוינים במסמכים נמצאים בטווח הערכים האפשריים של ENUM שמוגדרים בהגדרת הנכס. - יש תמיכה בהוספה של הגדרות מאפיין חדשות.
- במאפיינים קיימים, המשתמשים יכולים לשנות את הגדרות המטא-נתונים הבאות:
לא אפשרי:
- בסכימה קיימת, אסור לעדכן את
display_nameואתdocument_is_folder. - בנכסים קיימים, אסור לעדכן את המאפיינים
name,display_nameו-value_type_options.
- בסכימה קיימת, אסור לעדכן את
REST
curl --request PATCH --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/{document_schema_id} \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8" \
--data '{
"document_schema": {
"display_name": "Test Doc Schema",
"property_definitions": [
{
"name": "plaintiff",
"display_name": "Plaintiff",
"is_repeatable": true,
"text_type_options": {}
}
]
}
}'Python
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Python API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע נוסף מופיע במאמרי העזרה של Document AI Warehouse Java API.
כדי לבצע אימות ב-Document AI Warehouse, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.