צינור Process-with-Document-AI

הצינור Process-with-Document AI מאפשר למשתמשים לעבד מסמכים קיימים באמצעות מעבד Document AI ולעדכן את מאפייני המסמך עם הישויות שחולצו לאחרונה.

דרישות מוקדמות

לפני שמתחילים, צריך:

  1. מעבד Document AI מוכן באותו פרויקט Google Cloud.

    • אם אין לכם מעבד, תוכלו לפעול לפי השלבים ליצירת מעבד. אתם יכולים ליצור כל סוג, כל עוד סוג המעבד תואם לסוג המסמך.
  2. תיקיות ייעודיות ב-Cloud Storage לאחסון מסמכים מיוצאים ומסמכים שעברו עיבוד.

    • לפני שמפעילים את צינור הנתונים, צריך לוודא שהתיקיות ריקות.
  3. סכימה עם מיפויים בין ישויות של Document AI לבין מאפיינים של Document AI Warehouse.

    • יכול להיות שהישויות החדשות שחולצו לא יומרו בצורה נכונה לישויות של Document AI Warehouse בלי מיפוי כזה.

    • כדי להוסיף מיפויים לסכימה, פועלים לפי ההוראות במאמר הגדרת סכימות עם מיפוי.

הרצת צינור עיבוד הנתונים

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

הרשימה documents היא רשימה של שמות המשאבים של המסמכים שיעובדו. הנתיב לתיקייה ב-Cloud Storage‏ export_folder_path משמש לאחסון המסמכים המיוצאים לפני שהם נשלחים למעבד. מידע נוסף על השדות של גוף הבקשה זמין במאמרי העזרה של ה-API.

הפקודה הזו מחזירה שם משאב של פעולה ממושכת. בעזרת שם המשאב הזה, אפשר לעקוב אחרי התקדמות צינור הנתונים באמצעות השלב הבא.

קבלת תוצאה של פעולה ממושכת

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

השלבים הבאים

כדי לבדוק אם המסמכים עודכנו בהצלחה, עוברים אל ממשק המשתמש של Document AI Warehouse או מתקשרים עם document:get API.