רשימת המעבדים

בדף הזה מופיע מידע מפורט על כל המעבדים שמוצעים על ידי Document AI. תוכלו לראות רשימה של כל המעבדים לפי סוג הפתרון.

כל המעבדים של Document AI עומדים בדרישות של תנאי האבטחה ועיבוד הנתונים.

פרטים נוספים מופיעים במאמר בנושא ניהול גרסאות של מעבדים. בנוסף, יש מגבלות ספציפיות על מעבדים, מעבר למכסות ולמגבלות הכוללות של המוצר.

הפיכת טקסט לדיגיטלי

Enterprise Document OCR (זיהוי תווים אופטי)

תיאור

תזהה ותחלץ טקסט בסוגים שונים של מסמכים.

המעבד הזה מאפשר לכם לזהות ולחלץ טקסט, כולל טקסט בכתב יד, ממסמכים ביותר מ-200 שפות. המעבד גם משתמש בלמידת מכונה כדי לבצע הערכת איכות של מסמך על סמך קלות הקריאה של התוכן שלו.

קטגוריה דיגיטציה
פונקציות OCR, Quality Analysis
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API OCR_PROCESSOR
שפות נתמכות
רשימה מלאה של שפות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אפריקאנס af Latn
אלבנית sq Latn
ערבית ar Arab
ארמנית hy Armn
בלארוסית be Cyrl
בנגלית bn Beng
בנגלית bn Beng
בולגרית bg Cyrl
קטלאנית ca Latn
סינית zh Hani
קרואטית hr Latn
צ'כית cs Latn
דנית da Latn
הולנדית nl Latn
אנגלית en Latn
אסטונית et Latn
פיליפינית fil Latn
פינית fi Latn
צרפתית fr Latn
גרמנית de Latn
יוונית el Grek
גוג'ארטי gu Gujr
עברית iw Hebr
הינדית hi Deva
הונגרית hu Latn
איסלנדית is Latn
אינדונזית id Latn
איטלקית it Latn
יפנית ja Jpan
קנאדה kn Knda
חמר km Khmr
קוריאנית ko Kore
לאו lo Laoo
לטבית lv Latn
ליטאית lt Latn
מקדונית mk Cyrl
מלאית ms Latn
מלאיאלאם ml Mlym
מראטהית mr Deva
נפאלית ne Deva
נורווגית no Latn
פרסית fa Arab
פולנית pl Latn
פורטוגזית (פורטוגל וברזיל) pt Latn
פנג'אבית pa Guru
רומנית ro Latn
רוסית ru Cyrl
סרבית sr Cyrl
סלובקית sk Latn
סלובנית sl Latn
ספרדית es Latn
שוודית sv Latn
טגלוג tl Latn
טמילית ta Taml
טלוגו te Telu
תאית th Thai
טורקית tr Latn
אוקראינית uk Cyrl
וייטנאמית vi Latn
יידיש yi Hebr
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תיאור
pretrained-ocr-v1.2-2022-11-10 יציב GA גרסה קפואה של מודל v1.0: קבצים, הגדרות וקובצי הפעלה של מודל, שהם תמונת מצב של גרסה קפואה בקובץ אימג' של קונטיינר למשך עד 18 חודשים.
pretrained-ocr-v2.0-2023-06-02 יציב GA מודל מוכן לייצור שמתמחה בתרחישי שימוש במסמכים. כולל גישה לכל תוספי ה-OCR.
pretrained-ocr-v2.1-2024-08-07 יציב GA השיפורים העיקריים בגרסה 2.1 הם: זיהוי טוב יותר של טקסט מודפס, זיהוי מדויק יותר של תיבות סימון וסדר קריאה מדויק יותר.
pretrained-ocr-v2.1.1-2025-01-31 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסה v2.1.1 דומה לגרסה V2.1, והיא זמינה בכל האזורים חוץ מאלה: US, EU ו-asia-southeast1.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות): 500
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
מידע נוסף Enterprise Document OCR

חילוץ ישויות ממסמכים

במערכי הנתונים לדוגמה יש דוגמאות למערכי נתונים מתויגים ולא מתויגים שאפשר להשתמש בהם לאימון.

חילוץ מותאם אישית

תיאור

אפשר לחלץ שדות ממסמכים באמצעות AI גנרטיבי או מודלים בהתאמה אישית, ולבצע כוונון עדין של מודלים כדי לחלץ נתונים מהמסמכים בצורה מדויקת.

קטגוריה חילוץ
פונקציות OCR, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API CUSTOM_EXTRACTION_PROCESSOR
הערות
  • אם משתמשים ב-AI גנרטיבי לחילוץ, אז:

    • כרגע יש תמיכה רשמית רק בשפה האנגלית.
    • הזמינות באזור מפורטת בUS, בEU, בnorthamerica-northeast1 ובasia-southeast1.

שפות נתמכות
רשימה מלאה של שפות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אפריקאנס af Latn
ערבית ar Arab
אזרית az Latn
אזרית (קירילית) az-Cyrl Cyrl
בלארוסית be Cyrl
בולגרית bg Cyrl
בוסנית bs Latn
קטלאנית ca Latn
סבואנו ceb Latn
צ'כית cs Latn
וולשית cy Latn
דנית da Latn
גרמנית de Latn
יוונית el Grek
אנגלית en Latn
אספרנטו eo Latn
ספרדית es Latn
אסטונית et Latn
בסקית eu Latn
פרסית fa Arab
פינית fi Latn
פיליפינית fil Latn
צרפתית fr Latn
אירית ga Latn
גליציאנית gl Latn
הינדית hi Deva
קרואטית hr Latn
קריאולית של האיטי ht Latn
הונגרית hu Latn
אינדונזית id Latn
איסלנדית is Latn
איטלקית it Latn
עברית iw Hebr
יפנית ja Jpan
ג'אווה jv Latn
קזחית kk Cyrl
קוריאנית ko Kore
קירגיזית ky Cyrl
לטינית la Latn
ליטאית lt Latn
לטבית lv Latn
מקדונית mk Cyrl
מונגולית mn Cyrl
מראטהית mr Deva
מלאית ms Latn
מלטית mt Latn
נפאלית ne Deva
הולנדית nl Latn
נורווגית no Latn
פולנית pl Latn
פשטו ps Arab
פורטוגזית (פורטוגל וברזיל) pt Latn
רומנית ro Latn
רוסית ru Cyrl
רוסית (Petrine Orthography) ru-PETR1708 Cyrl
סנסקריט sa Deva
סלובקית sk Latn
סלובנית sl Latn
אלבנית sq Latn
סרבית sr Cyrl
שוודית sv Latn
סווהילי sw Latn
טגלוג tl Latn
טורקית tr Latn
אוקראינית uk Cyrl
אורדו ur Arab
אוזבקית uz Latn
אוזבקית (קירילית) uz-Cyrl Cyrl
וייטנאמית vi Latn
יידיש yi Hebr
סינית פשוטה zh-Hans Hani
סינית מסורתית zh-Hant Hani
זולו zu Latn
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תיאור
pretrained-foundation-model-v1.5-2025-05-05 יציב GA מועמד מוכן לייצור שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. מומלץ למי שרוצה להתנסות במודלים חדשים יותר.
pretrained-foundation-model-v1.5-pro-2025-06-20 יציב GA מודל מוכן לייצור שמבוסס על Gemini 2.5 Pro LLM. תומך במכסה של עד 30 דפים בדקה לבקשות של תהליכים אונליין. האיכות של המודל הזה גבוהה יותר בהשוואה לגרסה 1.5, ויכול להיות שזמן האחזור שלו ארוך יותר.
pretrained-foundation-model-v1.5.1-2025-08-07 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית מודל בגרסת טרום-השקה (Preview) לציבור הרחב שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. למודל הזה יש את אותן תכונות כמו לגרסה 1.5, והוא כולל שיפורים בלמידה דינמית עם מעט דוגמאות.
pretrained-foundation-model-v1.6-pro-2025-12-01 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית מודל בגרסת טרום-השקה שמבוסס על מודל שפה גדול (LLM) של Gemini 3 Pro.
pretrained-foundation-model-v1.6-2026-01-13 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית מודל בגרסת טרום-השקה שמבוסס על Gemini 3 Flash LLM.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות): 200
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
סוגי נתונים מנורמלים

מידע נוסף זמין בדפים העשרה ונרמול ויצירת מערך נתונים.

רשימה מלאה של סוגי נתונים שעברו נרמול
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
מידע נוסף חילוץ מותאם אישית

מנתח טפסים

תיאור

חילוץ של צמדי מפתח/ערך כלליים (ישות ותיבת סימון), טבלאות וישויות גנריות ממסמכים, בנוסף לטקסט OCR.

מעבד הנתונים הזה משתמש בטכנולוגיות מתקדמות של למידת מכונה כדי לחלץ זוגות של מפתח וערך, תיבות סימון וטבלאות ממסמכים ביותר מ-200 שפות. המעבד הזה משתמש גם במודלים של למידה עמוקה כדי לחלץ 11 ישויות גנריות שמשותפות לסוגים שונים של מסמכים.

קטגוריה חילוץ
פונקציות OCR, Form Parsing, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API FORM_PARSER_PROCESSOR
שפות נתמכות
רשימה מלאה של שפות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אפריקאנס af Latn
אלבנית sq Latn
ערבית ar Arab
בלארוסית be Cyrl
קטלאנית ca Latn
סינית zh Hani
קרואטית hr Latn
צ'כית cs Latn
דנית da Latn
הולנדית nl Latn
אנגלית en Latn
אסטונית et Latn
פיליפינית fil Latn
פינית fi Latn
צרפתית fr Latn
גרמנית de Latn
עברית iw Hebr
הינדית hi Deva
הונגרית hu Latn
איסלנדית is Latn
אינדונזית id Latn
איטלקית it Latn
יפנית ja Jpan
קוריאנית ko Kore
לטבית lv Latn
ליטאית lt Latn
מקדונית mk Cyrl
מלאית ms Latn
מראטהית mr Deva
נפאלית ne Deva
נורווגית no Latn
פרסית fa Arab
פולנית pl Latn
פורטוגזית (פורטוגל וברזיל) pt Latn
רומנית ro Latn
רוסית ru Cyrl
סרבית sr Cyrl
סלובקית sk Latn
סלובנית sl Latn
ספרדית es Latn
שוודית sv Latn
טגלוג tl Latn
טורקית tr Latn
אוקראינית uk Cyrl
וייטנאמית vi Latn
יידיש yi Hebr
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה זוהו שדות נוספים תיאור
pretrained-form-parser-v1.0-2020-09-23 יציב GA

ללא

גרסה מדור קודם. כדי ליהנות מהאיכות הכי טובה ומכל התכונות, מומלץ להשתמש ב-Form Parser v2.0.
pretrained-form-parser-v2.0-2022-11-10 יציב GA
הצגת שדות
  • email
  • phone
  • url
  • date_time
  • address
  • person
  • organization
  • quantity
  • price
  • id
  • page_number
הגרסה המומלצת. הוא תומך בישויות גנריות וכולל מודל משודרג של טבלה, KVP ותיבת סימון, וגם יותר מ-200 שפות.
pretrained-form-parser-v2.1-2023-06-26 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית

ללא

גרסת Public Preview. אותו מודל כמו בגרסה 2.0, עם הפעלה של חילוץ טקסט מקורי מקובצי PDF דיגיטליים.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות): 100
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
מידע נוסף מנתח טפסים

כלי לניתוח פריסות

תיאור

מחלק את התוכן של המסמך (טקסט, טבלאות ורשימות) לחלקים קטנים בהתאם להקשר.

הכלי Layout Parser מחלץ אלמנטים של תוכן ממסמכים, כמו טקסט, טבלאות ורשימות, ויוצר נתחים מודעים-הקשר שמקלים על אחזור מידע בבינה מלאכותית גנרטיבית ובאפליקציות לחיפוש.

קטגוריה חילוץ
פונקציות ניתוח פריסה, חלוקת מסמכים לחלקים
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API LAYOUT_PARSER_PROCESSOR
הערות
  • הכלי הזה תומך בקובצי PDF,‏ HTML,‏ DOCX,‏ PPTX ו-XLSX/XLSM.
שפות נתמכות
רשימה מלאה של שפות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אפריקאנס af Latn
אלבנית sq Latn
ערבית ar Arab
ארמנית hy Armn
בלארוסית be Cyrl
בנגלית bn Beng
בנגלית bn Beng
בולגרית bg Cyrl
קטלאנית ca Latn
סינית zh Hani
קרואטית hr Latn
צ'כית cs Latn
דנית da Latn
הולנדית nl Latn
אנגלית en Latn
אסטונית et Latn
פיליפינית fil Latn
פינית fi Latn
צרפתית fr Latn
גרמנית de Latn
יוונית el Grek
גוג'ארטי gu Gujr
עברית iw Hebr
הינדית hi Deva
הונגרית hu Latn
איסלנדית is Latn
אינדונזית id Latn
איטלקית it Latn
יפנית ja Jpan
קנאדה kn Knda
חמר km Khmr
קוריאנית ko Kore
לאו lo Laoo
לטבית lv Latn
ליטאית lt Latn
מקדונית mk Cyrl
מלאית ms Latn
מלאיאלאם ml Mlym
מראטהית mr Deva
נפאלית ne Deva
נורווגית no Latn
פרסית fa Arab
פולנית pl Latn
פורטוגזית (פורטוגל וברזיל) pt Latn
פנג'אבית pa Guru
רומנית ro Latn
רוסית ru Cyrl
סרבית sr Cyrl
סלובקית sk Latn
סלובנית sl Latn
ספרדית es Latn
שוודית sv Latn
טגלוג tl Latn
טמילית ta Taml
טלוגו te Telu
תאית th Thai
טורקית tr Latn
אוקראינית uk Cyrl
וייטנאמית vi Latn
יידיש yi Hebr
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תיאור
pretrained-layout-parser-v1.0-2024-06-03 יציב GA גרסה זמינה לכלל המשתמשים לניתוח פריסת מסמכים. זוהי גרסת המעבד שאומנה מראש ומוגדרת כברירת מחדל.
pretrained-layout-parser-v1.5-2025-08-25 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסת טרום-השקה (Preview) שמבוססת על מודל Gemini 2.5 Flash LLM לניתוח טוב יותר של פריסות בקובצי PDF. מומלץ למי שרוצה להתנסות בגרסאות חדשות.
pretrained-layout-parser-v1.5-pro-2025-08-25 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסת טרום-השקה שמבוססת על מודל שפה גדול (LLM) של Gemini 2.5 Pro לניתוח טוב יותר של פריסות בקובצי PDF. זמן האחזור בגרסה ‎1.5-pro גבוה יותר מאשר בגרסה 1.5.
pretrained-layout-parser-v1.6-pro-2025-12-01 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסת טרום-השקה (Preview) שמבוססת על מודל שפה גדול (LLM) של Gemini 3.0 Pro.
pretrained-layout-parser-v1.6-2026-01-13 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסת טרום-השקה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.0 Flash.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות): 500
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • eu
  • us
מידע נוסף Layout Parser

עיון במעבדים שאומנו מראש

מנתח דפי חשבון בנק

תיאור

חילוץ מדפי חשבון בנק, כולל שם, חשבון, עסקאות וכו'.

קטגוריה מאומן מראש
פונקציות OCR, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API BANK_STATEMENT_PROCESSOR
הערות
  • אם דף בקובץ קלט מרובה דפים הוא מסוג המסמך הנכון ואחת מהגרסאות הנתמכות, המעבד מבצע חילוץ ישויות במסמך הנתמך הראשון. אם המעבד לא מוצא קבצים רלוונטיים בקובץ הקלט, הוא מחזיר הודעת שגיאה.
שפות נתמכות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אנגלית en Latn
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תיאור
pretrained-bankstatement-v1.0-2021-08-08 יציב GA
pretrained-bankstatement-v1.1-2021-08-13 יציב GA
pretrained-bankstatement-v2.0-2021-12-10 יציב GA
pretrained-bankstatement-v3.0-2022-05-16 יציב GA בגרסה הזו מניחים שקובץ הקלט מכיל דף חשבון בנק יחיד. בניגוד לגרסת ברירת המחדל, הגרסה הזו לא בודקת אם קובץ הקלט מכיל דפי חשבון בנק, ולא תחזיר שגיאה אם לא יימצאו דפי חשבון בנק.
pretrained-bankstatement-v4.0-2023-07-31 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית
pretrained-bankstatement-v5.0-2023-12-06 יציב GA

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות): 30
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות
  • account_number
  • account_type
  • bank_address
  • bank_name
  • client_address
  • client_name
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item
    • table_item/transaction_deposit
    • table_item/transaction_deposit_date
    • table_item/transaction_deposit_description
    • table_item/transaction_withdrawal
    • table_item/transaction_withdrawal_date
    • table_item/transaction_withdrawal_description
שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים
  • bank_address
  • bank_name
שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date
Uptraining
הוראות לגבי תוויות פתיחה בחלון חדש
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • eu
  • us

W2 Parser

תיאור

תמצית מתוך טופס W2, כולל פרטי העובד, המעסיק, השכר וכו'.

קטגוריה מאומן מראש
פונקציות OCR, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API FORM_W2_PROCESSOR
הערות
  • אם דף בקובץ קלט מרובה דפים הוא מסוג המסמך הנכון ואחת מהגרסאות הנתמכות, המעבד מבצע חילוץ ישויות במסמך הנתמך הראשון. אם המעבד לא מוצא קבצים רלוונטיים בקובץ הקלט, הוא מחזיר הודעת שגיאה.
שפות נתמכות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אנגלית en Latn
גרסאות נתמכות
  • ‫2020 (גרסאות רגילות ומותאמות אישית)
  • ‫2019 (גרסאות רגילות ומותאמות אישית)
  • ‫2018 (גרסאות רגילות וגרסאות בהתאמה אישית)
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה זוהו שדות נוספים תיאור
pretrained-w2-v1.0-2020-10-01 יציב GA

ללא

pretrained-w2-v1.1-2022-01-27 יציב GA

ללא

pretrained-w2-v1.2-2022-01-28 יציב GA
הצגת שדות
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress
  • EmployeeName
  • EmployerNameAndAddress
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalityName_Line1
  • LocalWagesTipsEtc_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • SSN
  • State_Line1
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • WagesTipsOtherCompensation

שיפורים באיכות ותמיכה בשדות חדשים. לא כולל מפצל.

pretrained-w2-v2.0-2022-03-30 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית
הצגת שדות
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress_AdditionalStreetAddressOrPostalBox
  • EmployeeAddress_City
  • EmployeeAddress_State
  • EmployeeAddress_StreetAddressOrPostalBox
  • EmployeeAddress_Zip
  • EmployeeName_FirstName
  • EmployeeName_LastName
  • EmployeeName_MiddleNameOrInitial
  • EmployerAddress_AdditionalStreetAddressOrPostalBox
  • EmployerAddress_City
  • EmployerAddress_State
  • EmployerAddress_StreetAddressOrPostalBox
  • EmployerAddress_Zip
  • EmployerName
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalWagesTipsEtc_Line1
  • LocalityName_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • State_Line1
  • WagesTipsOtherCompensation
  • a_Code
  • a_Value
  • b_Code
  • b_Value
  • c_Code
  • c_Value
  • d_Code
  • d_Value

שיפורים באיכות ותמיכה בשדות של תיבה 12 ובתחזיות מפורטות של EmployeeName, EmployeeAddress ו-EmployerNameAndAddress. כל אלה כבר לא חלק מהפלט והוחלפו בשדות נוספים.

pretrained-w2-v2.1-2022-06-08 יציב GA
הצגת שדות
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress_AdditionalStreetAddressOrPostalBox
  • EmployeeAddress_City
  • EmployeeAddress_State
  • EmployeeAddress_StreetAddressOrPostalBox
  • EmployeeAddress_Zip
  • EmployeeName_FirstName
  • EmployeeName_LastName
  • EmployeeName_MiddleNameOrInitial
  • EmployeeName_Suffix
  • EmployerAddress_AdditionalStreetAddressOrPostalBox
  • EmployerAddress_City
  • EmployerAddress_State
  • EmployerAddress_StreetAddressOrPostalBox
  • EmployerAddress_Zip
  • EmployerName
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalWagesTipsEtc_Line1
  • LocalityName_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • State_Line1
  • WagesTipsOtherCompensation
  • a_Code
  • a_Value
  • b_Code
  • b_Value
  • c_Code
  • c_Value
  • d_Code
  • d_Value

בדומה לגרסה pretrained-w2-v2.0-2022-03-30, עם שיפורים נוספים באיכות והוספה של ישות נוספת EmployeeName_Suffix.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות): 15
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 15
שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות
  • ControlNumber
  • EIN
  • EmployeeAddress
  • EmployeeName
  • EmployerNameAndAddress
  • FederalIncomeTaxWithheld
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityWages
  • WagesTipsOtherCompensation
שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים
  • EmployerNameAndAddress
  • EIN
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • eu
  • us

כלי לניתוח הוכחות של תעודות מזהות

תיאור

חיזוי התוקף של מסמכים מזהים באמצעות כמה אותות.

מעבד אימות מסמכי הזהות נועד לעזור לחזות את התוקף של מסמכי זהות באמצעות ארבעה אותות שונים.

בשלב הזה, המעבד מחזיר מידע מהאותות הבאים:

  • זיהוי fraud_signals_is_identity_document: חיזוי אם תמונה מכילה תעודה מזהה מוכרת.
  • fraud_signals_suspicious_words זיהוי: חיזוי אם יש מילים שלא אופייניות למזהים.
  • זיהוי fraud_signals_image_manipulation: חיזוי אם התמונה שונתה או זויפה באמצעות כלי לעריכת תמונות.
  • fraud_signals_online_duplicate detection: חיזוי אם אפשר למצוא את התמונה באינטרנט (בארה"ב בלבד).

קטגוריה מאומן מראש
פונקציות OCR, Quality Analysis
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API ID_PROOFING_PROCESSOR
הערות
  • התכונה 'זיהוי כפילויות באינטרנט' מעובדת כרגע במרכזי נתונים בארה"ב. התכונה הזו לא זמינה מחוץ לארה"ב, ולכן אין תמיכה אזורית או רב-אזורית.
  • המעבד הזה נתמך על ידי אלגוריתמים שמתעדכנים בתדירות גבוהה יותר מהתדירות שבה יוצאות גרסאות חדשות של המעבד. לכן, יכול להיות שהמעבד יחזיר פלט שונה לאורך זמן, גם אם משתמשים באותה גרסת מעבד. לדוגמה, המערכת לזיהוי כפילויות באינטרנט עוקבת אחרי תמונות שמופיעות באינטרנט. ההתנהגות של המערכת יכולה להשתנות מהר יותר ממה שאפשר לעקוב אחריו בגרסאות המעבד.
  • אפשר לעיין בהערות בנושא אתיקה של בינה מלאכותית[†] ובנושא בדיקה על ידי אדם.[‡]
שפות נתמכות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אנגלית en Latn
גרסאות נתמכות
  • תמיכה בדרכונים, בכרטיסי דרכון וברישיונות נהיגה בארה"ב.
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה זוהו שדות נוספים תיאור
pretrained-id-proofing-v1.0-2022-10-03 יציב GA

ללא

pretrained-id-proofing-v1.1-2023-05-18 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית
הצגת שדות
  • fraud_signals_photocopy_detection

אות נוסף לזיהוי צילום

pretrained-id-proofing-v1.2-2023-10-04 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית
הצגת שדות
  • fraud_signals_photocopy_detection

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 2
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות): 2
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 2
שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words
  • evidence_suspicious_word
  • evidence_inconclusive_suspicious_word
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_photocopy_detection
  • evidence_hostname (US only)
  • evidence_thumbnail_url (US only)
שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • eu
  • us

מנתח של תלושי שכר

תיאור

מידע שמופק מתלושי שכר, כולל שם, עסק, סכומים וכו'.

קטגוריה מאומן מראש
פונקציות OCR, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API PAYSTUB_PROCESSOR
הערות
  • אם מסמך הקלט הרב-דפי מכיל יותר מתלוש שכר תקף אחד, המעבד מחלץ ישויות רק מתלוש השכר התקף הראשון. אם לא נמצאו תלושי שכר בקובץ הקלט, המעבד יחזיר הודעת שגיאה.
שפות נתמכות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אנגלית en Latn
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה זוהו שדות נוספים תיאור
pretrained-paystub-v1.0-2021-03-19 יציב GA

ללא

pretrained-paystub-v1.1-2021-08-13 יציב GA
הצגת שדות
  • net_pay
  • net_pay_ytd
  • employee_account_number
שיפור האיכות ותמיכה בשדות חדשים.
pretrained-paystub-v1.2-2021-12-10 יציב GA

ללא

pretrained-paystub-v2.0-2022-05-17 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית
הצגת שדות
  • deduction_item
  • deduction_item/deduction_type
  • deduction_item/deduction_this_period
  • deduction_item/deduction_ytd
  • direct_deposit_item
  • direct_deposit_item/direct_deposit
  • direct_deposit_item/employee_account_number
  • earning_item
  • earning_item/earning_type
  • earning_item/earning_rate
  • earning_item/earning_hours
  • earning_item/earning_this_period
  • earning_item/earning_ytd
  • page_number
  • tax_item
  • tax_item/tax_type
  • tax_item/tax_this_period
  • tax_item/tax_ytd
  • federal_additional_tax
  • federal_allowance
  • federal_marital_status
  • state_additional_tax
  • state_allowance
  • state_marital_status

בגרסה הזו מניחים שקובץ הקלט מכיל תלוש שכר אחד. בניגוד לגרסת ברירת המחדל, הגרסה הזו לא בודקת אם קובץ הקלט מכיל תלושי שכר, ולא תחזיר שגיאה אם לא יימצאו תלושי שכר.

שיפור האיכות, תמיכה בשדות חדשים וסכימה חדשה. השדות Bonus, ‏ Commissions, ‏ Holiday, ‏ Overtime, ‏ Regular Pay ו-Vacation הם עכשיו חלק מהשדה earning_item/earning_this_period, והגרסאות שלהם מתחילת השנה מופיעות בשדה earning_item/earning_ytd. השדות Direct Deposit (הפקדה ישירה) ו-Employee Account Number (מספר חשבון העובד) מוצבים עכשיו בתוך השדה direct_deposit_item.

המגבלה על דפים אסינכרוניים היא 10.

pretrained-paystub-v2.0-2022-07-22 יציב GA

ללא

שיפורים באיכות ובאימון מחדש.

pretrained-paystub-v3.0-2023-12-06 יציב GA

ללא

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות): 50
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • employee_account_number (Added in "pretrained-paystub-v1.1-2021-08-13")
  • employee_address
  • employee_name
  • employer_address
  • employer_name
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay (Added in "pretrained-paystub-v1.1-2021-08-13")
  • net_pay_ytd (Added in "pretrained-paystub-v1.1-2021-08-13")
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • ssn
  • start_date
  • vacation
  • vacation_ytd
שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים
  • employer_address
  • employer_name
שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd
Uptraining
הוראות לגבי תוויות פתיחה בחלון חדש
אזורים נתמכים
  • eu
  • us

כלי לניתוח רישיונות נהיגה בארה"ב

תיאור

לחלץ שדות כמו שמות, מספר מסמך, תאריך לידה וכו'.

קטגוריה מאומן מראש
פונקציות OCR, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API US_DRIVER_LICENSE_PROCESSOR
שפות נתמכות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אנגלית en Latn
גרסאות נתמכות
  • תמיכה בכל 50 המדינות בארה"ב ובמחוז קולומביה
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תיאור
pretrained-us-driver-license-v1.0-2021-06-14 יציב GA

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 2
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות): 2
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 2
שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות
  • Family Name
  • Given Names
  • Document Id
  • Expiration Date
  • Date Of Birth
  • Issue Date
  • Address
  • Portrait
שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול
  • Date Of Birth
  • Expiration Date
  • Issue Date
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • eu
  • us

מנתח הוצאות

תיאור

לחלץ טקסט וערכים ממסמכי הוצאות, כמו תאריך ההוצאה, שם הספק, הסכום הכולל והמטבע.

קטגוריה מאומן מראש
פונקציות OCR, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API EXPENSE_PROCESSOR
שפות נתמכות
רשימה מלאה של שפות
שם השפה תג BCP 47 Script תמיכה בכתב יד
גרמנית de Latn
אנגלית en Latn
ספרדית es Latn
צרפתית fr Latn
יפנית ja Jpan
הולנדית nl Latn
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה זוהו שדות נוספים תמיכה בשפות נוספות תיאור
pretrained-expense-v1.1-2021-04-09 יציב GA

ללא

ללא

גרסה שעברה כוונון עדין של מעבד v1.0. הושק באפריל 2021.
pretrained-expense-v1.3.2-2024-09-11 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית
הצגת שדות
  • credit_card_last_four_digits
  • line_item/quantity
  • payment_type
  • ja: יפנית
שדרוג מדויק לגרסה 1.3 עם מודל ראייה בסיסי משופר.
pretrained-expense-v1.4-2022-11-18 יציב GA
הצגת שדות
  • traveler_name
  • reservation_id
  • line_item/transaction_date
  • ja: יפנית
  • it: איטלקית
  • pt: פורטוגזית (פורטוגל וברזיל)
שיפורים בביצועים ותמיכה בהדרכה נוספת. הגדלנו את המגבלה של מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות) ל-15.
pretrained-expense-v1.4.2-2024-09-12 יציב GA
הצגת שדות
  • traveler_name
  • reservation_id
  • line_item/transaction_date
  • ja: יפנית
  • it: איטלקית
  • pt: פורטוגזית (פורטוגל וברזיל)
שדרוג לגרסה 1.4 עם מודל ראייה משופר.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 10
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות): 10
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 10
שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות
  • credit_card_last_four_digits
  • currency
  • end_date
  • net_amount
  • payment_type
  • purchase_time
  • receipt_date
  • start_date
  • supplier_address
  • supplier_city
  • supplier_name
  • tip_amount
  • total_amount
  • total_tax_amount
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/product_code
שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים
  • supplier_address
  • supplier_name
  • supplier_phone
שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount
Uptraining
הוראות לגבי תוויות פתיחה בחלון חדש
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • asia-southeast1
  • australia-southeast1
  • eu
  • northamerica-northeast1
  • us

כלי לניתוח חשבוניות

תיאור

לחלץ טקסט וערכים מחשבוניות, כמו מספר חשבונית, שם הספק, סכום החשבונית, סכום המס, תאריך החשבונית והתאריך האחרון לתשלום.

כלי הניתוח של חשבוניות מחלץ שדות של כותרות ופריטים, כמו מספר חשבונית, שם הספק, סכום החשבונית, סכום המס, תאריך החשבונית, תאריך היעד וסכומי הפריטים.

קטגוריה מאומן מראש
פונקציות OCR, Entity Extraction
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API INVOICE_PROCESSOR
שפות נתמכות
רשימה מלאה של שפות
שם השפה תג BCP 47 Script תמיכה בכתב יד
גרמנית de Latn
אנגלית en Latn
ספרדית es Latn
אסטונית et Latn
צרפתית fr Latn
איטלקית it Latn
לטבית lv Latn
ליטאית lt Latn
הולנדית nl Latn
פורטוגזית (פורטוגל וברזיל) pt Latn
רומנית ro Latn
שוודית sv Latn
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תמיכה בשפות נוספות תיאור
pretrained-invoice-v1.1-2021-04-09 יציב GA

ללא

pretrained-invoice-v1.2-2022-02-18 יציב GA

ללא

הוצאה משימוש מתוכננת בקרוב.
pretrained-invoice-v1.3-2022-07-15 יציב GA
  • it: איטלקית
  • pt: פורטוגזית (פורטוגל וברזיל)
  • ro: רומנית
  • sv: שוודית
  • et: אסטונית
  • lv: לטבית
  • lt: ליטאית
גרסת מעבד שאפשר לאמן מחדש. המספר המקסימלי של דפים (בקשות אונליין/סינכרוניות) הוגדל ל-15.
pretrained-invoice-v1.4-2022-10-21 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית

ללא

גרסת מעבד שאפשר לאמן מחדש. המספר המקסימלי של דפים (בקשות אונליין/סינכרוניות) הוגדל ל-15.
pretrained-invoice-v1.5-2023-09-15 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית

ללא

pretrained-invoice-v2.0-2023-12-06 יציב GA

ללא

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות): 200
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות
  • amount_paid_since_last_invoice
  • carrier
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • invoice_id
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/product_code
    • line_item/purchase_order
    • line_item/quantity
    • line_item/unit
    • line_item/unit_price
  • net_amount
  • payment_terms
  • purchase_order
  • receiver_address
  • receiver_email
  • receiver_name
  • receiver_phone
  • receiver_tax_id
  • receiver_website
  • remit_to_address
  • remit_to_name
  • ship_from_address
  • ship_from_name
  • ship_to_address
  • ship_to_name
  • supplier_address
  • supplier_email
  • supplier_iban
  • supplier_name
  • supplier_payment_ref
  • supplier_phone
  • supplier_registration
  • supplier_tax_id
  • supplier_website
  • total_amount
  • total_tax_amount
  • vat
    • vat/amount
    • vat/category_code
    • vat/tax_amount
    • vat/tax_rate
שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים
  • supplier_address
  • supplier_name
  • supplier_phone
שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate
Uptraining
הוראות לגבי תוויות פתיחה בחלון חדש
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • northamerica-northeast1
  • us

סיווג מסמכים

מסווג תוכן מותאם אישית

תיאור

לאמן מודל לסיווג סוג מסמך מתוך קבוצה של כיתות.

קטגוריה סיווג
פונקציות OCR, סיווג
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API CUSTOM_CLASSIFICATION_PROCESSOR
שפות נתמכות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אנגלית en Latn
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תיאור
pretrained-classifier-v1.5-2025-08-05 יציב GA מודל מוכן לייצור שמבוסס על מודל שפה גדול (LLM) Gemini 2.5 Flash. כולל גם תכונות OCR מתקדמות. אפשר להשתמש במודל הזה שעבר אימון מראש בלי לבצע אימון מוקדם. הוא תומך בסיווג ללא דוגמאות ומספק תמיכה טובה יותר לסיווג כללי.
pretrained-classifier-v1.6-2026-03-09 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Flash.
pretrained-classifier-v1.6-pro-2026-03-09 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Pro.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות): 200
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
מידע נוסף יצירת מעבד סיווג בהתאמה אישית

כלי פיצול מותאם אישית

תיאור

אימון מודל לפיצול קובץ שמכיל כמה מסמכים למסמכים בודדים ומסווגים.

קטגוריה סיווג
פונקציות OCR, Classification, Splitting
שלב ההשקה זמינות כללית
סטטוס הגישה גלוי לכולם
הקלדה ב-API CUSTOM_SPLITTING_PROCESSOR
הערות
  • אפשר לתמוך ב-i18n רק באמצעות אפשרויות אימון בהתאמה אישית.
שפות נתמכות
שם השפה תג BCP 47 Script תמיכה בכתב יד
אנגלית en Latn
גרסאות של מעבדים
מזהה גרסה ערוץ הפצה סיווג הגרסה תיאור
pretrained-splitter-v1.5-2025-07-14 יציב GA מודל GA שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. אפשר להשתמש במודל הזה שעבר אימון מראש בלי לבצע אימון מוקדם. היא תומכת בחלוקה לסגמנטים ובסיווג ללא דוגמאות.
pretrained-splitter-v1.6-2026-03-09 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Flash.
pretrained-splitter-v1.6-pro-2026-03-09 גרסה מועמדת להפצה גרסת טרום-השקה ציבורית גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Pro.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות
מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות): 15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות): 1000
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות): 30
Uptraining
קובץ קלט לדוגמה פתיחה בחלון חדש
פלט לדוגמה פתיחה בחלון חדש
אזורים נתמכים
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
מידע נוסף יצירת מעבד מפוצל בהתאמה אישית

הערות שוליים

[†] אימות תעודה מזהה פועל כדי לחלץ ולהעריך מידע ממסמכים מזהים, שמסייע לקבוע אם התמונה שהוזנה מייצגת תעודה מזהה מקורית.

ב- Google Cloud, אנחנו שמים בראש סדר העדיפויות את העזרה ללקוחות בפיתוח ובהטמעה של פתרונות AI בצורה בטוחה, והאימות של הזהות פותח בהתאם לעקרונות ה-AI של Google.

בהתאם לעקרונות ה-AI של Google ולעיצוב המוצר הנוכחי, אנחנו ממליצים מאוד לנקוט משנה זהירות ולהעריך בקפידה את היתרונות והסיכונים הפוטנציאליים של השימוש באימות מסמכי זהות במקרים הבאים:

  • קבלת החלטות ללא מעורבות אנושית לגבי תחזיות שיכולות להשפיע על זכויות אדם.
  • בתחומים רגישים, כולל, בין היתר, תעסוקה, גישה לשירותים ציבוריים, שירותי בריאות והקשרים שקשורים לבטיחות.

[‡] תמיד צריך להשתמש באימות זהות כחלק מתהליך העבודה הרחב יותר לזיהוי זהויות. חשוב שבתהליך העבודה שלכם תהיה בדיקה אנושית כדי לוודא שהאותות החזויים מדויקים. מעבד האימות לא נועד להחליף את הבדיקה האנושית של תעודות מזהות בתהליך עבודה, אלא לסייע לבודקים אנושיים באימות מסמכי זיהוי. אין להשתמש במעבד של אימות הזהות ככלי אוטומטי לקבלת החלטות כדי לקבוע אם תעודה מזהה תקפה. בעזרת בדיקות אנושיות, לקוחות יכולים להשיג רמת דיוק גבוהה יותר בעיבוד מסמכים, ולעזור לעסקים להעריך תחזיות באמצעות כלים ייעודיים שמאפשרים את הבדיקות האלה.

חשוב לעיין בתקנות באזור שבו אתם מטמיעים את הטכנולוגיה הזו, ולחקור את ההנחיות הקיימות בתעשייה כדי לקבל מידע על הנחיות המדיניות ועל בעיות נפוצות שקשורות להוגנות. כדאי לקרוא על הוגנות בלמידת מכונה, כולל דרכים לצמצום הטיה במערכי נתונים לאימון, הערכת המודלים המותאמים אישית שלכם כדי לזהות הבדלים בביצועים ושיקולים נוספים לשימוש במודל המותאם אישית.

אנחנו ממליצים ללקוחות להקפיד על שיטות מומלצות בנושא שימוש הוגן, פרשנות, פרטיות ואבטחה כשמטמיעים אימות זהות. כדי לקבל מידע נוסף על הטמעה של AI אחראי, אפשר לקרוא את ההמלצות של Google לשיטות עבודה אחראיות בתחום ה-AI.

במאמר בבלוג Automate identity document processing with Document AI] מפורט מידע נוסף על תרחישי שימוש ומאגר המקורות של הקוד לדוגמה של קוד אפליקציה.