Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

רשימת המעבדים

בדף הזה מופיע מידע מפורט על כל המעבדים שמוצעים על ידי Document AI. תוכלו לראות רשימה של כל המעבדים לפי סוג הפתרון.

כל המעבדים של Document AI עומדים בדרישות של תנאי האבטחה ועיבוד הנתונים.

פרטים נוספים מופיעים במאמר בנושא ניהול גרסאות של מעבדים. בנוסף, יש מגבלות ספציפיות על מעבדים, מעבר למכסות ולמגבלות הכוללות של המוצר.

הפיכת טקסט לדיגיטלי

Enterprise Document OCR (זיהוי תווים אופטי)

תיאור

תזהה ותחלץ טקסט בסוגים שונים של מסמכים.

המעבד הזה מאפשר לכם לזהות ולחלץ טקסט, כולל טקסט בכתב יד, ממסמכים ביותר מ-200 שפות. המעבד גם משתמש בלמידת מכונה כדי לבצע הערכת איכות של מסמך על סמך קלות הקריאה של התוכן שלו.

קטגוריה דיגיטציה

פונקציות OCR, Quality Analysis

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API OCR_PROCESSOR

שפות נתמכות

רשימה מלאה של שפות

שם השפה	תג BCP 47	Script
אפריקאנס	`af`	`Latn`
אלבנית	`sq`	`Latn`
ערבית	`ar`	`Arab`
ארמנית	`hy`	`Armn`
בלארוסית	`be`	`Cyrl`
בנגלית	`bn`	`Beng`
בנגלית	`bn`	`Beng`
בולגרית	`bg`	`Cyrl`
קטלאנית	`ca`	`Latn`
סינית	`zh`	`Hani`
קרואטית	`hr`	`Latn`
צ'כית	`cs`	`Latn`
דנית	`da`	`Latn`
הולנדית	`nl`	`Latn`
אנגלית	`en`	`Latn`
אסטונית	`et`	`Latn`
פיליפינית	`fil`	`Latn`
פינית	`fi`	`Latn`
צרפתית	`fr`	`Latn`
גרמנית	`de`	`Latn`
יוונית	`el`	`Grek`
גוג'ארטי	`gu`	`Gujr`
עברית	`iw`	`Hebr`
הינדית	`hi`	`Deva`
הונגרית	`hu`	`Latn`
איסלנדית	`is`	`Latn`
אינדונזית	`id`	`Latn`
איטלקית	`it`	`Latn`
יפנית	`ja`	`Jpan`
קנאדה	`kn`	`Knda`
חמר	`km`	`Khmr`
קוריאנית	`ko`	`Kore`
לאו	`lo`	`Laoo`
לטבית	`lv`	`Latn`
ליטאית	`lt`	`Latn`
מקדונית	`mk`	`Cyrl`
מלאית	`ms`	`Latn`
מלאיאלאם	`ml`	`Mlym`
מראטהית	`mr`	`Deva`
נפאלית	`ne`	`Deva`
נורווגית	`no`	`Latn`
פרסית	`fa`	`Arab`
פולנית	`pl`	`Latn`
פורטוגזית (פורטוגל וברזיל)	`pt`	`Latn`
פנג'אבית	`pa`	`Guru`
רומנית	`ro`	`Latn`
רוסית	`ru`	`Cyrl`
סרבית	`sr`	`Cyrl`
סלובקית	`sk`	`Latn`
סלובנית	`sl`	`Latn`
ספרדית	`es`	`Latn`
שוודית	`sv`	`Latn`
טגלוג	`tl`	`Latn`
טמילית	`ta`	`Taml`
טלוגו	`te`	`Telu`
תאית	`th`	`Thai`
טורקית	`tr`	`Latn`
אוקראינית	`uk`	`Cyrl`
וייטנאמית	`vi`	`Latn`
יידיש	`yi`	`Hebr`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תיאור
`pretrained-ocr-v1.2-2022-11-10`	יציב	GA	גרסה קפואה של מודל v1.0: קבצים, הגדרות וקובצי הפעלה של מודל, שהם תמונת מצב של גרסה קפואה בקובץ אימג' של קונטיינר למשך עד 18 חודשים.
`pretrained-ocr-v2.0-2023-06-02`	יציב	GA	מודל מוכן לייצור שמתמחה בתרחישי שימוש במסמכים. כולל גישה לכל תוספי ה-OCR.
`pretrained-ocr-v2.1-2024-08-07`	יציב	GA	השיפורים העיקריים בגרסה 2.1 הם: זיהוי טוב יותר של טקסט מודפס, זיהוי מדויק יותר של תיבות סימון וסדר קריאה מדויק יותר.
`pretrained-ocr-v2.1.1-2025-01-31`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסה v2.1.1 דומה לגרסה V2.1, והיא זמינה בכל האזורים חוץ מאלה: `US`, `EU` ו-`asia-southeast1`.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות):	500
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

הערה: כדי להגדיל את המגבלה המקסימלית של דפים לבקשות אונליין וסינכרוניות עד 30, צריך להפעיל את imageless_mode ב-ProcessRequest.

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

asia-south1
asia-southeast1
australia-southeast1
eu
europe-west2
europe-west3
northamerica-northeast1
us

מידע נוסף Enterprise Document OCR

חילוץ ישויות ממסמכים

במערכי הנתונים לדוגמה יש דוגמאות למערכי נתונים מתויגים ולא מתויגים שאפשר להשתמש בהם לאימון.

חילוץ מותאם אישית

תיאור

אפשר לחלץ שדות ממסמכים באמצעות AI גנרטיבי או מודלים בהתאמה אישית, ולבצע כוונון עדין של מודלים כדי לחלץ נתונים מהמסמכים בצורה מדויקת.

קטגוריה חילוץ

פונקציות OCR, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API CUSTOM_EXTRACTION_PROCESSOR

הערות

אם משתמשים ב-AI גנרטיבי לחילוץ, אז:
- כרגע יש תמיכה רשמית רק בשפה האנגלית.
- הזמינות באזור מפורטת בUS, בEU, בnorthamerica-northeast1 ובasia-southeast1.

שפות נתמכות

רשימה מלאה של שפות

שם השפה	תג BCP 47	Script
אפריקאנס	`af`	`Latn`
ערבית	`ar`	`Arab`
אזרית	`az`	`Latn`
אזרית (קירילית)	`az-Cyrl`	`Cyrl`
בלארוסית	`be`	`Cyrl`
בולגרית	`bg`	`Cyrl`
בוסנית	`bs`	`Latn`
קטלאנית	`ca`	`Latn`
סבואנו	`ceb`	`Latn`
צ'כית	`cs`	`Latn`
וולשית	`cy`	`Latn`
דנית	`da`	`Latn`
גרמנית	`de`	`Latn`
יוונית	`el`	`Grek`
אנגלית	`en`	`Latn`
אספרנטו	`eo`	`Latn`
ספרדית	`es`	`Latn`
אסטונית	`et`	`Latn`
בסקית	`eu`	`Latn`
פרסית	`fa`	`Arab`
פינית	`fi`	`Latn`
פיליפינית	`fil`	`Latn`
צרפתית	`fr`	`Latn`
אירית	`ga`	`Latn`
גליציאנית	`gl`	`Latn`
הינדית	`hi`	`Deva`
קרואטית	`hr`	`Latn`
קריאולית של האיטי	`ht`	`Latn`
הונגרית	`hu`	`Latn`
אינדונזית	`id`	`Latn`
איסלנדית	`is`	`Latn`
איטלקית	`it`	`Latn`
עברית	`iw`	`Hebr`
יפנית	`ja`	`Jpan`
ג'אווה	`jv`	`Latn`
קזחית	`kk`	`Cyrl`
קוריאנית	`ko`	`Kore`
קירגיזית	`ky`	`Cyrl`
לטינית	`la`	`Latn`
ליטאית	`lt`	`Latn`
לטבית	`lv`	`Latn`
מקדונית	`mk`	`Cyrl`
מונגולית	`mn`	`Cyrl`
מראטהית	`mr`	`Deva`
מלאית	`ms`	`Latn`
מלטית	`mt`	`Latn`
נפאלית	`ne`	`Deva`
הולנדית	`nl`	`Latn`
נורווגית	`no`	`Latn`
פולנית	`pl`	`Latn`
פשטו	`ps`	`Arab`
פורטוגזית (פורטוגל וברזיל)	`pt`	`Latn`
רומנית	`ro`	`Latn`
רוסית	`ru`	`Cyrl`
רוסית (Petrine Orthography)	`ru-PETR1708`	`Cyrl`
סנסקריט	`sa`	`Deva`
סלובקית	`sk`	`Latn`
סלובנית	`sl`	`Latn`
אלבנית	`sq`	`Latn`
סרבית	`sr`	`Cyrl`
שוודית	`sv`	`Latn`
סווהילי	`sw`	`Latn`
טגלוג	`tl`	`Latn`
טורקית	`tr`	`Latn`
אוקראינית	`uk`	`Cyrl`
אורדו	`ur`	`Arab`
אוזבקית	`uz`	`Latn`
אוזבקית (קירילית)	`uz-Cyrl`	`Cyrl`
וייטנאמית	`vi`	`Latn`
יידיש	`yi`	`Hebr`
סינית פשוטה	`zh-Hans`	`Hani`
סינית מסורתית	`zh-Hant`	`Hani`
זולו	`zu`	`Latn`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תיאור
`pretrained-foundation-model-v1.5-2025-05-05`	יציב	GA	מועמד מוכן לייצור שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. מומלץ למי שרוצה להתנסות במודלים חדשים יותר.
`pretrained-foundation-model-v1.5-pro-2025-06-20`	יציב	GA	מודל מוכן לייצור שמבוסס על Gemini 2.5 Pro LLM. תומך במכסה של עד 30 דפים בדקה לבקשות של תהליכים אונליין. האיכות של המודל הזה גבוהה יותר בהשוואה לגרסה 1.5, ויכול להיות שזמן האחזור שלו ארוך יותר.
`pretrained-foundation-model-v1.5.1-2025-08-07`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	מודל בגרסת טרום-השקה (Preview) לציבור הרחב שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. למודל הזה יש את אותן תכונות כמו לגרסה 1.5, והוא כולל שיפורים בלמידה דינמית עם מעט דוגמאות.
`pretrained-foundation-model-v1.6-pro-2025-12-01`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	מודל בגרסת טרום-השקה שמבוסס על מודל שפה גדול (LLM) של Gemini 3 Pro. הערה: הגרסה הזו של המעבד משתמשת בנקודת הקצה הגלובלית של Vertex AI Gemini ולא עומדת בתקנים של Data Residency (DMZ). לדוגמה, בקשות בנקודות קצה בארה"ב ובאיחוד האירופי עשויות להיות מנותבות לכל מקום בעולם.
`pretrained-foundation-model-v1.6-2026-01-13`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	מודל בגרסת טרום-השקה שמבוסס על Gemini 3 Flash LLM. הערה: הגרסה הזו של המעבד משתמשת בנקודת הקצה הגלובלית של Vertex AI Gemini ולא עומדת בתקנים של Data Residency (DMZ). לדוגמה, בקשות בנקודות קצה בארה"ב ובאיחוד האירופי עשויות להיות מנותבות לכל מקום בעולם.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות):	200
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

סוגי נתונים מנורמלים

מידע נוסף זמין בדפים העשרה ונרמול ויצירת מערך נתונים.

רשימה מלאה של סוגי נתונים שעברו נרמול

dateTime as STRING
currency as STRING
money as google.type.Money
number as FLOAT or INTEGER

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

asia-south1
asia-southeast1
australia-southeast1
eu
europe-west2
europe-west3
northamerica-northeast1
us

מידע נוסף חילוץ מותאם אישית

מנתח טפסים

תיאור

חילוץ של צמדי מפתח/ערך כלליים (ישות ותיבת סימון), טבלאות וישויות גנריות ממסמכים, בנוסף לטקסט OCR.

מעבד הנתונים הזה משתמש בטכנולוגיות מתקדמות של למידת מכונה כדי לחלץ זוגות של מפתח וערך, תיבות סימון וטבלאות ממסמכים ביותר מ-200 שפות. המעבד הזה משתמש גם במודלים של למידה עמוקה כדי לחלץ 11 ישויות גנריות שמשותפות לסוגים שונים של מסמכים.

קטגוריה חילוץ

פונקציות OCR, Form Parsing, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API FORM_PARSER_PROCESSOR

שפות נתמכות

רשימה מלאה של שפות

שם השפה	תג BCP 47	Script
אפריקאנס	`af`	`Latn`
אלבנית	`sq`	`Latn`
ערבית	`ar`	`Arab`
בלארוסית	`be`	`Cyrl`
קטלאנית	`ca`	`Latn`
סינית	`zh`	`Hani`
קרואטית	`hr`	`Latn`
צ'כית	`cs`	`Latn`
דנית	`da`	`Latn`
הולנדית	`nl`	`Latn`
אנגלית	`en`	`Latn`
אסטונית	`et`	`Latn`
פיליפינית	`fil`	`Latn`
פינית	`fi`	`Latn`
צרפתית	`fr`	`Latn`
גרמנית	`de`	`Latn`
עברית	`iw`	`Hebr`
הינדית	`hi`	`Deva`
הונגרית	`hu`	`Latn`
איסלנדית	`is`	`Latn`
אינדונזית	`id`	`Latn`
איטלקית	`it`	`Latn`
יפנית	`ja`	`Jpan`
קוריאנית	`ko`	`Kore`
לטבית	`lv`	`Latn`
ליטאית	`lt`	`Latn`
מקדונית	`mk`	`Cyrl`
מלאית	`ms`	`Latn`
מראטהית	`mr`	`Deva`
נפאלית	`ne`	`Deva`
נורווגית	`no`	`Latn`
פרסית	`fa`	`Arab`
פולנית	`pl`	`Latn`
פורטוגזית (פורטוגל וברזיל)	`pt`	`Latn`
רומנית	`ro`	`Latn`
רוסית	`ru`	`Cyrl`
סרבית	`sr`	`Cyrl`
סלובקית	`sk`	`Latn`
סלובנית	`sl`	`Latn`
ספרדית	`es`	`Latn`
שוודית	`sv`	`Latn`
טגלוג	`tl`	`Latn`
טורקית	`tr`	`Latn`
אוקראינית	`uk`	`Cyrl`
וייטנאמית	`vi`	`Latn`
יידיש	`yi`	`Hebr`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	זוהו שדות נוספים	תיאור
`pretrained-form-parser-v1.0-2020-09-23`	יציב	GA	ללא	גרסה מדור קודם. כדי ליהנות מהאיכות הכי טובה ומכל התכונות, מומלץ להשתמש ב-Form Parser v2.0.
`pretrained-form-parser-v2.0-2022-11-10`	יציב	GA	הצגת שדות `email` `phone` `url` `date_time` `address` `person` `organization` `quantity` `price` `id` `page_number`	הגרסה המומלצת. הוא תומך בישויות גנריות וכולל מודל משודרג של טבלה, KVP ותיבת סימון, וגם יותר מ-200 שפות.
`pretrained-form-parser-v2.1-2023-06-26`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	ללא	גרסת Public Preview. אותו מודל כמו בגרסה 2.0, עם הפעלה של חילוץ טקסט מקורי מקובצי PDF דיגיטליים.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות):	100
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

asia-south1
asia-southeast1
australia-southeast1
eu
europe-west2
europe-west3
northamerica-northeast1
us

מידע נוסף מנתח טפסים

כלי לניתוח פריסות

תיאור

מחלק את התוכן של המסמך (טקסט, טבלאות ורשימות) לחלקים קטנים בהתאם להקשר.

הכלי Layout Parser מחלץ אלמנטים של תוכן ממסמכים, כמו טקסט, טבלאות ורשימות, ויוצר נתחים מודעים-הקשר שמקלים על אחזור מידע בבינה מלאכותית גנרטיבית ובאפליקציות לחיפוש.

קטגוריה חילוץ

פונקציות ניתוח פריסה, חלוקת מסמכים לחלקים

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API LAYOUT_PARSER_PROCESSOR

הערות

הכלי הזה תומך בקובצי PDF,‏ HTML,‏ DOCX,‏ PPTX ו-XLSX/XLSM.

שפות נתמכות

רשימה מלאה של שפות

שם השפה	תג BCP 47	Script
אפריקאנס	`af`	`Latn`
אלבנית	`sq`	`Latn`
ערבית	`ar`	`Arab`
ארמנית	`hy`	`Armn`
בלארוסית	`be`	`Cyrl`
בנגלית	`bn`	`Beng`
בנגלית	`bn`	`Beng`
בולגרית	`bg`	`Cyrl`
קטלאנית	`ca`	`Latn`
סינית	`zh`	`Hani`
קרואטית	`hr`	`Latn`
צ'כית	`cs`	`Latn`
דנית	`da`	`Latn`
הולנדית	`nl`	`Latn`
אנגלית	`en`	`Latn`
אסטונית	`et`	`Latn`
פיליפינית	`fil`	`Latn`
פינית	`fi`	`Latn`
צרפתית	`fr`	`Latn`
גרמנית	`de`	`Latn`
יוונית	`el`	`Grek`
גוג'ארטי	`gu`	`Gujr`
עברית	`iw`	`Hebr`
הינדית	`hi`	`Deva`
הונגרית	`hu`	`Latn`
איסלנדית	`is`	`Latn`
אינדונזית	`id`	`Latn`
איטלקית	`it`	`Latn`
יפנית	`ja`	`Jpan`
קנאדה	`kn`	`Knda`
חמר	`km`	`Khmr`
קוריאנית	`ko`	`Kore`
לאו	`lo`	`Laoo`
לטבית	`lv`	`Latn`
ליטאית	`lt`	`Latn`
מקדונית	`mk`	`Cyrl`
מלאית	`ms`	`Latn`
מלאיאלאם	`ml`	`Mlym`
מראטהית	`mr`	`Deva`
נפאלית	`ne`	`Deva`
נורווגית	`no`	`Latn`
פרסית	`fa`	`Arab`
פולנית	`pl`	`Latn`
פורטוגזית (פורטוגל וברזיל)	`pt`	`Latn`
פנג'אבית	`pa`	`Guru`
רומנית	`ro`	`Latn`
רוסית	`ru`	`Cyrl`
סרבית	`sr`	`Cyrl`
סלובקית	`sk`	`Latn`
סלובנית	`sl`	`Latn`
ספרדית	`es`	`Latn`
שוודית	`sv`	`Latn`
טגלוג	`tl`	`Latn`
טמילית	`ta`	`Taml`
טלוגו	`te`	`Telu`
תאית	`th`	`Thai`
טורקית	`tr`	`Latn`
אוקראינית	`uk`	`Cyrl`
וייטנאמית	`vi`	`Latn`
יידיש	`yi`	`Hebr`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תיאור
`pretrained-layout-parser-v1.0-2024-06-03`	יציב	GA	גרסה זמינה לכלל המשתמשים לניתוח פריסת מסמכים. זוהי גרסת המעבד שאומנה מראש ומוגדרת כברירת מחדל.
`pretrained-layout-parser-v1.5-2025-08-25`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסת טרום-השקה (Preview) שמבוססת על מודל Gemini 2.5 Flash LLM לניתוח טוב יותר של פריסות בקובצי PDF. מומלץ למי שרוצה להתנסות בגרסאות חדשות. הערה: אם משתמשים בו לקבצים שאינם קובצי PDF, הוא יתנהג כמו גרסה יציבה `pretrained-layout-parser-v1.0-2024-06-03`.
`pretrained-layout-parser-v1.5-pro-2025-08-25`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסת טרום-השקה שמבוססת על מודל שפה גדול (LLM) של Gemini 2.5 Pro לניתוח טוב יותר של פריסות בקובצי PDF. זמן האחזור בגרסה ‎1.5-pro גבוה יותר מאשר בגרסה 1.5. הערה: אם משתמשים בו לקבצים שאינם קובצי PDF, הוא יתנהג כמו גרסה יציבה `pretrained-layout-parser-v1.0-2024-06-03`.
`pretrained-layout-parser-v1.6-pro-2025-12-01`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסת טרום-השקה (Preview) שמבוססת על מודל שפה גדול (LLM) של Gemini 3.0 Pro. הערה: גרסת המעבד הזו משתמשת בנקודת הקצה הגלובלית של Vertex AI Gemini, והיא לא עומדת בתקנים של Data Residency (DMZ). לדוגמה, בקשות בנקודות קצה בארה"ב ובאיחוד האירופי עשויות להיות מנותבות לכל מקום בעולם.
`pretrained-layout-parser-v1.6-2026-01-13`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסת טרום-השקה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.0 Flash. הערה: גרסת המעבד הזו משתמשת בנקודת הקצה הגלובלית של Vertex AI Gemini, והיא לא עומדת בתקנים של Data Residency (DMZ). לדוגמה, בקשות בנקודות קצה בארה"ב ובאיחוד האירופי עשויות להיות מנותבות לכל מקום בעולם.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות):	500
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

eu
us

מידע נוסף Layout Parser

עיון במעבדים שאומנו מראש

מנתח דפי חשבון בנק

תיאור

חילוץ מדפי חשבון בנק, כולל שם, חשבון, עסקאות וכו'.

קטגוריה מאומן מראש

פונקציות OCR, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API BANK_STATEMENT_PROCESSOR

הערות

אם דף בקובץ קלט מרובה דפים הוא מסוג המסמך הנכון ואחת מהגרסאות הנתמכות, המעבד מבצע חילוץ ישויות במסמך הנתמך הראשון. אם המעבד לא מוצא קבצים רלוונטיים בקובץ הקלט, הוא מחזיר הודעת שגיאה.

שפות נתמכות

שם השפה	תג BCP 47	Script	תמיכה בכתב יד
אנגלית	`en`	`Latn`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תיאור
`pretrained-bankstatement-v1.0-2021-08-08`	יציב	GA
`pretrained-bankstatement-v1.1-2021-08-13`	יציב	GA
`pretrained-bankstatement-v2.0-2021-12-10`	יציב	GA
`pretrained-bankstatement-v3.0-2022-05-16`	יציב	GA	בגרסה הזו מניחים שקובץ הקלט מכיל דף חשבון בנק יחיד. בניגוד לגרסת ברירת המחדל, הגרסה הזו לא בודקת אם קובץ הקלט מכיל דפי חשבון בנק, ולא תחזיר שגיאה אם לא יימצאו דפי חשבון בנק.
`pretrained-bankstatement-v4.0-2023-07-31`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית
`pretrained-bankstatement-v5.0-2023-12-06`	יציב	GA

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות):	30
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות

account_number
account_type
bank_address
bank_name
client_address
client_name
ending_balance
starting_balance
statement_date
statement_end_date
statement_start_date
table_item

table_item/transaction_deposit
table_item/transaction_deposit_date
table_item/transaction_deposit_description
table_item/transaction_withdrawal
table_item/transaction_withdrawal_date
table_item/transaction_withdrawal_description

שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים

bank_address
bank_name

שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול

ending_balance
starting_balance
statement_date
statement_end_date
statement_start_date
table_item/transaction_deposit
table_item/transaction_deposit_date
table_item/transaction_withdrawal
table_item/transaction_withdrawal_date

Uptraining

הוראות לגבי תוויות פתיחה בחלון חדש

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

eu
us

W2 Parser

תיאור

תמצית מתוך טופס W2, כולל פרטי העובד, המעסיק, השכר וכו'.

קטגוריה מאומן מראש

פונקציות OCR, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API FORM_W2_PROCESSOR

הערות

אם דף בקובץ קלט מרובה דפים הוא מסוג המסמך הנכון ואחת מהגרסאות הנתמכות, המעבד מבצע חילוץ ישויות במסמך הנתמך הראשון. אם המעבד לא מוצא קבצים רלוונטיים בקובץ הקלט, הוא מחזיר הודעת שגיאה.

שפות נתמכות

שם השפה	תג BCP 47	Script	תמיכה בכתב יד
אנגלית	`en`	`Latn`

גרסאות נתמכות

‫2020 (גרסאות רגילות ומותאמות אישית)
‫2019 (גרסאות רגילות ומותאמות אישית)
‫2018 (גרסאות רגילות וגרסאות בהתאמה אישית)

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	זוהו שדות נוספים	תיאור
`pretrained-w2-v1.0-2020-10-01`	יציב	GA	ללא
`pretrained-w2-v1.1-2022-01-27`	יציב	GA	ללא
`pretrained-w2-v1.2-2022-01-28`	יציב	GA	הצגת שדות `AllocatedTips` `ControlNumber` `DependentCareBenefits` `EIN` `EmployeeAddress` `EmployeeName` `EmployerNameAndAddress` `EmployerStateIdNumber_Line1` `FederalIncomeTaxWithheld` `FormYear` `LocalIncomeTax_Line1` `LocalityName_Line1` `LocalWagesTipsEtc_Line1` `MedicareTaxWithheld` `MedicareWagesAndTips` `NonqualifiedPlans` `SocialSecurityTaxWithheld` `SocialSecurityTips` `SocialSecurityWages` `SSN` `State_Line1` `StateIncomeTax_Line1` `StateWagesTipsEtc_Line1` `WagesTipsOtherCompensation`	שיפורים באיכות ותמיכה בשדות חדשים. לא כולל מפצל.
`pretrained-w2-v2.0-2022-03-30`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	הצגת שדות `AllocatedTips` `ControlNumber` `DependentCareBenefits` `EIN` `EmployeeAddress_AdditionalStreetAddressOrPostalBox` `EmployeeAddress_City` `EmployeeAddress_State` `EmployeeAddress_StreetAddressOrPostalBox` `EmployeeAddress_Zip` `EmployeeName_FirstName` `EmployeeName_LastName` `EmployeeName_MiddleNameOrInitial` `EmployerAddress_AdditionalStreetAddressOrPostalBox` `EmployerAddress_City` `EmployerAddress_State` `EmployerAddress_StreetAddressOrPostalBox` `EmployerAddress_Zip` `EmployerName` `EmployerStateIdNumber_Line1` `FederalIncomeTaxWithheld` `FormYear` `LocalIncomeTax_Line1` `LocalWagesTipsEtc_Line1` `LocalityName_Line1` `MedicareTaxWithheld` `MedicareWagesAndTips` `NonqualifiedPlans` `SSN` `SocialSecurityTaxWithheld` `SocialSecurityTips` `SocialSecurityWages` `StateIncomeTax_Line1` `StateWagesTipsEtc_Line1` `State_Line1` `WagesTipsOtherCompensation` `a_Code` `a_Value` `b_Code` `b_Value` `c_Code` `c_Value` `d_Code` `d_Value`	שיפורים באיכות ותמיכה בשדות של תיבה 12 ובתחזיות מפורטות של `EmployeeName`, `EmployeeAddress` ו-`EmployerNameAndAddress`. כל אלה כבר לא חלק מהפלט והוחלפו בשדות נוספים.
`pretrained-w2-v2.1-2022-06-08`	יציב	GA	הצגת שדות `AllocatedTips` `ControlNumber` `DependentCareBenefits` `EIN` `EmployeeAddress_AdditionalStreetAddressOrPostalBox` `EmployeeAddress_City` `EmployeeAddress_State` `EmployeeAddress_StreetAddressOrPostalBox` `EmployeeAddress_Zip` `EmployeeName_FirstName` `EmployeeName_LastName` `EmployeeName_MiddleNameOrInitial` `EmployeeName_Suffix` `EmployerAddress_AdditionalStreetAddressOrPostalBox` `EmployerAddress_City` `EmployerAddress_State` `EmployerAddress_StreetAddressOrPostalBox` `EmployerAddress_Zip` `EmployerName` `EmployerStateIdNumber_Line1` `FederalIncomeTaxWithheld` `FormYear` `LocalIncomeTax_Line1` `LocalWagesTipsEtc_Line1` `LocalityName_Line1` `MedicareTaxWithheld` `MedicareWagesAndTips` `NonqualifiedPlans` `SSN` `SocialSecurityTaxWithheld` `SocialSecurityTips` `SocialSecurityWages` `StateIncomeTax_Line1` `StateWagesTipsEtc_Line1` `State_Line1` `WagesTipsOtherCompensation` `a_Code` `a_Value` `b_Code` `b_Value` `c_Code` `c_Value` `d_Code` `d_Value`	בדומה לגרסה `pretrained-w2-v2.0-2022-03-30`, עם שיפורים נוספים באיכות והוספה של ישות נוספת `EmployeeName_Suffix`.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות):	15
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	15

שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות

ControlNumber
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
FederalIncomeTaxWithheld
MedicareTaxWithheld
MedicareWagesAndTips
SSN
SocialSecurityTaxWithheld
SocialSecurityWages
WagesTipsOtherCompensation

שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים

EmployerNameAndAddress
EIN

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

eu
us

כלי לניתוח הוכחות של תעודות מזהות

תיאור

חיזוי התוקף של מסמכים מזהים באמצעות כמה אותות.

מעבד אימות מסמכי הזהות נועד לעזור לחזות את התוקף של מסמכי זהות באמצעות ארבעה אותות שונים.

בשלב הזה, המעבד מחזיר מידע מהאותות הבאים:

זיהוי fraud_signals_is_identity_document: חיזוי אם תמונה מכילה תעודה מזהה מוכרת.
fraud_signals_suspicious_words זיהוי: חיזוי אם יש מילים שלא אופייניות למזהים.
זיהוי fraud_signals_image_manipulation: חיזוי אם התמונה שונתה או זויפה באמצעות כלי לעריכת תמונות.
fraud_signals_online_duplicate detection: חיזוי אם אפשר למצוא את התמונה באינטרנט (בארה"ב בלבד).

קטגוריה מאומן מראש

פונקציות OCR, Quality Analysis

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API ID_PROOFING_PROCESSOR

הערות

התכונה 'זיהוי כפילויות באינטרנט' מעובדת כרגע במרכזי נתונים בארה"ב. התכונה הזו לא זמינה מחוץ לארה"ב, ולכן אין תמיכה אזורית או רב-אזורית.
המעבד הזה נתמך על ידי אלגוריתמים שמתעדכנים בתדירות גבוהה יותר מהתדירות שבה יוצאות גרסאות חדשות של המעבד. לכן, יכול להיות שהמעבד יחזיר פלט שונה לאורך זמן, גם אם משתמשים באותה גרסת מעבד. לדוגמה, המערכת לזיהוי כפילויות באינטרנט עוקבת אחרי תמונות שמופיעות באינטרנט. ההתנהגות של המערכת יכולה להשתנות מהר יותר ממה שאפשר לעקוב אחריו בגרסאות המעבד.
אפשר לעיין בהערות בנושא אתיקה של בינה מלאכותית^[†] ובנושא בדיקה על ידי אדם.^[‡]

שפות נתמכות

שם השפה	תג BCP 47	Script	תמיכה בכתב יד
אנגלית	`en`	`Latn`

גרסאות נתמכות

תמיכה בדרכונים, בכרטיסי דרכון וברישיונות נהיגה בארה"ב.

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	זוהו שדות נוספים	תיאור
`pretrained-id-proofing-v1.0-2022-10-03`	יציב	GA	ללא
`pretrained-id-proofing-v1.1-2023-05-18`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	הצגת שדות `fraud_signals_photocopy_detection`	אות נוסף לזיהוי צילום
`pretrained-id-proofing-v1.2-2023-10-04`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	הצגת שדות `fraud_signals_photocopy_detection`

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	2
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות):	2
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	2

שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות

fraud_signals_is_identity_document
fraud_signals_suspicious_words
evidence_suspicious_word
evidence_inconclusive_suspicious_word
fraud_signals_image_manipulation
fraud_signals_online_duplicate (US only)
fraud_signals_photocopy_detection
evidence_hostname (US only)
evidence_thumbnail_url (US only)

שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול

fraud_signals_image_manipulation
fraud_signals_online_duplicate (US only)
fraud_signals_is_identity_document
fraud_signals_suspicious_words

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

eu
us

מנתח של תלושי שכר

תיאור

מידע שמופק מתלושי שכר, כולל שם, עסק, סכומים וכו'.

קטגוריה מאומן מראש

פונקציות OCR, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API PAYSTUB_PROCESSOR

הערות

אם מסמך הקלט הרב-דפי מכיל יותר מתלוש שכר תקף אחד, המעבד מחלץ ישויות רק מתלוש השכר התקף הראשון. אם לא נמצאו תלושי שכר בקובץ הקלט, המעבד יחזיר הודעת שגיאה.

שפות נתמכות

שם השפה	תג BCP 47	Script	תמיכה בכתב יד
אנגלית	`en`	`Latn`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	זוהו שדות נוספים	תיאור
`pretrained-paystub-v1.0-2021-03-19`	יציב	GA	ללא
`pretrained-paystub-v1.1-2021-08-13`	יציב	GA	הצגת שדות `net_pay` `net_pay_ytd` `employee_account_number`	שיפור האיכות ותמיכה בשדות חדשים.
`pretrained-paystub-v1.2-2021-12-10`	יציב	GA	ללא
`pretrained-paystub-v2.0-2022-05-17`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	הצגת שדות `deduction_item` `deduction_item/deduction_type` `deduction_item/deduction_this_period` `deduction_item/deduction_ytd` `direct_deposit_item` `direct_deposit_item/direct_deposit` `direct_deposit_item/employee_account_number` `earning_item` `earning_item/earning_type` `earning_item/earning_rate` `earning_item/earning_hours` `earning_item/earning_this_period` `earning_item/earning_ytd` `page_number` `tax_item` `tax_item/tax_type` `tax_item/tax_this_period` `tax_item/tax_ytd` `federal_additional_tax` `federal_allowance` `federal_marital_status` `state_additional_tax` `state_allowance` `state_marital_status`	בגרסה הזו מניחים שקובץ הקלט מכיל תלוש שכר אחד. בניגוד לגרסת ברירת המחדל, הגרסה הזו לא בודקת אם קובץ הקלט מכיל תלושי שכר, ולא תחזיר שגיאה אם לא יימצאו תלושי שכר. שיפור האיכות, תמיכה בשדות חדשים וסכימה חדשה. השדות Bonus, ‏ Commissions, ‏ Holiday, ‏ Overtime, ‏ Regular Pay ו-Vacation הם עכשיו חלק מהשדה earning_item/earning_this_period, והגרסאות שלהם מתחילת השנה מופיעות בשדה earning_item/earning_ytd. השדות Direct Deposit (הפקדה ישירה) ו-Employee Account Number (מספר חשבון העובד) מוצבים עכשיו בתוך השדה direct_deposit_item. המגבלה על דפים אסינכרוניים היא 10.
`pretrained-paystub-v2.0-2022-07-22`	יציב	GA	ללא	שיפורים באיכות ובאימון מחדש.
`pretrained-paystub-v3.0-2023-12-06`	יציב	GA	ללא

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות):	50
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות

bonus
bonus_ytd
commissions
commissions_ytd
direct_deposit
employee_account_number (Added in "pretrained-paystub-v1.1-2021-08-13")
employee_address
employee_name
employer_address
employer_name
end_date
gross_earnings
gross_earnings_ytd
holiday
holiday_ytd
net_pay (Added in "pretrained-paystub-v1.1-2021-08-13")
net_pay_ytd (Added in "pretrained-paystub-v1.1-2021-08-13")
overtime
overtime_ytd
pay_date
regular_pay
regular_pay_ytd
ssn
start_date
vacation
vacation_ytd

שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים

employer_address
employer_name

שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול

bonus
bonus_ytd
commissions
commissions_ytd
direct_deposit
end_date
gross_earnings
gross_earnings_ytd
holiday
holiday_ytd
net_pay
net_pay_ytd
overtime
overtime_ytd
pay_date
regular_pay
regular_pay_ytd
start_date
vacation
vacation_ytd

Uptraining

הוראות לגבי תוויות פתיחה בחלון חדש

אזורים נתמכים

eu
us

כלי לניתוח רישיונות נהיגה בארה"ב

תיאור

לחלץ שדות כמו שמות, מספר מסמך, תאריך לידה וכו'.

קטגוריה מאומן מראש

פונקציות OCR, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API US_DRIVER_LICENSE_PROCESSOR

שפות נתמכות

שם השפה	תג BCP 47	Script	תמיכה בכתב יד
אנגלית	`en`	`Latn`

גרסאות נתמכות

תמיכה בכל 50 המדינות בארה"ב ובמחוז קולומביה

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תיאור
`pretrained-us-driver-license-v1.0-2021-06-14`	יציב	GA

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	2
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות):	2
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	2

שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות

Family Name
Given Names
Document Id
Expiration Date
Date Of Birth
Issue Date
Address
Portrait

שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול

Date Of Birth
Expiration Date
Issue Date

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

eu
us

מנתח הוצאות

תיאור

לחלץ טקסט וערכים ממסמכי הוצאות, כמו תאריך ההוצאה, שם הספק, הסכום הכולל והמטבע.

קטגוריה מאומן מראש

פונקציות OCR, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API EXPENSE_PROCESSOR

שפות נתמכות

רשימה מלאה של שפות

שם השפה	תג BCP 47	Script
גרמנית	`de`	`Latn`
אנגלית	`en`	`Latn`
ספרדית	`es`	`Latn`
צרפתית	`fr`	`Latn`
יפנית	`ja`	`Jpan`
הולנדית	`nl`	`Latn`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	זוהו שדות נוספים	תמיכה בשפות נוספות	תיאור
`pretrained-expense-v1.1-2021-04-09`	יציב	GA	ללא	ללא	גרסה שעברה כוונון עדין של מעבד v1.0. הושק באפריל 2021.
`pretrained-expense-v1.3.2-2024-09-11`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	הצגת שדות `credit_card_last_four_digits` `line_item/quantity` `payment_type`	‫`ja`: יפנית	שדרוג מדויק לגרסה 1.3 עם מודל ראייה בסיסי משופר.
`pretrained-expense-v1.4-2022-11-18`	יציב	GA	הצגת שדות `traveler_name` `reservation_id` `line_item/transaction_date`	‫`ja`: יפנית ‫`it`: איטלקית ‫`pt`: פורטוגזית (פורטוגל וברזיל)	שיפורים בביצועים ותמיכה בהדרכה נוספת. הגדלנו את המגבלה של מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות) ל-15. הערה: הוצא משימוש בארצות הברית (ארה"ב) ובאיחוד האירופי (EU) החל מ-30 באפריל 2025.
`pretrained-expense-v1.4.2-2024-09-12`	יציב	GA	הצגת שדות `traveler_name` `reservation_id` `line_item/transaction_date`	‫`ja`: יפנית ‫`it`: איטלקית ‫`pt`: פורטוגזית (פורטוגל וברזיל)	שדרוג לגרסה 1.4 עם מודל ראייה משופר.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	10
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות):	10
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	10

שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות

credit_card_last_four_digits
currency
end_date
net_amount
payment_type
purchase_time
receipt_date
start_date
supplier_address
supplier_city
supplier_name
tip_amount
total_amount
total_tax_amount
line_item

line_item/amount
line_item/description
line_item/product_code

שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים

supplier_address
supplier_name
supplier_phone

שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול

currency
total_amount
total_tax_amount
net_amount
receipt_date
purchase_time
start_date
end_date
line_item/amount
line_item/payment_date
line_item/payment_amount

Uptraining

הוראות לגבי תוויות פתיחה בחלון חדש

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

asia-southeast1
australia-southeast1
eu
northamerica-northeast1
us

כלי לניתוח חשבוניות

תיאור

לחלץ טקסט וערכים מחשבוניות, כמו מספר חשבונית, שם הספק, סכום החשבונית, סכום המס, תאריך החשבונית והתאריך האחרון לתשלום.

כלי הניתוח של חשבוניות מחלץ שדות של כותרות ופריטים, כמו מספר חשבונית, שם הספק, סכום החשבונית, סכום המס, תאריך החשבונית, תאריך היעד וסכומי הפריטים.

קטגוריה מאומן מראש

פונקציות OCR, Entity Extraction

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API INVOICE_PROCESSOR

שפות נתמכות

רשימה מלאה של שפות

שם השפה	תג BCP 47	Script
גרמנית	`de`	`Latn`
אנגלית	`en`	`Latn`
ספרדית	`es`	`Latn`
אסטונית	`et`	`Latn`
צרפתית	`fr`	`Latn`
איטלקית	`it`	`Latn`
לטבית	`lv`	`Latn`
ליטאית	`lt`	`Latn`
הולנדית	`nl`	`Latn`
פורטוגזית (פורטוגל וברזיל)	`pt`	`Latn`
רומנית	`ro`	`Latn`
שוודית	`sv`	`Latn`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תמיכה בשפות נוספות	תיאור
`pretrained-invoice-v1.1-2021-04-09`	יציב	GA	ללא
`pretrained-invoice-v1.2-2022-02-18`	יציב	GA	ללא	הוצאה משימוש מתוכננת בקרוב.
`pretrained-invoice-v1.3-2022-07-15`	יציב	GA	‫`it`: איטלקית ‫`pt`: פורטוגזית (פורטוגל וברזיל) ‫`ro`: רומנית ‫`sv`: שוודית ‫`et`: אסטונית ‫`lv`: לטבית ‫`lt`: ליטאית	גרסת מעבד שאפשר לאמן מחדש. המספר המקסימלי של דפים (בקשות אונליין/סינכרוניות) הוגדל ל-15.
`pretrained-invoice-v1.4-2022-10-21`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	ללא	גרסת מעבד שאפשר לאמן מחדש. המספר המקסימלי של דפים (בקשות אונליין/סינכרוניות) הוגדל ל-15.
`pretrained-invoice-v1.5-2023-09-15`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	ללא
`pretrained-invoice-v2.0-2023-12-06`	יציב	GA	ללא

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות):	200
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

שדות שזוהו בגרסה הכי מוקדמת

אפשר למצוא את המידע הזה גם בדף Field detected.

רשימה מלאה של השדות

amount_paid_since_last_invoice
carrier
currency
currency_exchange_rate
delivery_date
due_date
freight_amount
invoice_date
invoice_id
line_item

line_item/amount
line_item/description
line_item/product_code
line_item/purchase_order
line_item/quantity
line_item/unit
line_item/unit_price

net_amount
payment_terms
purchase_order
receiver_address
receiver_email
receiver_name
receiver_phone
receiver_tax_id
receiver_website
remit_to_address
remit_to_name
ship_from_address
ship_from_name
ship_to_address
ship_to_name
supplier_address
supplier_email
supplier_iban
supplier_name
supplier_payment_ref
supplier_phone
supplier_registration
supplier_tax_id
supplier_website
total_amount
total_tax_amount
vat

vat/amount
vat/category_code
vat/tax_amount
vat/tax_rate

שדות מועשרים

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של השדות המועשרים

supplier_address
supplier_name
supplier_phone

שדות שעברו נורמליזציה

מידע נוסף זמין בדף העשרה ונירמול.

רשימה מלאה של שדות שעברו נרמול

amount_paid_since_last_invoice
currency
currency_exchange_rate
delivery_date
due_date
freight_amount
invoice_date
net_amount
total_amount
total_tax_amount
line_item/amount
line_item/quantity
line_item/unit_price
vat/amount
vat/tax_amount
vat/tax_rate

Uptraining

הוראות לגבי תוויות פתיחה בחלון חדש

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

asia-south1
asia-southeast1
australia-southeast1
eu
northamerica-northeast1
us

סיווג מסמכים

מסווג תוכן מותאם אישית

תיאור

לאמן מודל לסיווג סוג מסמך מתוך קבוצה של כיתות.

קטגוריה סיווג

פונקציות OCR, סיווג

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API CUSTOM_CLASSIFICATION_PROCESSOR

שפות נתמכות

שם השפה	תג BCP 47	Script	תמיכה בכתב יד
אנגלית	`en`	`Latn`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תיאור
`pretrained-classifier-v1.5-2025-08-05`	יציב	GA	מודל מוכן לייצור שמבוסס על מודל שפה גדול (LLM) Gemini 2.5 Flash. כולל גם תכונות OCR מתקדמות. אפשר להשתמש במודל הזה שעבר אימון מראש בלי לבצע אימון מוקדם. הוא תומך בסיווג ללא דוגמאות ומספק תמיכה טובה יותר לסיווג כללי.
`pretrained-classifier-v1.6-2026-03-09`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Flash. הערה: גרסה זו אינה תומכת במיקום אחסון הנתונים.
`pretrained-classifier-v1.6-pro-2026-03-09`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Pro. הערה: גרסה זו אינה תומכת במיקום אחסון הנתונים.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סינכרוניות):	200
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

asia-south1
asia-southeast1
australia-southeast1
eu
europe-west2
europe-west3
northamerica-northeast1
us

מידע נוסף יצירת מעבד סיווג בהתאמה אישית

כלי פיצול מותאם אישית

תיאור

אימון מודל לפיצול קובץ שמכיל כמה מסמכים למסמכים בודדים ומסווגים.

קטגוריה סיווג

פונקציות OCR, Classification, Splitting

שלב ההשקה זמינות כללית

סטטוס הגישה גלוי לכולם

הקלדה ב-API CUSTOM_SPLITTING_PROCESSOR

הערות

אפשר לתמוך ב-i18n רק באמצעות אפשרויות אימון בהתאמה אישית.

שפות נתמכות

שם השפה	תג BCP 47	Script	תמיכה בכתב יד
אנגלית	`en`	`Latn`

גרסאות של מעבדים

מזהה גרסה	ערוץ הפצה	סיווג הגרסה	תיאור
`pretrained-splitter-v1.5-2025-07-14`	יציב	GA	מודל GA שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. אפשר להשתמש במודל הזה שעבר אימון מראש בלי לבצע אימון מוקדם. היא תומכת בחלוקה לסגמנטים ובסיווג ללא דוגמאות.
`pretrained-splitter-v1.6-2026-03-09`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Flash. הערה: גרסה זו אינה תומכת במיקום אחסון הנתונים.
`pretrained-splitter-v1.6-pro-2026-03-09`	גרסה מועמדת להפצה	גרסת טרום-השקה ציבורית	גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Pro. הערה: גרסה זו אינה תומכת במיקום אחסון הנתונים.

מידע נוסף זמין במאמר בנושא ניהול גרסאות של מעבדים.

מכסות ומגבלות

מספר הדפים המקסימלי (בקשות אונליין/סינכרוניות):	15
מספר הדפים המקסימלי (בקשות אצווה/אופליין/לא סנכרוניות):	1000
מספר הדפים המקסימלי (במצב ללא תמונות באינטרנט/בקשות סינכרוניות):	30

Uptraining

קובץ קלט לדוגמה פתיחה בחלון חדש

פלט לדוגמה פתיחה בחלון חדש

אזורים נתמכים

asia-south1
asia-southeast1
australia-southeast1
eu
europe-west2
europe-west3
northamerica-northeast1
us

מידע נוסף יצירת מעבד מפוצל בהתאמה אישית

הערות שוליים

‫^[†] אימות תעודה מזהה פועל כדי לחלץ ולהעריך מידע ממסמכים מזהים, שמסייע לקבוע אם התמונה שהוזנה מייצגת תעודה מזהה מקורית.

ב- Google Cloud, אנחנו שמים בראש סדר העדיפויות את העזרה ללקוחות בפיתוח ובהטמעה של פתרונות AI בצורה בטוחה, והאימות של הזהות פותח בהתאם לעקרונות ה-AI של Google.

בהתאם לעקרונות ה-AI של Google ולעיצוב המוצר הנוכחי, אנחנו ממליצים מאוד לנקוט משנה זהירות ולהעריך בקפידה את היתרונות והסיכונים הפוטנציאליים של השימוש באימות מסמכי זהות במקרים הבאים:

קבלת החלטות ללא מעורבות אנושית לגבי תחזיות שיכולות להשפיע על זכויות אדם.
בתחומים רגישים, כולל, בין היתר, תעסוקה, גישה לשירותים ציבוריים, שירותי בריאות והקשרים שקשורים לבטיחות.

‫^[‡] תמיד צריך להשתמש באימות זהות כחלק מתהליך העבודה הרחב יותר לזיהוי זהויות. חשוב שבתהליך העבודה שלכם תהיה בדיקה אנושית כדי לוודא שהאותות החזויים מדויקים. מעבד האימות לא נועד להחליף את הבדיקה האנושית של תעודות מזהות בתהליך עבודה, אלא לסייע לבודקים אנושיים באימות מסמכי זיהוי. אין להשתמש במעבד של אימות הזהות ככלי אוטומטי לקבלת החלטות כדי לקבוע אם תעודה מזהה תקפה. בעזרת בדיקות אנושיות, לקוחות יכולים להשיג רמת דיוק גבוהה יותר בעיבוד מסמכים, ולעזור לעסקים להעריך תחזיות באמצעות כלים ייעודיים שמאפשרים את הבדיקות האלה.

חשוב לעיין בתקנות באזור שבו אתם מטמיעים את הטכנולוגיה הזו, ולחקור את ההנחיות הקיימות בתעשייה כדי לקבל מידע על הנחיות המדיניות ועל בעיות נפוצות שקשורות להוגנות. כדאי לקרוא על הוגנות בלמידת מכונה, כולל דרכים לצמצום הטיה במערכי נתונים לאימון, הערכת המודלים המותאמים אישית שלכם כדי לזהות הבדלים בביצועים ושיקולים נוספים לשימוש במודל המותאם אישית.

אנחנו ממליצים ללקוחות להקפיד על שיטות מומלצות בנושא שימוש הוגן, פרשנות, פרטיות ואבטחה כשמטמיעים אימות זהות. כדי לקבל מידע נוסף על הטמעה של AI אחראי, אפשר לקרוא את ההמלצות של Google לשיטות עבודה אחראיות בתחום ה-AI.

במאמר בבלוג Automate identity document processing with Document AI] מפורט מידע נוסף על תרחישי שימוש ומאגר המקורות של הקוד לדוגמה של קוד אפליקציה.

קבצים נתמכים

רשימת המעבדים קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

הפיכת טקסט לדיגיטלי

Enterprise Document OCR (זיהוי תווים אופטי)

רשימה מלאה של שפות

חילוץ ישויות ממסמכים

חילוץ מותאם אישית

רשימה מלאה של שפות

רשימה מלאה של סוגי נתונים שעברו נרמול

מנתח טפסים

רשימה מלאה של שפות

הצגת שדות

כלי לניתוח פריסות

רשימה מלאה של שפות

עיון במעבדים שאומנו מראש

מנתח דפי חשבון בנק

רשימה מלאה של השדות

רשימה מלאה של השדות המועשרים

רשימה מלאה של שדות שעברו נרמול

W2 Parser

הצגת שדות

הצגת שדות

הצגת שדות

רשימה מלאה של השדות

רשימה מלאה של השדות המועשרים

כלי לניתוח הוכחות של תעודות מזהות

הצגת שדות

הצגת שדות

רשימה מלאה של השדות

רשימה מלאה של שדות שעברו נרמול

מנתח של תלושי שכר

הצגת שדות

הצגת שדות

רשימה מלאה של השדות

רשימה מלאה של השדות המועשרים

רשימה מלאה של שדות שעברו נרמול

כלי לניתוח רישיונות נהיגה בארה"ב

רשימה מלאה של השדות

רשימה מלאה של שדות שעברו נרמול

מנתח הוצאות

רשימה מלאה של שפות

הצגת שדות

הצגת שדות

הצגת שדות

רשימה מלאה של השדות

רשימה מלאה של השדות המועשרים

רשימה מלאה של שדות שעברו נרמול

כלי לניתוח חשבוניות

רשימה מלאה של שפות

רשימה מלאה של השדות

רשימה מלאה של השדות המועשרים

רשימה מלאה של שדות שעברו נרמול

סיווג מסמכים

מסווג תוכן מותאם אישית

כלי פיצול מותאם אישית

הערות שוליים

רשימת המעבדים