המעבד הזה מאפשר לכם לזהות ולחלץ טקסט, כולל טקסט בכתב יד, ממסמכים ביותר מ-200 שפות. המעבד גם משתמש בלמידת מכונה כדי לבצע הערכת איכות של מסמך על סמך קלות הקריאה של התוכן שלו.
הזמינות באזור מפורטת בUS, בEU, בnorthamerica-northeast1 ובasia-southeast1.
שפות נתמכות
רשימה מלאה של שפות
שם השפה
תג BCP 47
Script
תמיכה בכתב יד
אפריקאנס
af
Latn
ערבית
ar
Arab
אזרית
az
Latn
אזרית (קירילית)
az-Cyrl
Cyrl
בלארוסית
be
Cyrl
בולגרית
bg
Cyrl
בוסנית
bs
Latn
קטלאנית
ca
Latn
סבואנו
ceb
Latn
צ'כית
cs
Latn
וולשית
cy
Latn
דנית
da
Latn
גרמנית
de
Latn
יוונית
el
Grek
אנגלית
en
Latn
אספרנטו
eo
Latn
ספרדית
es
Latn
אסטונית
et
Latn
בסקית
eu
Latn
פרסית
fa
Arab
פינית
fi
Latn
פיליפינית
fil
Latn
צרפתית
fr
Latn
אירית
ga
Latn
גליציאנית
gl
Latn
הינדית
hi
Deva
קרואטית
hr
Latn
קריאולית של האיטי
ht
Latn
הונגרית
hu
Latn
אינדונזית
id
Latn
איסלנדית
is
Latn
איטלקית
it
Latn
עברית
iw
Hebr
יפנית
ja
Jpan
ג'אווה
jv
Latn
קזחית
kk
Cyrl
קוריאנית
ko
Kore
קירגיזית
ky
Cyrl
לטינית
la
Latn
ליטאית
lt
Latn
לטבית
lv
Latn
מקדונית
mk
Cyrl
מונגולית
mn
Cyrl
מראטהית
mr
Deva
מלאית
ms
Latn
מלטית
mt
Latn
נפאלית
ne
Deva
הולנדית
nl
Latn
נורווגית
no
Latn
פולנית
pl
Latn
פשטו
ps
Arab
פורטוגזית (פורטוגל וברזיל)
pt
Latn
רומנית
ro
Latn
רוסית
ru
Cyrl
רוסית (Petrine Orthography)
ru-PETR1708
Cyrl
סנסקריט
sa
Deva
סלובקית
sk
Latn
סלובנית
sl
Latn
אלבנית
sq
Latn
סרבית
sr
Cyrl
שוודית
sv
Latn
סווהילי
sw
Latn
טגלוג
tl
Latn
טורקית
tr
Latn
אוקראינית
uk
Cyrl
אורדו
ur
Arab
אוזבקית
uz
Latn
אוזבקית (קירילית)
uz-Cyrl
Cyrl
וייטנאמית
vi
Latn
יידיש
yi
Hebr
סינית פשוטה
zh-Hans
Hani
סינית מסורתית
zh-Hant
Hani
זולו
zu
Latn
גרסאות של מעבדים
מזהה גרסה
ערוץ הפצה
סיווג הגרסה
תיאור
pretrained-foundation-model-v1.5-2025-05-05
יציב
GA
מועמד מוכן לייצור שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. מומלץ למי שרוצה להתנסות במודלים חדשים יותר.
pretrained-foundation-model-v1.5-pro-2025-06-20
יציב
GA
מודל מוכן לייצור שמבוסס על Gemini 2.5 Pro LLM. תומך במכסה של עד 30 דפים בדקה לבקשות של תהליכים אונליין. האיכות של המודל הזה גבוהה יותר בהשוואה לגרסה 1.5, ויכול להיות שזמן האחזור שלו ארוך יותר.
pretrained-foundation-model-v1.5.1-2025-08-07
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
מודל בגרסת טרום-השקה (Preview) לציבור הרחב שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. למודל הזה יש את אותן תכונות כמו לגרסה 1.5, והוא כולל שיפורים בלמידה דינמית עם מעט דוגמאות.
pretrained-foundation-model-v1.6-pro-2025-12-01
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
מודל בגרסת טרום-השקה שמבוסס על מודל שפה גדול (LLM) של Gemini 3 Pro.
pretrained-foundation-model-v1.6-2026-01-13
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
מודל בגרסת טרום-השקה שמבוסס על Gemini 3 Flash LLM.
חילוץ של צמדי מפתח/ערך כלליים (ישות ותיבת סימון), טבלאות וישויות גנריות ממסמכים, בנוסף לטקסט OCR.
מעבד הנתונים הזה משתמש בטכנולוגיות מתקדמות של למידת מכונה כדי לחלץ זוגות של מפתח וערך, תיבות סימון וטבלאות ממסמכים ביותר מ-200 שפות. המעבד הזה משתמש גם במודלים של למידה עמוקה כדי לחלץ 11 ישויות גנריות שמשותפות לסוגים שונים של מסמכים.
מחלק את התוכן של המסמך (טקסט, טבלאות ורשימות) לחלקים קטנים בהתאם להקשר.
הכלי Layout Parser מחלץ אלמנטים של תוכן ממסמכים, כמו טקסט, טבלאות ורשימות, ויוצר נתחים מודעים-הקשר שמקלים על אחזור מידע בבינה מלאכותית גנרטיבית ובאפליקציות לחיפוש.
הכלי הזה תומך בקובצי PDF, HTML, DOCX, PPTX ו-XLSX/XLSM.
שפות נתמכות
רשימה מלאה של שפות
שם השפה
תג BCP 47
Script
תמיכה בכתב יד
אפריקאנס
af
Latn
אלבנית
sq
Latn
ערבית
ar
Arab
ארמנית
hy
Armn
בלארוסית
be
Cyrl
בנגלית
bn
Beng
בנגלית
bn
Beng
בולגרית
bg
Cyrl
קטלאנית
ca
Latn
סינית
zh
Hani
קרואטית
hr
Latn
צ'כית
cs
Latn
דנית
da
Latn
הולנדית
nl
Latn
אנגלית
en
Latn
אסטונית
et
Latn
פיליפינית
fil
Latn
פינית
fi
Latn
צרפתית
fr
Latn
גרמנית
de
Latn
יוונית
el
Grek
גוג'ארטי
gu
Gujr
עברית
iw
Hebr
הינדית
hi
Deva
הונגרית
hu
Latn
איסלנדית
is
Latn
אינדונזית
id
Latn
איטלקית
it
Latn
יפנית
ja
Jpan
קנאדה
kn
Knda
חמר
km
Khmr
קוריאנית
ko
Kore
לאו
lo
Laoo
לטבית
lv
Latn
ליטאית
lt
Latn
מקדונית
mk
Cyrl
מלאית
ms
Latn
מלאיאלאם
ml
Mlym
מראטהית
mr
Deva
נפאלית
ne
Deva
נורווגית
no
Latn
פרסית
fa
Arab
פולנית
pl
Latn
פורטוגזית (פורטוגל וברזיל)
pt
Latn
פנג'אבית
pa
Guru
רומנית
ro
Latn
רוסית
ru
Cyrl
סרבית
sr
Cyrl
סלובקית
sk
Latn
סלובנית
sl
Latn
ספרדית
es
Latn
שוודית
sv
Latn
טגלוג
tl
Latn
טמילית
ta
Taml
טלוגו
te
Telu
תאית
th
Thai
טורקית
tr
Latn
אוקראינית
uk
Cyrl
וייטנאמית
vi
Latn
יידיש
yi
Hebr
גרסאות של מעבדים
מזהה גרסה
ערוץ הפצה
סיווג הגרסה
תיאור
pretrained-layout-parser-v1.0-2024-06-03
יציב
GA
גרסה זמינה לכלל המשתמשים לניתוח פריסת מסמכים. זוהי גרסת המעבד שאומנה מראש ומוגדרת כברירת מחדל.
pretrained-layout-parser-v1.5-2025-08-25
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסת טרום-השקה (Preview) שמבוססת על מודל Gemini 2.5 Flash LLM לניתוח טוב יותר של פריסות בקובצי PDF. מומלץ למי שרוצה להתנסות בגרסאות חדשות.
pretrained-layout-parser-v1.5-pro-2025-08-25
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסת טרום-השקה שמבוססת על מודל שפה גדול (LLM) של Gemini 2.5 Pro לניתוח טוב יותר של פריסות בקובצי PDF. זמן האחזור בגרסה 1.5-pro גבוה יותר מאשר בגרסה 1.5.
pretrained-layout-parser-v1.6-pro-2025-12-01
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסת טרום-השקה (Preview) שמבוססת על מודל שפה גדול (LLM) של Gemini 3.0 Pro.
pretrained-layout-parser-v1.6-2026-01-13
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסת טרום-השקה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.0 Flash.
אם דף בקובץ קלט מרובה דפים הוא מסוג המסמך הנכון ואחת מהגרסאות הנתמכות, המעבד מבצע חילוץ ישויות במסמך הנתמך הראשון. אם המעבד לא מוצא קבצים רלוונטיים בקובץ הקלט, הוא מחזיר הודעת שגיאה.
שפות נתמכות
שם השפה
תג BCP 47
Script
תמיכה בכתב יד
אנגלית
en
Latn
גרסאות של מעבדים
מזהה גרסה
ערוץ הפצה
סיווג הגרסה
תיאור
pretrained-bankstatement-v1.0-2021-08-08
יציב
GA
pretrained-bankstatement-v1.1-2021-08-13
יציב
GA
pretrained-bankstatement-v2.0-2021-12-10
יציב
GA
pretrained-bankstatement-v3.0-2022-05-16
יציב
GA
בגרסה הזו מניחים שקובץ הקלט מכיל דף חשבון בנק יחיד. בניגוד לגרסת ברירת המחדל, הגרסה הזו לא בודקת אם קובץ הקלט מכיל דפי חשבון בנק, ולא תחזיר שגיאה אם לא יימצאו דפי חשבון בנק.
אם דף בקובץ קלט מרובה דפים הוא מסוג המסמך הנכון ואחת מהגרסאות הנתמכות, המעבד מבצע חילוץ ישויות במסמך הנתמך הראשון. אם המעבד לא מוצא קבצים רלוונטיים בקובץ הקלט, הוא מחזיר הודעת שגיאה.
שיפורים באיכות ותמיכה בשדות של תיבה 12 ובתחזיות מפורטות של EmployeeName, EmployeeAddress ו-EmployerNameAndAddress. כל אלה כבר לא חלק מהפלט והוחלפו בשדות נוספים.
התכונה 'זיהוי כפילויות באינטרנט' מעובדת כרגע במרכזי נתונים בארה"ב. התכונה הזו לא זמינה מחוץ לארה"ב, ולכן אין תמיכה אזורית או רב-אזורית.
המעבד הזה נתמך על ידי אלגוריתמים שמתעדכנים בתדירות גבוהה יותר מהתדירות שבה יוצאות גרסאות חדשות של המעבד. לכן, יכול להיות שהמעבד יחזיר פלט שונה לאורך זמן, גם אם משתמשים באותה גרסת מעבד. לדוגמה, המערכת לזיהוי כפילויות באינטרנט עוקבת אחרי תמונות שמופיעות באינטרנט. ההתנהגות של המערכת יכולה להשתנות מהר יותר ממה שאפשר לעקוב אחריו בגרסאות המעבד.
אפשר לעיין בהערות בנושא אתיקה של בינה מלאכותית[†] ובנושא בדיקה על ידי אדם.[‡]
שפות נתמכות
שם השפה
תג BCP 47
Script
תמיכה בכתב יד
אנגלית
en
Latn
גרסאות נתמכות
תמיכה בדרכונים, בכרטיסי דרכון וברישיונות נהיגה בארה"ב.
אם מסמך הקלט הרב-דפי מכיל יותר מתלוש שכר תקף אחד, המעבד מחלץ ישויות רק מתלוש השכר התקף הראשון. אם לא נמצאו תלושי שכר בקובץ הקלט, המעבד יחזיר הודעת שגיאה.
שפות נתמכות
שם השפה
תג BCP 47
Script
תמיכה בכתב יד
אנגלית
en
Latn
גרסאות של מעבדים
מזהה גרסה
ערוץ הפצה
סיווג הגרסה
זוהו שדות נוספים
תיאור
pretrained-paystub-v1.0-2021-03-19
יציב
GA
ללא
pretrained-paystub-v1.1-2021-08-13
יציב
GA
הצגת שדות
net_pay
net_pay_ytd
employee_account_number
שיפור האיכות ותמיכה בשדות חדשים.
pretrained-paystub-v1.2-2021-12-10
יציב
GA
ללא
pretrained-paystub-v2.0-2022-05-17
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
הצגת שדות
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
בגרסה הזו מניחים שקובץ הקלט מכיל תלוש שכר אחד. בניגוד לגרסת ברירת המחדל, הגרסה הזו לא בודקת אם קובץ הקלט מכיל תלושי שכר, ולא תחזיר שגיאה אם לא יימצאו תלושי שכר.
שיפור האיכות, תמיכה בשדות חדשים וסכימה חדשה. השדות Bonus, Commissions, Holiday, Overtime, Regular Pay ו-Vacation הם עכשיו חלק מהשדה earning_item/earning_this_period, והגרסאות שלהם מתחילת השנה מופיעות בשדה earning_item/earning_ytd. השדות Direct Deposit (הפקדה ישירה) ו-Employee Account Number (מספר חשבון העובד) מוצבים עכשיו בתוך השדה direct_deposit_item.
מודל מוכן לייצור שמבוסס על מודל שפה גדול (LLM) Gemini 2.5 Flash. כולל גם תכונות OCR מתקדמות. אפשר להשתמש במודל הזה שעבר אימון מראש בלי לבצע אימון מוקדם. הוא תומך בסיווג ללא דוגמאות ומספק תמיכה טובה יותר לסיווג כללי.
pretrained-classifier-v1.6-2026-03-09
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Flash.
pretrained-classifier-v1.6-pro-2026-03-09
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Pro.
אפשר לתמוך ב-i18n רק באמצעות אפשרויות אימון בהתאמה אישית.
שפות נתמכות
שם השפה
תג BCP 47
Script
תמיכה בכתב יד
אנגלית
en
Latn
גרסאות של מעבדים
מזהה גרסה
ערוץ הפצה
סיווג הגרסה
תיאור
pretrained-splitter-v1.5-2025-07-14
יציב
GA
מודל GA שמבוסס על מודל שפה גדול (LLM) של Gemini 2.5 Flash. אפשר להשתמש במודל הזה שעבר אימון מראש בלי לבצע אימון מוקדם. היא תומכת בחלוקה לסגמנטים ובסיווג ללא דוגמאות.
pretrained-splitter-v1.6-2026-03-09
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Flash.
pretrained-splitter-v1.6-pro-2026-03-09
גרסה מועמדת להפצה
גרסת טרום-השקה ציבורית
גרסה מועמדת להפצה שמבוססת על מודל שפה גדול (LLM) של Gemini 3.1 Pro.
[†]
אימות תעודה מזהה פועל כדי לחלץ ולהעריך מידע ממסמכים מזהים, שמסייע לקבוע אם התמונה שהוזנה מייצגת תעודה מזהה מקורית.
ב- Google Cloud, אנחנו שמים בראש סדר העדיפויות את העזרה ללקוחות בפיתוח ובהטמעה של פתרונות AI בצורה בטוחה, והאימות של הזהות פותח בהתאם לעקרונות ה-AI של Google.
בהתאם לעקרונות ה-AI של Google ולעיצוב המוצר הנוכחי, אנחנו ממליצים מאוד לנקוט משנה זהירות ולהעריך בקפידה את היתרונות והסיכונים הפוטנציאליים של השימוש באימות מסמכי זהות במקרים הבאים:
קבלת החלטות ללא מעורבות אנושית לגבי תחזיות שיכולות להשפיע על זכויות אדם.
בתחומים רגישים, כולל, בין היתר, תעסוקה, גישה לשירותים ציבוריים, שירותי בריאות והקשרים שקשורים לבטיחות.
[‡] תמיד צריך להשתמש באימות זהות כחלק מתהליך העבודה הרחב יותר לזיהוי זהויות.
חשוב שבתהליך העבודה שלכם תהיה בדיקה אנושית כדי לוודא שהאותות החזויים מדויקים. מעבד האימות לא נועד להחליף את הבדיקה האנושית של תעודות מזהות בתהליך עבודה, אלא לסייע לבודקים אנושיים באימות מסמכי זיהוי. אין להשתמש במעבד של אימות הזהות ככלי אוטומטי לקבלת החלטות כדי לקבוע אם תעודה מזהה תקפה. בעזרת בדיקות אנושיות, לקוחות יכולים להשיג רמת דיוק גבוהה יותר בעיבוד מסמכים, ולעזור לעסקים להעריך תחזיות באמצעות כלים ייעודיים שמאפשרים את הבדיקות האלה.
חשוב לעיין בתקנות באזור שבו אתם מטמיעים את הטכנולוגיה הזו, ולחקור את ההנחיות הקיימות בתעשייה כדי לקבל מידע על הנחיות המדיניות ועל בעיות נפוצות שקשורות להוגנות. כדאי לקרוא על הוגנות בלמידת מכונה, כולל דרכים לצמצום הטיה במערכי נתונים לאימון, הערכת המודלים המותאמים אישית שלכם כדי לזהות הבדלים בביצועים ושיקולים נוספים לשימוש במודל המותאם אישית.
אנחנו ממליצים ללקוחות להקפיד על שיטות מומלצות בנושא שימוש הוגן, פרשנות, פרטיות ואבטחה כשמטמיעים אימות זהות. כדי לקבל מידע נוסף על הטמעה של AI אחראי, אפשר לקרוא את ההמלצות של Google לשיטות עבודה אחראיות בתחום ה-AI.
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["התוכן קשה להבנה","hardToUnderstand","thumb-down"],["שגיאות בקוד לדוגמה או במידע","incorrectInformationOrSampleCode","thumb-down"],["חסרים לי פרטים או דוגמאות","missingTheInformationSamplesINeed","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2026-07-01 (שעון UTC)."],[],[]]