תמיכה בשפות ב-OCR

התכונה לזיהוי טקסט ב-Cloud Vision יכולה לזהות שפות רבות, כולל כמה שפות בתמונה אחת. אם ל-Vision API יש בעיה בזיהוי שפה באופן אוטומטי, אפשר לספק רמז לשפה כדי לשפר את פלט הזיהוי.

כדי להשתמש בתכונות האלה ולציין שפות, אפשר לעיין במדריכים בנושא זיהוי טקסט או זיהוי כתב יד. כדי לנסות לזהות טקסט עם רמז לשפה ישירות בדפדפן, אפשר לעיין בקטע נסו בדפים בנושא זיהוי טקסט.

ציון רמזים לגבי השפה

אפשר לציין רמזים לגבי השפה ב-ImageContext של בקשה כרשימה של languageHints עבור בקשת TEXT_DETECTION או DOCUMENT_TEXT_DETECTION.

כל פרמטר של קוד שפה מורכב ממזהה BCP-47. בפרמטר הזה משתמשים בפורמט language-region, כאשר:

  • שפה: השפה הראשית.
  • region: אזור אופציונלי, בדרך כלל מזהה מדינה, לדיאלקט ספציפי.

לדוגמה, סינית יכולה להיות סינית פשוטה, כמו שכותבים אותה ברפובליקה העממית של סין (zh-Hans), או סינית מסורתית, כמו שכותבים אותה בטייוואן (zh-Hant).

תכונת זיהוי הטקסט תומכת בשלוש רמות של שפה:

  1. שפות נתמכות הן שפות ש-Google נותנת להן עדיפות ומעריכה את הביצועים שלהן באופן קבוע.
  2. שפות ניסיוניות הן שפות שנמצאות בפיתוח פעיל, אבל הביצועים שלהן לא נבדקים באופן קבוע.
  3. שפות ממופות נתמכות על ידי מיפוי לקוד שפה אחר או למערכת כללית לזיהוי תווים. לדוגמה, en-GB נחשב כמו en בזיהוי טקסט. ‫Google מנסה להחזיר את קוד השפה הנכון שמופה בשדה Entity locale, אבל יש סיכוי גבוה יותר לזיהוי שגוי של השפות האלה כשפות דומות, בהשוואה לשפות שנתמכות באופן מלא או לשפות ניסיוניות.

אם לא מציינים את רמז השפה, השירות מנסה לזהות באופן אוטומטי את השפה המתאימה ביותר. פרטים נוספים:

  • נקודת הקצה TEXT_DETECTION מזהה אוטומטית רק קבוצת משנה של שפות נתמכות.
  • נקודת הקצה DOCUMENT_TEXT_DETECTION מזהה באופן אוטומטי את כל השפות הנתמכות.

ברשימה הבאה מופיעות השפות (עם קודי languageHint שמשויכים אליהן) שנתמכות על ידי TEXT_DETECTION ו-DOCUMENT_TEXT_DETECTION.

שפות נתמכות

השפות הבאות מקבלות עדיפות ונבדקות באופן קבוע.

כדי לסנן את רשימת השפות, מקלידים את שם השפה בתיבת החיפוש:

שפה שפה (שם באנגלית) קוד אחד (languageHints) Script הערות
Afrikaans אפריקאנס af Latn
shqip אלבנית sq Latn
العربية ערבית ar Arab מודרני
Հայ ארמנית hy Armn
беларуская בלארוסית be Cyrl
বাংলা בנגלית bn Beng
български בולגרית bg Cyrl
Català קטלאנית ca Latn
普通话 סינית zh Hans/Hant
Hrvatski קרואטית hr Latn
Čeština צ'כית cs Latn
Dansk דנית da Latn
Nederlands הולנדית nl Latn
English אנגלית en Latn American
Eesti keel אסטונית et Latn
Filipino פיליפינית fil Latn
Suomi פינית fi Latn
Français צרפתית fr Latn שפות אירופאיות
Deutsch גרמנית de Latn
Ελληνικά יוונית el Grek
ગુજરાતી גוג'ראטי gu Gujr
עברית עברית iw Hebr
हिन्दी הינדית hi Deva
Magyar הונגרית hu Latn
Íslenska איסלנדית is Latn
Bahasa Indonesia אינדונזית id Latn
Italiano איטלקית it Latn
日本語 יפנית ja Jpan
ಕನ್ನಡ קנאדה kn Knda
ភាសាខ្មែរ חמר km Khmr
한국어 קוריאנית ko Kore
ລາວ לאו lo Laoo
Latviešu לטבית lv Latn
Lietuvių ליטאית lt Latn
Македонски מקדונית mk Cyrl
Bahasa Melayu מלאית ms Latn
മലയാളം מלאיאלאם ml Mlym
मराठी מראטהית mr Deva
नेपाली נפאלית ne Deva
Norsk נורווגית no Latn בוקמול
فارسی פרסית fa Arab
Polski פולנית pl Latn
Português פורטוגזית pt Latn ברזילאית
ਪੰਜਾਬੀ פנג'אבית pa Guru גורמוקי
Română רומנית ro Latn
Русский רוסית ru Cyrl
Русский (старая орфография) רוסית ru-PETR1708 Cyrl כתב עתיק
Српски סרבית sr Cyrl
Српски (латиница) סרבית sr-Latn Latn
Slovenčina סלובקית sk Latn
Slovenščina סלובנית sl Latn
Español ספרדית es Latn שפות אירופאיות
Svenska שוודית sv Latn
Tagalog טגלוג tl Latn
தமிழ் טמילית ta Taml
తెలుగు טלוגו te Telu
ไทย תאית th Thai
Türkçe טורקית tr Latn
Українська אוקראינית uk Cyrl
Tiếng Việt וייטנאמית vi Latn
Yiddish יידיש yi Hebr

שפות בשלבי ניסוי

השפות הבאות נמצאות בפיתוח פעיל ועדיין לא נבדקות באופן קבוע:

שפה שפה (שם באנגלית) קוד אחד (languageHints) Script הערות
አማርኛ אמהרית am Ethi
Αρχαία ελληνικά יוונית עתיקה grc Grek
অসমীয়া אסאמית as Beng
Azərbaycan אזרית az Latn
Azərbaycan (qədim yazı) אזרית az-Cyrl Cyrl כתב עתיק
Euskara בסקית eu Latn
Bosanski בוסנית bs Latn
မြန်မာ בורמזית my Mymr
Cebuano סבואנו ceb Latn
ᏣᎳᎩ ᎦᏬᏂᎯᏍᏗ צ'רוקי chr Cher
dhivehi, dhivehi-bas דהיווהי dv Thaa
རྫོང་ཁ דזונקה dz Tibt
Esperanto אספרנטו eo Latn
Galego גליציאנית gl Latn
ქართული גרוזינית ka Geor
Kreyòl Ayisyen קריאולית של האיטי ht Latn
Gaeilge אירית ga Latn
Jawa ג'אווה jv Latn
Қазақ קזחית kk Cyrl
Kirghiz קירגיזית ky Cyrl
Latine לטינית la Latn
Malti מלטית mt Latn
Монгол מונגולית mn Cyrl
ଓଡ଼ିଆ אורייה or Orya
پښتو פשטו ps Arab
संस्कृतम् סנסקריט sa Deva
සිංහල סינהלה si Sinh
Swahili סווהילי sw Latn
leššānā Suryāyā סורי אשורי syr Syriac
བོད་སྐད་ טיבטית bo Tibt
ትግርኛ תיגריניה ti Ethi
اردو אורדו ur Arab
oʻzbekcha אוזבקית uz Latn לטינית
oʻzbekcha אוזבקית uz-Cyrl Cyrl כתב עתיק
Cymraeg וולשית cy Latn
IsiZulu זולו zu Latn

שפות ממופות

השפות הבאות ממופות לקוד שפה אחר או ממופות לזיהוי כללי של תווים.

שפה שפה (שם באנגלית) קוד אחד (languageHints) Script הערות
بهسا اچيه אצ'ה ace Latn מודל לטיני
Lwo אקולית ach Latn מודל לטיני
Dangme Adangme ada Latn מודל לטיני
Akan אקאן ak Latn מודל לטיני
Anicinâbemowin Algonquinian alg Latn מודל לטיני
Mapudungu אראוכניאן/מפוצ'ה arn Latn מודל לטיני
Asturianu אסטורית ast Latn מודל לטיני
Dene Athabaskan ath Latn מודל לטיני
Aymar aru איימרה ay Latn מודל לטיני
Bhāṣa Bali באלינזית ban Latn מודל לטיני
Bamanankan באמבארה bm Latn מודל לטיני
Narrow Bantu Bantu bnt Latn מודל לטיני
башҡорт теле בשקירית ba Cyrl מודל קירילי
Toba–Batak באטאק btk Latn מודל לטיני
Chibemba במבה bem Latn מודל לטיני
Bikol Naga ביקול bik Latn מודל לטיני
Bichelamar ביסלמה bi Latn מודל לטיני
Brezhoneg ברטונית br Latn מודל לטיני
нохчийн мотт / noxçiyn mott צ'צ'נים ce Cyrl מודל קירילי
汉语 סינית (מנדרינית, פשוטה) zh-Hans Hans Chinese model
漢語 סינית (מנדרינית, מסורתית) zh-Hant Hant Chinese model
普通話 סינית (מנדרינית, הונג קונג) zh-Hant-HK Hant Chinese model
Chahta' צ'וקטו cho Latn מודל לטיני
Чӑвашла צ'ובאש cv Cyrl מודל קירילי
Cree–Montagnais–Naskapi קרי cr Latn מודל לטיני
Mvskoke ערוץ נחל mus Latn מודל לטיני
qırımtatar tili, къырымтатар тили טטארית של חצי האי קרים crh Latn מודל קירילי
Dakhótiyapi, Dakȟótiyapi דקוטה dak Latn מודל לטיני
Douala Duala dua Latn מודל לטיני
Ikɔ Efik אפיק efi Latn מודל לטיני
English (British) אנגלית (בריטית) en-GB Latn מודל לטיני
Èʋegbe אווה ee Latn מודל לטיני
føroyskt mál פארואזית fo Latn מודל לטיני
Na Vosa Vakaviti פיג'יאן fj Latn מודל לטיני
fɔ̀ngbè פון fon Latn מודל לטיני
Français canadien צרפתית (קנדית) fr-CA Latn מודל לטיני
Fulani, Fulah, Peul פולה ff Latn מודל לטיני
גא gaa Latn מודל לטיני
Luganda גאנדה lg Latn מודל לטיני
Basa Gayo גאיו gay Latn מודל לטיני
Kiribati גילברטית gil Latn מודל לטיני
Gothic גותית got Latn מודל לטיני
Guaraní גוארני gn Latn מודל לטיני
Harshen/Halshen Hausa هَرْشَن هَوْسَ האוסה ha Latn מודל לטיני
ʻŌlelo Hawaiʻi הוואית haw Latn מודל לטיני
Otjiherero Herero hz Latn מודל לטיני
Ilonggo אילונגו hil Latn מודל לטיני
Jaku Iban איבן iba Latn מודל לטיני
Asụsụ Igbo איגבו ig Latn מודל לטיני
Ilokano אילוקו ilo Latn מודל לטיני
Taqbaylit קביל kab Latn מודל לטיני
Jingpho קאצ'ין kac Latn מודל לטיני
Kalaallisut קאלאליסוט kl Latn מודל לטיני
Kikamba קאמבה kam Latn מודל לטיני
Kanuri קאנורי kr Latn מודל לטיני
Qaraqalpaq tili, Қарақалпақ тили, قاراقالپاق تىلى קארה-קלפק kaa Cyrl/Latn מודל קירילי
Ka Ktien Khasi קאסי kha Latn מודל לטיני
Gĩkũyũ קיקויו ki Latn מודל לטיני
Kinyarwanda קיניארואנדה rw Latn מודל לטיני
коми кыв קומי kv Cyrl מודל קירילי
Kikongo קונגו kg Latn מודל לטיני
Kosraean Kosraean kos Latn מודל לטיני
Oshikwanyama קואניאמה kj Latn מודל לטיני
Ngala לינגלה ln Latn מודל לטיני
Plattdütsch, Plattdeutsch, Nedersaksisch גרמנית תחתית nds Latn מודל לטיני
siLozi לוזי loz Latn מודל לטיני
Kiluba לובה-קאטאנגה lu Latn מודל לטיני
Dholuo לואו luo Latn מודל לטיני
Madhura, Basa Mathura, بَهاسَ مَدورا מאדורית mad Latn מודל לטיני
Malagasy מלגשית mg Latn מודל לטיני
Mandinka, لغة مندنكا מנדינגו man Latn מודל לטיני
Gaelg, Gailck מאנית gv Latn מודל לטיני
Te reo Māori מאורית mi Latn מודל לטיני
Ebon מרשלית mh Latn מודל לטיני
Mɛnde yia מנדה men Latn מודל לטיני
Middle English אנגלית ביניימית enm Latn מודל לטיני
Mittelhochdeutsch גרמנית בינונית צחה gmh Latn מודל לטיני
Baso Minangkabau, باسو مينڠكاباو מינאנגקבאו min Latn מודל לטיני
Kanienʼkéha מוהוק moh Latn מודל לטיני
Nkundu מונגו lol Latn מודל לטיני
Nāhuatl נאהואטל nah Latn מודל לטיני
Diné bizaad נבאחו nv Latn מודל לטיני
Ndonga נדונגה ng Latn מודל לטיני
ko e vagahau Niuē ניואאן niu Latn מודל לטיני
Zimbabwe Ndebele צפון נדבלה nd Latn מודל לטיני
Sesotho sa Leboa סוטו צפונית nso Latn מודל לטיני
Chichewa, Chinyanja ניאנג'ה ny Latn מודל לטיני
Runyankore ניאנקולה nyn Latn מודל לטיני
Chitonga ניאסה טונגה tog Latn מודל לטיני
Appolo נזימה nzi Latn מודל לטיני
Occitan, lenga d'òc, provençal אוקסיטנית oc Latn מודל לטיני
Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ אוג'יבווה oj Latn מודל לטיני
Ænglisc, Englisc, Anglisc אנגלית עתיקה ang Latn מודל לטיני
Franceis, François, Romanz צרפתית עתיקה fro Latn מודל לטיני
Diutisk, Althochdeutsch גרמנית צחה עתיקה goh Latn מודל לטיני
Dǫnsk tunga נורדית עתיקה non Latn מודל לטיני
Occitan ancian פרובנסלית עתיקה pro Latn מודל לטיני
ирон ӕвзаг אוסטית os Cyrl מודל קירילי
Kapampangan פמפנגה pam Latn מודל לטיני
Salitan Pangasinan פנגסינאן pag Latn מודל לטיני
Papiamentu פפיאמנטו pap Latn מודל לטיני
Português (Portugal) פורטוגזית (אירופאית) pt-PT Latn מודל לטיני
Kechua / Runa Simi קצ'ואה qu Latn מודל לטיני
Rumantsch רומנש rm Latn מודל לטיני
Romani čhib צוענית rom Latn מודל לטיני
Ikirundi רונדי rn Latn מודל לטיני
Sakha סאקה sah Cyrl מודל קירילי
Gagana faʻa Sāmoa סמואית sm Latn מודל לטיני
yângâ tî sängö סנגו sg Latn מודל לטיני
(Braid) Scots, Lallans, Doric סקוטית sco Latn מודל לטיני
Gàidhlig גאלית סקוטית gd Latn מודל לטיני
chiShona שונה sn Latn מודל לטיני
Songhay סונגהאי son Latn מודל לטיני
Sesotho ססות׳ו st Latn מודל לטיני
Español (Latinoamérica) ספרדית (אמריקה הלטינית) es-419 Latn מודל לטיני
ᮘᮞ ᮞᮥᮔ᮪ᮓ , Basa Sunda סונדנזית su Latn מודל לטיני
siSwati סוואטי ss Latn מודל לטיני
Reo Tahiti טאהיטית ty Latn מודל לטיני
тоҷикӣ טג'יקית tg Cyrl מודל קירילי
татар теле טטרית tt Cyrl/Latn מודל קירילי
KʌThemnɛ טמנה tem Latn מודל לטיני
lea faka-Tonga טונגן to Latn מודל לטיני
Xitsonga טסונגה ts Latn מודל לטיני
Setswana טסוואנה tn Latn מודל לטיני
Türkmençe טורקמנית tk Latn מודל קירילי
удмурт кыл אודמורט udm Cyrl מודל קירילי
Tshivenḓa ונדה ve Latn מודל לטיני
Vod ווטיק vot Cyrl/Latn מודל קירילי
Frysk פריזיאנית מערבית fy Latn מודל לטיני
Wolof וולוף wo Latn מודל לטיני
isiXhosa קוסה xh Latn מודל לטיני
Èdè Yorùbá יורובה yo Latn מודל לטיני
Diidxazá זפוטק zap Latn מודל לטיני

סקריפטים של כתב יד

התסריטים הבאים נתמכים לזיהוי כתב יד. בטבלאות השפות אפשר לראות אילו שפות משתמשות בכל סקריפט.

Script שם רמת תמיכה
Beng בנגלית ניסיוני
Cyrl קירילית ניסיוני
Deva דוואנאגארי ניסיוני
Grek יוונית ניסיוני
Hani סינית ניסיוני
Jpan יפנית נתמך
Kore קוריאנית נתמך
Latn לטינית נתמך
vi וייטנאמית ניסיוני