Bahasa dunia yang didukung

Penelusuran dan rekomendasi mendukung bahasa dunia berikut.

Penelusuran commerce

Melihat bahasa yang didukung

Bahasa yang didukung
AlbaniaKorea
ArabLatvia
ArmeniaLituania
AssamMakedonia
AzerbaijanMelayu
BaskaMarathi
Bengali (Bangla)Mongol
BulgariaNepal
BurmaNorwegia
KatalanOdia
China (aksara sederhana)Persia
China (aksara tradisional)Polandia
KroasiaPortugis (Eropa)
CekoPortugis (Brasil)
DenmarkPunjab
BelandaRumania
InggrisRusia
EstoniaSerbia
FinlandiaSerbia (Sirilik)
Prancis (Eropa)Sinhala
Prancis (Kanada)Slovakia
GeorgiaSlovenia
JermanSpanyol (Eropa)
YunaniSpanyol (Amerika Latin)
GujaratSwahili
IbraniSwedia
HindiTamil
HungariaTelugu
IslandiaThai
IndonesiaTurki
ItaliaUkraina
JepangUrdu (India)
KannadaUrdu (Pakistan)
KazakUzbek
KhmerVietnam

Anda menetapkan bahasa saat mengupload katalog untuk project Vertex AI Search for commerce. Katalog hanya boleh menggunakan satu bahasa dan kueri penelusuran harus dikirim dalam bahasa yang sama. Memiliki beberapa bahasa dalam katalog akan menurunkan performa LLM.

Rekomendasi

Sebagian besar bahasa didukung. Model ini otomatis mendeteksi bahasa teks.

Melihat bahasa yang didukung

Nama Bahasa Nama Skrip
Afrika Latin
Amhara Etiopik
Arab Arab
Bulgaria Sirilik
Bulgaria Latin
Bangla Bangla
Bosnia Latin
Katalan Latin
Cebuano Latin
Korsika Latin
Ceko Latin
Wales Latin
Denmark Latin
Jerman Latin
Yunani Yunani
Yunani Latin
Inggris Latin
Esperanto Latin
Spanyol Latin
Estonia Latin
Baska Latin
Persia Arab
Finlandia Latin
Filipina Latin
Prancis Latin
Frisia Barat Latin
Irlandia Latin
Gaelik Skotlandia Latin
Galisia Latin
Gujarat Gujarat
Hausa Latin
Hawaii Latin
Hindi Devanagari
Hindi Latin
Hmong Latin
Kroasia Latin
Kreol Haiti Latin
Hungaria Latin
Armenia Armenia
Indonesia Latin
Igbo Latin
Islandia Latin
Italia Latin
Ibrani Ibrani
Jepang Jepang
Jepang Latin
Jawa Latin
Georgia Georgia
Kazak Sirilik
Khmer Khmer
Kannada Kannada
Korea Korea
Kurdi Latin
Kirgiz Sirilik
Latin Latin
Luksemburg Latin
Laos Laos
Lituania Latin
Latvia Latin
Malagasi Latin
Maori Latin
Makedonia Sirilik
Malayalam Malayalam
Mongol Sirilik
Marathi Devanagari
Melayu Latin
Malta Latin
Burma Myanmar
Nepal Devanagari
Belanda Latin
Norwegia Latin
Nyanja Latin
Punjab Gurmukhi
Polandia Latin
Pashtun Arab
Portugis Latin
Rumania Latin
Rusia Sirilik
Rusia Inggris
Sindhi Arab
Sinhala Sinhala
Slovakia Latin
Slovenia Latin
Samoa Latin
Shona Latin
Somali Latin
Albania Latin
Serbia Sirilik
Sotho Selatan Latin
Sunda Latin
Swedia Latin
Swahili Latin
Tamil Tamil
Telugu Telugu
Tajik Sirilik
Thai Thai
Turki Latin
Ukraina Sirilik
Urdu Arab
Uzbek Latin
Vietnam Latin
Xhosa Latin
Yiddi Ibrani
Yoruba Latin
Cina Han (termasuk Sederhana dan Tradisional)
Cina Latin
Zulu Latin

Untuk mengetahui daftar semua bahasa yang dapat dideteksi secara otomatis, lihat README GitHub Compact Language Detector.

Normalisasi dan tokenisasi bahasa

Mesin Vertex AI Search untuk e-commerce memiliki pemrosesan bawaan karakter China atau Jepang tanpa spasi dan menormalisasi diakritik Eropa. Hal ini menghilangkan kebutuhan untuk membuat lapisan terjemahan pra-pemrosesan eksklusif ke dalam aplikasi penelusuran Anda.

  • Normalisasi karakter non-Inggris: Mesin telusur menyediakan dukungan bawaan UTF-8 dan otomatis menormalisasi diakritik dan umlaut selama pengindeksan dan kueri (seperti memetakan ä ke a atau ae, dan é ke e). Hal ini memungkinkan pengguna menelusuri cafe dan menemukan café dengan lancar.
  • Tokenisasi CJK (Kanji dan Katakana): Untuk bahasa China, Jepang, dan Korea (CJK), mesin tidak mengandalkan spasi untuk tokenisasi. Alat ini menggunakan segmentasi berbasis kamus dan analisis morfologi untuk memecah string karakter Kanji, Hiragana, Katakana, atau Han menjadi token logis yang dapat ditelusuri.
  • Aturan ketat satu bahasa: Katalog dan kueri penelusuran Anda harus dalam bahasa yang sama. AI tidak menerjemahkan kueri penelusuran (dengan kata lain, kueri dalam bahasa Spanyol tidak akan cocok dengan katalog dalam bahasa Inggris). Mencampur bahasa akan sangat menurunkan performa model.
  • Solusi multibahasa: Jika katalog harus mendukung kueri dalam berbagai bahasa, gunakan kontrol twowaySynonymsAction atau onewaySynonymsAction untuk memetakan istilah kueri kustom (seperti sinonim dalam bahasa Spanyol) secara manual ke bahasa katalog default (seperti bahasa Inggris).

Untuk mengetahui informasi selengkapnya tentang setelan bahasa, lihat Tentang katalog dan produk.