Penelusuran dan rekomendasi mendukung bahasa dunia berikut.
Penelusuran commerce
Melihat bahasa yang didukung
| Bahasa yang didukung | |
|---|---|
| Albania | Korea |
| Arab | Latvia |
| Armenia | Lituania |
| Assam | Makedonia |
| Azerbaijan | Melayu |
| Baska | Marathi |
| Bengali (Bangla) | Mongol |
| Bulgaria | Nepal |
| Burma | Norwegia |
| Katalan | Odia |
| China (aksara sederhana) | Persia |
| China (aksara tradisional) | Polandia |
| Kroasia | Portugis (Eropa) |
| Ceko | Portugis (Brasil) |
| Denmark | Punjab |
| Belanda | Rumania |
| Inggris | Rusia |
| Estonia | Serbia |
| Finlandia | Serbia (Sirilik) |
| Prancis (Eropa) | Sinhala |
| Prancis (Kanada) | Slovakia |
| Georgia | Slovenia |
| Jerman | Spanyol (Eropa) |
| Yunani | Spanyol (Amerika Latin) |
| Gujarat | Swahili |
| Ibrani | Swedia |
| Hindi | Tamil |
| Hungaria | Telugu |
| Islandia | Thai |
| Indonesia | Turki |
| Italia | Ukraina |
| Jepang | Urdu (India) |
| Kannada | Urdu (Pakistan) |
| Kazak | Uzbek |
| Khmer | Vietnam |
Anda menetapkan bahasa saat mengupload katalog untuk project Vertex AI Search for commerce. Katalog hanya boleh menggunakan satu bahasa dan kueri penelusuran harus dikirim dalam bahasa yang sama. Memiliki beberapa bahasa dalam katalog akan menurunkan performa LLM.
Rekomendasi
Sebagian besar bahasa didukung. Model ini otomatis mendeteksi bahasa teks.
Melihat bahasa yang didukung
| Nama Bahasa | Nama Skrip |
|---|---|
| Afrika | Latin |
| Amhara | Etiopik |
| Arab | Arab |
| Bulgaria | Sirilik |
| Bulgaria | Latin |
| Bangla | Bangla |
| Bosnia | Latin |
| Katalan | Latin |
| Cebuano | Latin |
| Korsika | Latin |
| Ceko | Latin |
| Wales | Latin |
| Denmark | Latin |
| Jerman | Latin |
| Yunani | Yunani |
| Yunani | Latin |
| Inggris | Latin |
| Esperanto | Latin |
| Spanyol | Latin |
| Estonia | Latin |
| Baska | Latin |
| Persia | Arab |
| Finlandia | Latin |
| Filipina | Latin |
| Prancis | Latin |
| Frisia Barat | Latin |
| Irlandia | Latin |
| Gaelik Skotlandia | Latin |
| Galisia | Latin |
| Gujarat | Gujarat |
| Hausa | Latin |
| Hawaii | Latin |
| Hindi | Devanagari |
| Hindi | Latin |
| Hmong | Latin |
| Kroasia | Latin |
| Kreol Haiti | Latin |
| Hungaria | Latin |
| Armenia | Armenia |
| Indonesia | Latin |
| Igbo | Latin |
| Islandia | Latin |
| Italia | Latin |
| Ibrani | Ibrani |
| Jepang | Jepang |
| Jepang | Latin |
| Jawa | Latin |
| Georgia | Georgia |
| Kazak | Sirilik |
| Khmer | Khmer |
| Kannada | Kannada |
| Korea | Korea |
| Kurdi | Latin |
| Kirgiz | Sirilik |
| Latin | Latin |
| Luksemburg | Latin |
| Laos | Laos |
| Lituania | Latin |
| Latvia | Latin |
| Malagasi | Latin |
| Maori | Latin |
| Makedonia | Sirilik |
| Malayalam | Malayalam |
| Mongol | Sirilik |
| Marathi | Devanagari |
| Melayu | Latin |
| Malta | Latin |
| Burma | Myanmar |
| Nepal | Devanagari |
| Belanda | Latin |
| Norwegia | Latin |
| Nyanja | Latin |
| Punjab | Gurmukhi |
| Polandia | Latin |
| Pashtun | Arab |
| Portugis | Latin |
| Rumania | Latin |
| Rusia | Sirilik |
| Rusia | Inggris |
| Sindhi | Arab |
| Sinhala | Sinhala |
| Slovakia | Latin |
| Slovenia | Latin |
| Samoa | Latin |
| Shona | Latin |
| Somali | Latin |
| Albania | Latin |
| Serbia | Sirilik |
| Sotho Selatan | Latin |
| Sunda | Latin |
| Swedia | Latin |
| Swahili | Latin |
| Tamil | Tamil |
| Telugu | Telugu |
| Tajik | Sirilik |
| Thai | Thai |
| Turki | Latin |
| Ukraina | Sirilik |
| Urdu | Arab |
| Uzbek | Latin |
| Vietnam | Latin |
| Xhosa | Latin |
| Yiddi | Ibrani |
| Yoruba | Latin |
| Cina | Han (termasuk Sederhana dan Tradisional) |
| Cina | Latin |
| Zulu | Latin |
Untuk mengetahui daftar semua bahasa yang dapat dideteksi secara otomatis, lihat README GitHub Compact Language Detector.
Normalisasi dan tokenisasi bahasa
Mesin Vertex AI Search untuk e-commerce memiliki pemrosesan bawaan karakter China atau Jepang tanpa spasi dan menormalisasi diakritik Eropa. Hal ini menghilangkan kebutuhan untuk membuat lapisan terjemahan pra-pemrosesan eksklusif ke dalam aplikasi penelusuran Anda.
- Normalisasi karakter non-Inggris: Mesin telusur menyediakan dukungan bawaan UTF-8 dan otomatis menormalisasi diakritik dan umlaut selama pengindeksan dan kueri (seperti memetakan
äkeaatauae, danékee). Hal ini memungkinkan pengguna menelusuri cafe dan menemukan café dengan lancar. - Tokenisasi CJK (Kanji dan Katakana): Untuk bahasa China, Jepang, dan Korea (CJK), mesin tidak mengandalkan spasi untuk tokenisasi. Alat ini menggunakan segmentasi berbasis kamus dan analisis morfologi untuk memecah string karakter Kanji, Hiragana, Katakana, atau Han menjadi token logis yang dapat ditelusuri.
- Aturan ketat satu bahasa: Katalog dan kueri penelusuran Anda harus dalam bahasa yang sama. AI tidak menerjemahkan kueri penelusuran (dengan kata lain, kueri dalam bahasa Spanyol tidak akan cocok dengan katalog dalam bahasa Inggris). Mencampur bahasa akan sangat menurunkan performa model.
- Solusi multibahasa: Jika katalog harus mendukung kueri dalam berbagai bahasa, gunakan kontrol
twowaySynonymsActionatauonewaySynonymsActionuntuk memetakan istilah kueri kustom (seperti sinonim dalam bahasa Spanyol) secara manual ke bahasa katalog default (seperti bahasa Inggris).
Untuk mengetahui informasi selengkapnya tentang setelan bahasa, lihat Tentang katalog dan produk.