Langues disponibles

La recherche et les recommandations sont disponibles dans les langues suivantes.

Recherche pour le commerce

Afficher les langues disponibles

Langues disponibles
AlbanaisCoréen
ArabeLetton
ArménienLituanien
AssamaisMacédonien
AzériMalaisien
BasqueMarathi
BengaliMongol
BulgareNépalais
BirmanNorvégien
CatalanOdia
Chinois (simplifié)Persan
Chinois (traditionnel)Polonais
CroatePortugais (Europe)
TchèquePortugais (Brésil)
DanoisPanjabi
NéerlandaisRoumain
AnglaisRusse
EstonienSerbe
FinnoisSerbe (cyrillique)
Français (Europe)Cingalais
Français (Canada)Slovaque
GéorgienSlovène
AllemandEspagnol (Europe)
GrecEspagnol (Amérique latine)
GujaratiSwahili
HébreuSuédois
HindiTamoul
HongroisTélougou
IslandaisThaï
IndonésienTurc
ItalienUkrainien
JaponaisOurdou (Inde)
KannaraOurdou (Pakistan)
KazakhOuzbek
KhmerVietnamien

Vous définissez la langue lorsque vous importez votre catalogue pour votre projet Vertex AI Search pour le commerce. Le catalogue doit être dans une seule langue et les requêtes de recherche doivent être envoyées dans la même langue. Le fait d'avoir plusieurs langues dans le catalogue nuit aux performances du LLM.

Recommandations

La plupart des langues sont acceptées. Le modèle détecte automatiquement la langue du texte.

Afficher les langues disponibles

Langue Nom du script
Afrikaans Latin
Amharique Éthiopien
Arabe Arabe
Bulgare Cyrillique
Bulgare Latin
Bengali Bengali
Bosniaque Latin
Catalan Latin
Cebuano Latin
Corse Latin
Tchèque Latin
Gallois Latin
Danois Latin
Allemand Latin
Grec Grec
Grec Latin
Anglais Latin
Espéranto Latin
Espagnol Latin
Estonien Latin
Basque Latin
Persan Arabe
Finnois Latin
Philippin Latin
Français Latin
Frison occidental Latin
Irlandais Latin
Gaélique écossais Latin
Galicien Latin
Gujarati Gujarati
Haoussa Latin
Hawaïen Latin
Hindi Dévanâgarî
Hindi Latin
Hmong Latin
Croate Latin
Créole haïtien Latin
Hongrois Latin
Arménien Arménien
Indonésien Latin
Igbo Latin
Islandais Latin
Italien Latin
Hébreu Hébreu
Japonais Japonais
Japonais Latin
Javanais Latin
Géorgien Géorgien
Kazakh Cyrillique
Khmer Khmer
Kannara Kannara
Coréen Coréen
Kurde Latin
Kirghyz Cyrillique
Latin Latin
Luxembourgeois Latin
Laotien Laotien
Lituanien Latin
Letton Latin
Malgache Latin
Maori Latin
Macédonien Cyrillique
Malayalam Malayalam
Mongol Cyrillique
Marathi Dévanâgarî
Malaisien Latin
Maltais Latin
Birman Myanmar
Népalais Dévanâgarî
Néerlandais Latin
Norvégien Latin
Chichewa Latin
Panjabi Gurmukhī
Polonais Latin
Pachtô Arabe
Portugais Latin
Roumain Latin
Russe Cyrillique
Russe Anglais
Sindhî Arabe
Cingalais Cingalais
Slovaque Latin
Slovène Latin
Samoan Latin
Shona Latin
Somali Latin
Albanais Latin
Serbe Cyrillique
Sotho du Sud Latin
Soundanais Latin
Suédois Latin
Swahili Latin
Tamoul Tamoul
Télougou Télougou
Tadjik Cyrillique
Thaï Thaï
Turc Latin
Ukrainien Cyrillique
Urdu Arabe
Ouzbek Latin
Vietnamien Latin
Xhosa Latin
Yiddish Hébreu
Yoruba Latin
Chinois Han (y compris simplifié et traditionnel)
Chinois Latin
Zulu Latin

Pour obtenir la liste de toutes les langues qui peuvent être détectées automatiquement, consultez le fichier README de GitHub pour le détecteur de langue compact.

Normalisation et tokenisation de la langue

Le moteur Vertex AI Search pour le commerce intègre le traitement des caractères chinois ou japonais sans espaces et normalise les signes diacritiques européens. Cela vous évite d'avoir à créer des couches de traduction de pré-traitement propriétaires dans vos applications de recherche.

  • Normalisation des caractères non anglais : le moteur de recherche est compatible avec UTF-8 et normalise automatiquement les signes diacritiques et les trémas lors de l'indexation et de l'interrogation (par exemple, en mappant ä sur a ou ae, et é sur e). Les utilisateurs peuvent ainsi rechercher cafe et trouver facilement café.
  • Tokenisation CJK (kanji et katakana) : pour les langues chinoise, japonaise et coréenne (CJK), le moteur ne s'appuie pas sur les espaces pour la tokenisation. Il utilise des segmentateurs basés sur des dictionnaires et des analyseurs morphologiques pour décomposer les chaînes de caractères Kanji, Hiragana, Katakana ou Han en jetons logiques pouvant être recherchés.
  • Règle stricte concernant une seule langue : votre catalogue et vos requêtes de recherche doivent être dans la même langue. L'IA ne traduit pas les requêtes de recherche (en d'autres termes, une requête en espagnol ne correspondra pas à un catalogue en anglais). Le mélange de langues dégrade fortement les performances du modèle.
  • Solution multilingue : si un catalogue doit accepter les requêtes dans plusieurs langues, utilisez les commandes twowaySynonymsAction ou onewaySynonymsAction pour mapper manuellement les termes de requête personnalisés (tels que les synonymes en espagnol) à la langue par défaut du catalogue (telle que l'anglais).

Pour en savoir plus sur les paramètres de langue, consultez À propos des catalogues et des produits.