La recherche et les recommandations sont disponibles dans les langues suivantes.
Recherche pour le commerce
Afficher les langues disponibles
| Langues disponibles | |
|---|---|
| Albanais | Coréen |
| Arabe | Letton |
| Arménien | Lituanien |
| Assamais | Macédonien |
| Azéri | Malaisien |
| Basque | Marathi |
| Bengali | Mongol |
| Bulgare | Népalais |
| Birman | Norvégien |
| Catalan | Odia |
| Chinois (simplifié) | Persan |
| Chinois (traditionnel) | Polonais |
| Croate | Portugais (Europe) |
| Tchèque | Portugais (Brésil) |
| Danois | Panjabi |
| Néerlandais | Roumain |
| Anglais | Russe |
| Estonien | Serbe |
| Finnois | Serbe (cyrillique) |
| Français (Europe) | Cingalais |
| Français (Canada) | Slovaque |
| Géorgien | Slovène |
| Allemand | Espagnol (Europe) |
| Grec | Espagnol (Amérique latine) |
| Gujarati | Swahili |
| Hébreu | Suédois |
| Hindi | Tamoul |
| Hongrois | Télougou |
| Islandais | Thaï |
| Indonésien | Turc |
| Italien | Ukrainien |
| Japonais | Ourdou (Inde) |
| Kannara | Ourdou (Pakistan) |
| Kazakh | Ouzbek |
| Khmer | Vietnamien |
Vous définissez la langue lorsque vous importez votre catalogue pour votre projet Vertex AI Search pour le commerce. Le catalogue doit être dans une seule langue et les requêtes de recherche doivent être envoyées dans la même langue. Le fait d'avoir plusieurs langues dans le catalogue nuit aux performances du LLM.
Recommandations
La plupart des langues sont acceptées. Le modèle détecte automatiquement la langue du texte.
Afficher les langues disponibles
| Langue | Nom du script |
|---|---|
| Afrikaans | Latin |
| Amharique | Éthiopien |
| Arabe | Arabe |
| Bulgare | Cyrillique |
| Bulgare | Latin |
| Bengali | Bengali |
| Bosniaque | Latin |
| Catalan | Latin |
| Cebuano | Latin |
| Corse | Latin |
| Tchèque | Latin |
| Gallois | Latin |
| Danois | Latin |
| Allemand | Latin |
| Grec | Grec |
| Grec | Latin |
| Anglais | Latin |
| Espéranto | Latin |
| Espagnol | Latin |
| Estonien | Latin |
| Basque | Latin |
| Persan | Arabe |
| Finnois | Latin |
| Philippin | Latin |
| Français | Latin |
| Frison occidental | Latin |
| Irlandais | Latin |
| Gaélique écossais | Latin |
| Galicien | Latin |
| Gujarati | Gujarati |
| Haoussa | Latin |
| Hawaïen | Latin |
| Hindi | Dévanâgarî |
| Hindi | Latin |
| Hmong | Latin |
| Croate | Latin |
| Créole haïtien | Latin |
| Hongrois | Latin |
| Arménien | Arménien |
| Indonésien | Latin |
| Igbo | Latin |
| Islandais | Latin |
| Italien | Latin |
| Hébreu | Hébreu |
| Japonais | Japonais |
| Japonais | Latin |
| Javanais | Latin |
| Géorgien | Géorgien |
| Kazakh | Cyrillique |
| Khmer | Khmer |
| Kannara | Kannara |
| Coréen | Coréen |
| Kurde | Latin |
| Kirghyz | Cyrillique |
| Latin | Latin |
| Luxembourgeois | Latin |
| Laotien | Laotien |
| Lituanien | Latin |
| Letton | Latin |
| Malgache | Latin |
| Maori | Latin |
| Macédonien | Cyrillique |
| Malayalam | Malayalam |
| Mongol | Cyrillique |
| Marathi | Dévanâgarî |
| Malaisien | Latin |
| Maltais | Latin |
| Birman | Myanmar |
| Népalais | Dévanâgarî |
| Néerlandais | Latin |
| Norvégien | Latin |
| Chichewa | Latin |
| Panjabi | Gurmukhī |
| Polonais | Latin |
| Pachtô | Arabe |
| Portugais | Latin |
| Roumain | Latin |
| Russe | Cyrillique |
| Russe | Anglais |
| Sindhî | Arabe |
| Cingalais | Cingalais |
| Slovaque | Latin |
| Slovène | Latin |
| Samoan | Latin |
| Shona | Latin |
| Somali | Latin |
| Albanais | Latin |
| Serbe | Cyrillique |
| Sotho du Sud | Latin |
| Soundanais | Latin |
| Suédois | Latin |
| Swahili | Latin |
| Tamoul | Tamoul |
| Télougou | Télougou |
| Tadjik | Cyrillique |
| Thaï | Thaï |
| Turc | Latin |
| Ukrainien | Cyrillique |
| Urdu | Arabe |
| Ouzbek | Latin |
| Vietnamien | Latin |
| Xhosa | Latin |
| Yiddish | Hébreu |
| Yoruba | Latin |
| Chinois | Han (y compris simplifié et traditionnel) |
| Chinois | Latin |
| Zulu | Latin |
Pour obtenir la liste de toutes les langues qui peuvent être détectées automatiquement, consultez le fichier README de GitHub pour le détecteur de langue compact.
Normalisation et tokenisation de la langue
Le moteur Vertex AI Search pour le commerce intègre le traitement des caractères chinois ou japonais sans espaces et normalise les signes diacritiques européens. Cela vous évite d'avoir à créer des couches de traduction de pré-traitement propriétaires dans vos applications de recherche.
- Normalisation des caractères non anglais : le moteur de recherche est compatible avec UTF-8 et normalise automatiquement les signes diacritiques et les trémas lors de l'indexation et de l'interrogation (par exemple, en mappant
äsuraouae, etésure). Les utilisateurs peuvent ainsi rechercher cafe et trouver facilement café. - Tokenisation CJK (kanji et katakana) : pour les langues chinoise, japonaise et coréenne (CJK), le moteur ne s'appuie pas sur les espaces pour la tokenisation. Il utilise des segmentateurs basés sur des dictionnaires et des analyseurs morphologiques pour décomposer les chaînes de caractères Kanji, Hiragana, Katakana ou Han en jetons logiques pouvant être recherchés.
- Règle stricte concernant une seule langue : votre catalogue et vos requêtes de recherche doivent être dans la même langue. L'IA ne traduit pas les requêtes de recherche (en d'autres termes, une requête en espagnol ne correspondra pas à un catalogue en anglais). Le mélange de langues dégrade fortement les performances du modèle.
- Solution multilingue : si un catalogue doit accepter les requêtes dans plusieurs langues, utilisez les commandes
twowaySynonymsActionouonewaySynonymsActionpour mapper manuellement les termes de requête personnalisés (tels que les synonymes en espagnol) à la langue par défaut du catalogue (telle que l'anglais).
Pour en savoir plus sur les paramètres de langue, consultez À propos des catalogues et des produits.