Idiomas mundiales admitidos

Tanto la Búsqueda como las recomendaciones admiten los siguientes idiomas.

Búsqueda para comercios

Consulta los idiomas admitidos

Idiomas compatibles
AlbanésCoreano
ÁrabeLetón
ArmenioLituano
AsamésMacedonio
AzeríMalayo
EuskaraMaratí
Bengalí (bengalí)Mongol
BúlgaroNepalí
BirmanoNoruego
CatalánOriya
Chino (simplificado)Persa
Chino (tradicional)Polaco
CroataPortugués (Europa)
ChecoPortugués (Brasil)
DanésPunyabí
HolandésRumano
InglésRuso
EstonioSerbio
FinlandésSerbio (cirílico)
Francés (Europa)Cingalés
Francés (Canadá)Eslovaco
GeorgianoEsloveno
AlemánEspañol (Europa)
GriegoEspañol (América Latina)
GuyaratíSuajili
HebreoSueco
HindiTamil
HúngaroTelugu
IslandésTailandés
IndonesioTurco
ItalianoUcraniano
JaponésUrdu (India)
CanarésUrdu (Pakistán)
KazajoUzbeko
JemerVietnamita

Configuración de idioma mixto

Estableces el idioma cuando subes tu catálogo para tu proyecto de AI Commerce Search. El catálogo debe estar en un solo idioma, y las búsquedas deben enviarse en el mismo idioma. Tener varios idiomas en el catálogo puede degradar el rendimiento del LLM.

Para evitar esto y seguir optimizando tus eventos de búsqueda en varios idiomas, tienes dos opciones:

  • En el caso de los idiomas inusuales y con poco tráfico, puedes enrutar esas búsquedas al proyecto principal. La Búsqueda de comercio con IA traduce automáticamente esas búsquedas.
  • Si tienes mucho tráfico en otro idioma y sabes a qué usuarios se asocian estas búsquedas, puedes tener dos proyectos, uno en cada idioma, y enrutar las búsquedas asociadas según corresponda.

Recomendaciones

Se admiten la mayoría de los idiomas. El modelo detecta automáticamente el idioma del texto.

Consulta los idiomas admitidos

Idioma Nombre de la secuencia de comandos
Afrikaans Latín
Amárico Etíope
Árabe Árabe
Búlgaro Cirílico
Búlgaro Latín
Bengalí Bengalí
Bosnio Latín
Catalán Latín
Cebuano Latín
Corso Latín
Checo Latín
Galés Latín
Danés Latín
Alemán Latín
Griego Griego
Griego Latín
Inglés Latín
Esperanto Latín
Español Latín
Estonio Latín
Euskara Latín
Persa Árabe
Finlandés Latín
Filipino Latín
Francés Latín
Frisón occidental Latín
Irlandés Latín
Gaélico escocés Latín
Gallego Latín
Guyaratí Guyaratí
Hausa Latín
Hawaiano Latín
Hindi Devanagari
Hindi Latín
Hmong Latín
Croata Latín
Criollo haitiano Latín
Húngaro Latín
Armenio Armenio
Indonesio Latín
Igbo Latín
Islandés Latín
Italiano Latín
Hebreo Hebreo
Japonés Japonés
Japonés Latín
Javanés Latín
Georgiano Georgiano
Kazajo Cirílico
Jemer Jemer
Canarés Canarés
Coreano Coreano
Kurdo Latín
Kirguizo Cirílico
Latín Latín
Luxemburgués Latín
Laosiano Laosiano
Lituano Latín
Letón Latín
Malgache Latín
Maorí Latín
Macedonio Cirílico
Malayalam Malayalam
Mongol Cirílico
Maratí Devanagari
Malayo Latín
Maltés Latín
Birmano Birmania
Nepalí Devanagari
Holandés Latín
Noruego Latín
Nyanja Latín
Punyabí Gurmukhi
Polaco Latín
Pastún Árabe
Portugués Latín
Rumano Latín
Ruso Cirílico
Ruso Inglés
Sindhi Árabe
Cingalés Cingalés
Eslovaco Latín
Esloveno Latín
Samoano Latín
Shona Latín
Somalí Latín
Albanés Latín
Serbio Cirílico
Sesoto meridional Latín
Sundanés Latín
Sueco Latín
Suajili Latín
Tamil Tamil
Telugu Telugu
Tayiko Cirílico
Tailandés Tailandés
Turco Latín
Ucraniano Cirílico
Urdu Árabe
Uzbeko Latín
Vietnamita Latín
Xhosa Latín
Yiddish Hebreo
Yoruba Latín
Chino Han (incluido el chino simplificado y tradicional)
Chino Latín
Zulú Latín

Para obtener una lista de todos los idiomas que se pueden detectar automáticamente, consulta el README de GitHub del detector de lenguaje compacto.

Normalización y tokenización del idioma

El motor de búsqueda de comercio electrónico con IA tiene procesamiento integrado de caracteres chinos o japoneses sin espacios y normaliza los signos diacríticos europeos. Esto elimina la necesidad de compilar capas de traducción de preprocesamiento propias en tus aplicaciones de búsqueda.

  • Normalización de caracteres no ingleses: El motor de búsqueda proporciona compatibilidad integrada con UTF-8 y normaliza automáticamente los signos diacríticos y las diéresis durante la indexación y las búsquedas (por ejemplo, asigna ä a a o ae, y é a e). Esto permite que los usuarios busquen cafe y encuentren café sin problemas.
  • Tokenización de CJK (kanji y katakana): En los idiomas chino, japonés y coreano (CJK), el motor no se basa en espacios para la tokenización. Utiliza segmentadores basados en diccionarios y analizadores morfológicos para dividir cadenas de caracteres kanji, hiragana, katakana o han en tokens lógicos aptos para la búsqueda.
  • Regla estricta de un solo idioma: Tu catálogo y tus búsquedas deben estar en el mismo idioma. Una búsqueda en español no coincidirá con un catálogo en inglés. Mezclar idiomas puede degradar el rendimiento del modelo.
  • Solución alternativa multilingüe: Si un catálogo debe admitir búsquedas en varios idiomas, usa los controles twowaySynonymsAction o onewaySynonymsAction para asignar manualmente términos de búsqueda personalizados (como sinónimos en español) al idioma predeterminado del catálogo (como inglés).

Para obtener más información sobre la configuración de idioma, consulta Acerca de los catálogos y los productos.