Idiomas do mundo disponíveis

A pesquisa e as recomendações oferecem suporte aos seguintes idiomas:

Pesquisar comércio

Conferir os idiomas disponíveis

Idiomas compatíveis
AlbanêsCoreano
ÁrabeLetão
ArmênioLituano
AssamêsMacedônio
AzerbaijanoMalaio
BascoMarati
Bengali (Bangla)Mongol
BúlgaroNepalês
BirmanêsNorueguês
CatalãoOriá
Chinês (simplificado)Persa
Chinês (tradicional)Polonês
CroataPortuguês (Europa)
TchecoPortuguês (Brasil)
DinamarquêsPunjabi
HolandêsRomeno
InglêsRusso
EstonianoSérvio
FinlandêsSérvio (Cirílico)
Francês (Europa)Cingalês
Francês (Canadá)Eslovaco
GeorgianoEsloveno
AlemãoEspanhol (Europa)
GregoEspanhol (América Latina)
GujaratiSuaíli
HebraicoSueco
HindiTâmil
HúngaroTélugo
IslandêsTailandês
IndonésioTurco
ItalianoUcraniano
JaponêsUrdu (Índia)
CanarêsUrdu (Paquistão)
CazaqueUzbeque
KhmerVietnamita

Configurações de idioma mistas

Você define o idioma ao fazer upload do catálogo para seu projeto de pesquisa de e-commerce com IA. O catálogo precisa estar em um só idioma, e as consultas de pesquisa precisam ser enviadas no mesmo idioma. Ter vários idiomas no catálogo pode prejudicar o desempenho do LLM.

Para evitar isso e continuar otimizando seus eventos de pesquisa em vários idiomas, você tem duas opções:

  • Para idiomas incomuns e com pouco tráfego, você pode encaminhar essas consultas para o projeto principal. A Pesquisa em E-commerce com IA traduz automaticamente essas consultas.
  • Se você tiver muito tráfego em outro idioma e souber a quais usuários essas consultas estão associadas, tenha dois projetos, um em cada idioma, e encaminhe as consultas associadas de acordo.

Recomendações

A maioria dos idiomas é compatível. O modelo detecta automaticamente o idioma do texto.

Conferir os idiomas disponíveis

Nome do idioma Nome do script
Africâner Latim
Amárico Etíope
Árabe Árabe
Búlgaro Cirílico
Búlgaro Latim
Bengali Bengali
Bósnio Latim
Catalão Latim
Cebuano Latim
Córsico Latim
Tcheco Latim
Galês Latim
Dinamarquês Latim
Alemão Latim
Grego Grego
Grego Latim
Inglês Latim
Esperanto Latim
Espanhol Latim
Estoniano Latim
Basco Latim
Persa Árabe
Finlandês Latim
Filipino Latim
Francês Latim
Frísio ocidental Latim
Irlandês Latim
Gaélico escocês Latim
Galego Latim
Gujarati Gujarati
Hauçá Latim
Havaiano Latim
Hindi Devanágari
Hindi Latim
Hmong Latim
Croata Latim
Crioulo haitiano Latim
Húngaro Latim
Armênio Armênio
Indonésio Latim
Igbo Latim
Islandês Latim
Italiano Latim
Hebraico Hebraico
Japonês Japonês
Japonês Latim
Javanês Latim
Georgiano Georgiano
Cazaque Cirílico
Khmer Khmer
Canarês Canarês
Coreano Coreano
Curdo Latim
Quirguiz Cirílico
Latim Latim
Luxemburguês Latim
Laosiano Laosiano
Lituano Latim
Letão Latim
Malgaxe Latim
Maori Latim
Macedônio Cirílico
Malaiala Malaiala
Mongol Cirílico
Marati Devanágari
Malaio Latim
Maltês Latim
Birmanês Mianmar
Nepalês Devanágari
Holandês Latim
Norueguês Latim
Nianja Latim
Punjabi Gurmukhi
Polonês Latim
Pastó Árabe
Português Latim
Romeno Latim
Russo Cirílico
Russo Inglês
Sindi Árabe
Cingalês Cingalês
Eslovaco Latim
Esloveno Latim
Samoano Latim
Chona Latim
Somali Latim
Albanês Latim
Sérvio Cirílico
Soto do sul Latim
Sudanês Latim
Sueco Latim
Suaíli Latim
Tâmil Tâmil
Télugo Télugo
Tadjique Cirílico
Tailandês Tailandês
Turco Latim
Ucraniano Cirílico
Urdu Árabe
Uzbeque Latim
Vietnamita Latim
Xhosa Latim
Ídiche Hebraico
Iorubá Latim
Chinês Han (incluindo simplificado e tradicional)
Chinês Latim
Zulu Latim

Para uma lista de todos os idiomas que podem ser detectados automaticamente, consulte o README do GitHub do Detector de linguagem compacta.

Normalização e tokenização de linguagem

O mecanismo de pesquisa de comércio com IA tem processamento integrado de caracteres chineses ou japoneses sem espaços e normaliza os diacríticos europeus. Isso elimina a necessidade de criar camadas de tradução de pré-processamento proprietárias nos seus aplicativos de pesquisa.

  • Normalização de caracteres não ingleses: o mecanismo de pesquisa oferece suporte integrado a UTF-8 e normaliza automaticamente acentos e trema durante a indexação e a consulta (como mapear ä para a ou ae e é para e). Isso permite que os usuários pesquisem cafe e encontrem café sem problemas.
  • Tokenização CJK (kanji e katakana): para chinês, japonês e coreano (CJK), o mecanismo não depende de espaços para tokenização. Ele usa segmentadores baseados em dicionário e analisadores morfológicos para dividir strings de caracteres kanji, hiragana, katakana ou han em tokens lógicos e pesquisáveis.
  • Regra estrita de idioma único: seu catálogo e suas consultas de pesquisa precisam estar no mesmo idioma. Uma consulta em espanhol não vai corresponder a um catálogo em inglês. Misturar idiomas pode prejudicar a performance do modelo.
  • Solução alternativa multilíngue: se um catálogo precisar oferecer suporte a consultas em vários idiomas, use os controles twowaySynonymsAction ou onewaySynonymsAction para mapear manualmente termos de consulta personalizados (como sinônimos em espanhol) para o idioma padrão do catálogo (como inglês).

Para mais informações sobre as configurações de idioma, consulte Sobre catálogos e produtos.