Unterstützte Sprachen

Die Suche und Empfehlungen unterstützen die folgenden Sprachen.

Search für den Handel

Unterstützte Sprachen

Unterstützte Sprachen
AlbanischKoreanisch
ArabischLettisch
ArmenischLitauisch
AssamesischMazedonisch
AserbaidschanischMalaiisch
BaskischMarathi
Bengalisch (Bangla)Mongolisch
BulgarischNepalesisch
BurmesischNorwegisch
KatalanischOriya
Chinesisch (vereinfacht)Persisch
Chinesisch (traditionell)Polnisch
KroatischPortugiesisch (Europa)
TschechischPortugiesisch (Brasilien)
DänischPunjabi
NiederländischRumänisch
EnglischRussisch
EstnischSerbisch
FinnischSerbisch (Kyrillisch)
Französisch (Europa)Singhalesisch
Französisch (Kanada)Slowakisch
GeorgischSlowenisch
DeutschSpanisch (Europa)
GriechischSpanisch (Lateinamerika)
GujaratiSuaheli
HebräischSchwedisch
HindiTamil
UngarischTelugu
IsländischThailändisch
IndonesischTürkisch
ItalienischUkrainisch
JapanischUrdu (Indien)
KannadaUrdu (Pakistan)
KasachischUsbekisch
KhmerVietnamesisch

Gemischte Spracheinstellungen

Sie legen die Sprache beim Hochladen Ihres Katalogs für Ihr Agent Platform Search for Commerce-Projekt fest. Der Katalog sollte nur in einer Sprache verfügbar sein und Suchanfragen sollten in derselben Sprache gesendet werden. Wenn der Katalog mehrere Sprachen enthält, kann dies die Leistung von LLMs beeinträchtigen.

Um dies zu vermeiden und Ihre Suchereignisse weiterhin in mehreren Sprachen zu optimieren, haben Sie zwei Möglichkeiten:

  • Bei Sprachen mit geringem Traffic und ungewöhnlichen Sprachen können Sie diese Anfragen an das Hauptprojekt weiterleiten. Bei der Agent Platform-Suche für den Handel werden diese Anfragen automatisch übersetzt.
  • Wenn Sie viel Traffic in einer anderen Sprache haben und wissen, welchen Nutzern diese Anfragen zugeordnet sind, können Sie zwei Projekte erstellen, eines in jeder Sprache, und die zugehörigen Anfragen entsprechend weiterleiten.

Empfehlungen

Die meisten Sprachen werden unterstützt. Das Modell erkennt die Textsprache automatisch.

Unterstützte Sprachen

Sprache Skriptname
Afrikaans Latein
Amharisch Äthiopisch
Arabisch Arabisch
Bulgarisch Kyrillisch
Bulgarisch Latein
Bengalisch Bengalisch
Bosnisch Latein
Katalanisch Latein
Cebuano Latein
Korsisch Latein
Tschechisch Latein
Walisisch Latein
Dänisch Latein
Deutsch Latein
Griechisch Griechisch
Griechisch Latein
Englisch Latein
Esperanto Latein
Spanisch Latein
Estnisch Latein
Baskisch Latein
Persisch Arabisch
Finnisch Latein
Filipino Latein
Französisch Latein
Westfriesisch Latein
Irisch Latein
Schottisches Gälisch Latein
Galizisch Latein
Gujarati Gujarati
Hausa Latein
Hawaiisch Latein
Hindi Dewanagari
Hindi Latein
Hmong Latein
Kroatisch Latein
Haitianisch Latein
Ungarisch Latein
Armenisch Armenisch
Indonesisch Latein
Igbo Latein
Isländisch Latein
Italienisch Latein
Hebräisch Hebräisch
Japanisch Japanisch
Japanisch Latein
Javanisch Latein
Georgisch Georgisch
Kasachisch Kyrillisch
Khmer Khmer
Kannada Kannada
Koreanisch Koreanisch
Kurdisch Latein
Kirgisisch Kyrillisch
Latein Latein
Luxemburgisch Latein
Lao Lao
Litauisch Latein
Lettisch Latein
Malagasy Latein
Maori Latein
Mazedonisch Kyrillisch
Malayalam Malayalam
Mongolisch Kyrillisch
Marathi Dewanagari
Malaiisch Latein
Maltesisch Latein
Burmesisch Myanmar
Nepalesisch Dewanagari
Niederländisch Latein
Norwegisch Latein
Chichewa Latein
Punjabi Gurmukhi
Polnisch Latein
Paschtu Arabisch
Portugiesisch Latein
Rumänisch Latein
Russisch Kyrillisch
Russisch Englisch
Sindhi Arabisch
Singhalesisch Singhalesisch
Slowakisch Latein
Slowenisch Latein
Samoanisch Latein
Shona Latein
Somali Latein
Albanisch Latein
Serbisch Kyrillisch
Süd-Sotho Latein
Sundanesisch Latein
Schwedisch Latein
Suaheli Latein
Tamil Tamil
Telugu Telugu
Tadschikisch Kyrillisch
Thailändisch Thailändisch
Türkisch Latein
Ukrainisch Kyrillisch
Urdu Arabisch
Usbekisch Latein
Vietnamesisch Latein
Xhosa Latein
Jiddisch Hebräisch
Yoruba Latein
Chinesisch Han (einschließlich vereinfacht und traditionell)
Chinesisch Latein
Zulu Latein

Eine Liste aller Sprachen, die automatisch erkannt werden können, finden Sie in der GitHub-README-Datei auf der Seite „Compact Language Detector“.

Sprachnormalisierung und Tokenisierung

Die Commerce-Suchmaschine der Agent Platform verarbeitet chinesische oder japanische Zeichen ohne Leerzeichen und normalisiert europäische diakritische Zeichen. So müssen Sie keine proprietären Vorverarbeitungs-Übersetzungsebenen in Ihre Suchanwendungen einbauen.

  • Normalisierung von Zeichen, die nicht im Englischen verwendet werden: Die Suchmaschine bietet integrierte Unterstützung für UTF-8 und normalisiert Diakritika und Umlaute automatisch während der Indexierung und Abfrage (z. B. wird ä auf a oder ae und é auf e abgebildet). So können Nutzer nach cafe suchen und problemlos café finden.
  • CJK-Tokenisierung (Kanji und Katakana): Bei chinesischen, japanischen und koreanischen (CJK) Sprachen werden keine Leerzeichen zur Tokenisierung verwendet. Dabei werden wörterbuchbasierte Segmentierer und morphologische Analysatoren verwendet, um Zeichenfolgen aus Kanji-, Hiragana-, Katakana- oder Han-Zeichen in logische, durchsuchbare Tokens zu zerlegen.
  • Strikte Einsprachigkeitsregel: Ihr Katalog und Ihre Suchanfragen müssen in derselben Sprache sein. Eine spanische Anfrage wird nicht mit einem englischen Katalog abgeglichen. Wenn Sie Sprachen mischen, kann sich die Leistung des Modells verschlechtern.
  • Mehrsprachige Problemumgehung: Wenn ein Katalog Anfragen in verschiedenen Sprachen unterstützen muss, verwenden Sie die Steuerelemente twowaySynonymsAction oder onewaySynonymsAction, um benutzerdefinierte Suchbegriffe (z. B. spanische Synonyme) manuell der Standardsprache des Katalogs (z. B. Englisch) zuzuordnen.

Weitere Informationen zu Spracheinstellungen finden Sie unter Kataloge und Produkte.