検索とレコメンデーションの両方で、世界各国の以下の言語がサポートされています。
商取引向け検索
サポートされている言語を表示する
| サポートされている言語 | |
|---|---|
| アルバニア語 | 韓国語 |
| アラビア語 | ラトビア語 |
| アルメニア語 | リトアニア語 |
| アッサム語 | マケドニア語 |
| アゼルバイジャン語 | マレー語 |
| バスク語 | マラーティー語 |
| ベンガル語(ベンガル文字) | モンゴル語 |
| ブルガリア語 | ネパール語 |
| ビルマ語 | ノルウェー語 |
| カタルーニャ語 | オディア語 |
| 中国語(簡体) | ペルシャ語 |
| 中国語(繁体) | ポーランド語 |
| クロアチア語 | ポルトガル語(ヨーロッパ) |
| チェコ語 | ポルトガル語(ブラジル) |
| デンマーク語 | パンジャブ語 |
| オランダ語 | ルーマニア語 |
| 英語 | ロシア語 |
| エストニア語 | セルビア語 |
| フィンランド語 | セルビア語(キリル) |
| フランス語(ヨーロッパ) | シンハラ語 |
| フランス語(カナダ) | スロバキア語 |
| ジョージア語 | スロベニア語 |
| ドイツ語 | スペイン語(ヨーロッパ) |
| ギリシャ語 | スペイン語(ラテンアメリカ) |
| グジャラート語 | スワヒリ語 |
| ヘブライ語 | スウェーデン語 |
| ヒンディー語 | タミル語 |
| ハンガリー語 | テルグ語 |
| アイスランド語 | タイ語 |
| インドネシア語 | トルコ語 |
| イタリア語 | ウクライナ語 |
| 日本語 | ウルドゥー語(インド) |
| カンナダ語 | ウルドゥー語(パキスタン) |
| カザフ語 | ウズベク語 |
| クメール語 | ベトナム語 |
言語は、Vertex AI Search for Commerce プロジェクトのカタログをアップロードするときに設定します。カタログは 1 つの言語のみで作成し、検索クエリも同じ言語で送信する必要があります。カタログに複数の言語が含まれていると、LLM のパフォーマンスが低下します。
推奨事項
ほとんどの言語がサポートされています。このモデルは、テキストの言語を自動的に検出します。
サポートされている言語を表示する
| 言語名 | Script Name |
|---|---|
| アフリカーンス語 | ラテン語 |
| アムハラ語 | エチオピア文字 |
| アラビア語 | アラビア語 |
| ブルガリア語 | キリル文字 |
| ブルガリア語 | ラテン語 |
| ベンガル語 | ベンガル語 |
| ボスニア語 | ラテン語 |
| カタロニア語 | ラテン語 |
| セブ語 | ラテン語 |
| コルシカ語 | ラテン語 |
| チェコ語 | ラテン語 |
| ウェールズ語 | ラテン語 |
| デンマーク語 | ラテン語 |
| ドイツ語 | ラテン語 |
| ギリシャ語 | ギリシャ語 |
| ギリシャ語 | ラテン語 |
| 英語 | ラテン語 |
| エスペラント語 | ラテン語 |
| スペイン語 | ラテン語 |
| エストニア語 | ラテン語 |
| バスク語 | ラテン語 |
| ペルシャ語 | アラビア語 |
| フィンランド語 | ラテン語 |
| フィリピン語 | ラテン語 |
| フランス語 | ラテン語 |
| 西フリジア語 | ラテン語 |
| アイルランド語 | ラテン語 |
| スコットランド ゲール語 | ラテン語 |
| ガリシア語 | ラテン語 |
| グジャラート語 | グジャラート語 |
| ハウサ語 | ラテン語 |
| ハワイ語 | ラテン語 |
| ヒンディー語 | デバナーガリ文字 |
| ヒンディー語 | ラテン語 |
| モン語 | ラテン語 |
| クロアチア語 | ラテン語 |
| クレオール語(ハイチ) | ラテン語 |
| ハンガリー語 | ラテン語 |
| アルメニア語 | アルメニア語 |
| インドネシア語 | ラテン語 |
| イボ語 | ラテン語 |
| アイスランド語 | ラテン語 |
| イタリア語 | ラテン語 |
| ヘブライ語 | ヘブライ語 |
| 日本語 | 日本語 |
| 日本語 | ラテン語 |
| ジャワ語 | ラテン語 |
| グルジア語 | グルジア語 |
| カザフ語 | キリル文字 |
| クメール語 | クメール語 |
| カンナダ語 | カンナダ語 |
| 韓国語 | 韓国語 |
| クルド語 | ラテン語 |
| キルギス語 | キリル文字 |
| ラテン語 | ラテン語 |
| ルクセンブルク語 | ラテン語 |
| ラオ語 | ラオ語 |
| リトアニア語 | ラテン語 |
| ラトビア語 | ラテン語 |
| マラガシ語 | ラテン語 |
| マオリ語 | ラテン語 |
| マケドニア語 | キリル文字 |
| マラヤーラム語 | マラヤーラム語 |
| モンゴル語 | キリル文字 |
| マラーティー語 | デバナーガリ文字 |
| マレー語 | ラテン語 |
| マルタ語 | ラテン語 |
| ビルマ語 | ミャンマー |
| ネパール語 | デバナーガリ文字 |
| オランダ語 | ラテン語 |
| ノルウェー語 | ラテン語 |
| ニャンジャ語 | ラテン語 |
| パンジャブ語 | グルムキー文字 |
| ポーランド語 | ラテン語 |
| Pashto | アラビア語 |
| ポルトガル語 | ラテン語 |
| ルーマニア語 | ラテン語 |
| ロシア語 | キリル文字 |
| ロシア語 | 英語 |
| シンド語 | アラビア語 |
| シンハラ語 | シンハラ語 |
| スロバキア語 | ラテン語 |
| スロベニア語 | ラテン語 |
| サモア語 | ラテン語 |
| ショナ語 | ラテン語 |
| ソマリ語 | ラテン語 |
| アルバニア語 | ラテン語 |
| セルビア語 | キリル文字 |
| 南部ソト語 | ラテン語 |
| スンダ語 | ラテン語 |
| スウェーデン語 | ラテン語 |
| スワヒリ語 | ラテン語 |
| タミル語 | タミル語 |
| テルグ語 | テルグ語 |
| タジク語 | キリル文字 |
| タイ語 | タイ語 |
| トルコ語 | ラテン語 |
| ウクライナ語 | キリル文字 |
| ウルドゥー語 | アラビア語 |
| ウズベク語 | ラテン語 |
| ベトナム語 | ラテン語 |
| コーサ語 | ラテン語 |
| イディッシュ語 | ヘブライ語 |
| ヨルバ語 | ラテン語 |
| 中国語 | 漢(簡体字、繁体字を含む) |
| 中国語 | ラテン語 |
| ズールー語 | ラテン語 |
自動検出できるすべての言語の一覧については、Compact Language Detector の GitHub README をご覧ください。
言語の正規化とトークン化
Vertex AI Search for Commerce エンジンには、スペースのない中国語または日本語の文字の組み込み処理があり、ヨーロッパの分音記号を正規化します。これにより、独自の事前処理変換レイヤを検索アプリケーションに組み込む必要がなくなります。
- 英語以外の文字の正規化: 検索エンジンは UTF-8 の組み込みサポートを提供し、インデックス登録とクエリの実行中に発音区別符号とウムラウトを自動的に正規化します(
äをaまたはaeに、éをeにマッピングするなど)。これにより、ユーザーは cafe を検索して、café をシームレスに見つけることができます。 - CJK トークン化(漢字とカタカナ): 中国語、日本語、韓国語(CJK)では、トークン化にスペースは使用されません。辞書ベースのセグメンターと形態素解析ツールを使用して、漢字、ひらがな、カタカナ、漢字の文字列を論理的な検索可能なトークンに分割します。
- 厳格な単一言語ルール: カタログと検索クエリは同じ言語でなければなりません。AI は検索クエリを翻訳しません(つまり、スペイン語のクエリは英語のカタログと一致しません)。言語を混在させると、モデルのパフォーマンスが大幅に低下します。
- 多言語の回避策: カタログで多言語クエリをサポートする必要がある場合は、
twowaySynonymsActionコントロールまたはonewaySynonymsActionコントロールを使用して、カスタム クエリ用語(スペイン語の同義語など)をデフォルトのカタログ言語(英語など)に手動でマッピングします。
言語設定について詳しくは、カタログと商品についてをご覧ください。