검색 및 추천 모두 다음과 같은 세계 언어를 지원합니다.
상거래 검색
지원되는 언어 보기
| 지원 언어 | |
|---|---|
| 알바니아어 | 한국어 |
| 아랍어 | 라트비아어 |
| 아르메니아어 | 리투아니아어 |
| 아삼어 | 마케도니아어 |
| 아제르바이잔어 | 말레이어 |
| 바스크어 | 마라타어 |
| 벵골어 | 몽골어 |
| 불가리아어 | 네팔어 |
| 버마어 | 노르웨이어 |
| 카탈로니아어 | 오리야어 |
| 중국어(간체) | 페르시아어 |
| 중국어(번체) | 폴란드어 |
| 크로아티아어 | 포르투갈어 (유럽) |
| 체코 | 포르투갈어(브라질) |
| 덴마크어 | 펀자브어 |
| 네덜란드어 | 루마니아어 |
| 영어 | 러시아어 |
| 에스토니아어 | 세르비아어 |
| 핀란드어 | 세르비아어(키릴 자모) |
| 프랑스어 (유럽) | 싱할라어 |
| 프랑스어(캐나다) | 슬로바키아어 |
| 조지아어 | 슬로베니아어 |
| 독일어 | 스페인어 (유럽) |
| 그리스어 | 스페인어(라틴 아메리카) |
| 구자라트어 | 스와힐리어 |
| 히브리어 | 스웨덴어 |
| 힌디어 | 타밀어 |
| 헝가리어 | 텔루구어 |
| 아이슬란드어 | 태국어 |
| 인도네시아어 | 터키어 |
| 이탈리아어 | 우크라이나어 |
| 일본어 | 우르두어(인도) |
| 칸나다어 | 우르두어(파키스탄) |
| 카자흐어 | 우즈베크어 |
| 크메르어 | 베트남어 |
커머스용 Vertex AI Search 프로젝트의 카탈로그를 업로드할 때 언어를 설정합니다. 카탈로그를 한 언어로만 작성해야 하고 검색 쿼리를 동일한 언어로 전송해야 합니다. 카탈로그에 여러 언어가 있으면 LLM 성능이 저하됩니다.
권장사항
대부분의 언어가 지원됩니다. 이 모델은 텍스트 언어를 자동으로 감지합니다.
지원되는 언어 보기
| 언어 이름 | 스크립트 이름 |
|---|---|
| 아프리칸스어 | 라틴어 |
| 암하라어 | 에티오피아어 |
| 아랍어 | 아랍어 |
| 불가리아어 | 키릴어 |
| 불가리아어 | 라틴어 |
| 벵골어 | 벵골어 |
| 보스니아어 | 라틴어 |
| 카탈로니아어 | 라틴어 |
| 세부아노어 | 라틴어 |
| 코르시카어 | 라틴어 |
| 체코어 | 라틴어 |
| 웨일즈어 | 라틴어 |
| 덴마크어 | 라틴어 |
| 독일어 | 라틴어 |
| 그리스어 | 그리스어 |
| 그리스어 | 라틴어 |
| 영어 | 라틴어 |
| 에스페란토어 | 라틴어 |
| 스페인어 | 라틴어 |
| 에스토니아어 | 라틴어 |
| 바스크어 | 라틴어 |
| 페르시아어 | 아랍어 |
| 핀란드어 | 라틴어 |
| 필리핀어 | 라틴어 |
| 프랑스어 | 라틴어 |
| 서프리지아어 | 라틴어 |
| 아일랜드어 | 라틴어 |
| 스코틀랜드 게일어 | 라틴어 |
| 갈리시아어 | 라틴어 |
| 구자라트어 | 구자라트어 |
| 하우사어 | 라틴어 |
| 하와이어 | 라틴어 |
| 힌디어 | 데바나가리 문자 |
| 힌디어 | 라틴어 |
| 몽어 | 라틴어 |
| 크로아티아어 | 라틴어 |
| 아이티 크리올어 | 라틴어 |
| 헝가리어 | 라틴어 |
| 아르메니아어 | 아르메니아어 |
| 인도네시아어 | 라틴어 |
| 이그보어 | 라틴어 |
| 아이슬란드어 | 라틴어 |
| 이탈리아어 | 라틴어 |
| 히브리어 | 히브리어 |
| 일본어 | 일본어 |
| 일본어 | 라틴어 |
| 자바어 | 라틴어 |
| 조지아어 | 조지아어 |
| 카자흐어 | 키릴어 |
| 크메르어 | 크메르어 |
| 칸나다어 | 칸나다어 |
| 한국어 | 한국어 |
| 쿠르드어 | 라틴어 |
| 키르기스어 | 키릴어 |
| 라틴어 | 라틴어 |
| 룩셈부르크어 | 라틴어 |
| 라오어 | 라오어 |
| 리투아니아어 | 라틴어 |
| 라트비아어 | 라틴어 |
| 마다가스카르어 | 라틴어 |
| 마오리어 | 라틴어 |
| 마케도니아어 | 키릴어 |
| 말라얄람어 | 말라얄람어 |
| 몽골어 | 키릴어 |
| 마라타어 | 데바나가리 문자 |
| 말레이어 | 라틴어 |
| 몰타어 | 라틴어 |
| 버마어 | 미얀마 |
| 네팔어 | 데바나가리 문자 |
| 네덜란드어 | 라틴어 |
| 노르웨이어 | 라틴어 |
| 니안자어 | 라틴어 |
| 펀자브어 | 구르무키 문자 |
| 폴란드어 | 라틴어 |
| 파슈토어 | 아랍어 |
| 포르투갈어 | 라틴어 |
| 루마니아어 | 라틴어 |
| 러시아어 | 키릴어 |
| 러시아어 | 영어 |
| 신드어 | 아랍어 |
| 신할라어 | 신할라어 |
| 슬로바키아어 | 라틴어 |
| 슬로베니아어 | 라틴어 |
| 사모아어 | 라틴어 |
| 쇼나어 | 라틴어 |
| 소말리어 | 라틴어 |
| 알바니아어 | 라틴어 |
| 세르비아어 | 키릴어 |
| 소토어(남부) | 라틴어 |
| 순다어 | 라틴어 |
| 스웨덴어 | 라틴어 |
| 스와힐리어 | 라틴어 |
| 타밀어 | 타밀어 |
| 텔루구어 | 텔루구어 |
| 타지크어 | 키릴어 |
| 태국어 | 태국어 |
| 터키어 | 라틴어 |
| 우크라이나어 | 키릴어 |
| 우르두어 | 아랍어 |
| 우즈베크어 | 라틴어 |
| 베트남어 | 라틴어 |
| 코사어 | 라틴어 |
| 이디시어 | 히브리어 |
| 요루바어 | 라틴어 |
| 중국어 | 한자 (간체 및 번체 포함) |
| 중국어 | 라틴어 |
| 줄루어 | 라틴어 |
자동으로 감지할 수 있는 모든 언어 목록은 Compact Language Detector GitHub README를 참조하세요.
언어 정규화 및 토큰화
커머스용 Vertex AI Search 엔진에는 공백이 없는 중국어 또는 일본어 문자의 기본 처리가 있으며 유럽어 발음 구별 기호가 정규화됩니다. 따라서 검색 애플리케이션에 독점 사전 처리 변환 레이어를 빌드할 필요가 없습니다.
- 영어가 아닌 문자 정규화: 검색엔진은 UTF-8을 기본적으로 지원하며 색인 생성 및 쿼리 중에 발음 구별 기호와 움라우트를 자동으로 정규화합니다 (예:
ä을a또는ae에 매핑하고é을e에 매핑). 이를 통해 사용자는 cafe를 검색하고 café를 원활하게 찾을 수 있습니다. - CJK 토큰화 (한자 및 가타카나): 중국어, 일본어, 한국어 (CJK) 언어의 경우 엔진은 토큰화에 공백을 사용하지 않습니다. 사전 기반 세그멘테이션 도구와 형태 분석기를 사용하여 간지, 히라가나, 가타카나 또는 한자 문자열을 검색 가능한 논리적 토큰으로 분리합니다.
- 엄격한 단일 언어 규칙: 카탈로그와 검색어는 동일한 언어로 작성되어야 합니다. AI는 검색어를 번역하지 않습니다 (즉, 스페인어 검색어는 영어 카탈로그와 일치하지 않음). 언어를 혼합하면 모델 성능이 크게 저하됩니다.
- 다국어 해결 방법: 카탈로그에서 혼합 언어 쿼리를 지원해야 하는 경우
twowaySynonymsAction또는onewaySynonymsAction컨트롤을 사용하여 맞춤 쿼리 용어 (예: 스페인어 동의어)를 기본 카탈로그 언어 (예: 영어)에 수동으로 매핑합니다.
언어 설정에 대한 자세한 내용은 카탈로그 및 제품 정보를 참고하세요.