Vertex AI 기반 Kimi 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 Kimi 모델을 사용하려면 Vertex AI API 엔드포인트로 직접 요청을 보내면 됩니다. Kimi 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.
응답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.
사용 가능한 Kimi 모델
Vertex AI에서 사용할 수 있는 Kimi 모델은 다음과 같습니다. Kimi 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.
Kimi K2 사고 모드
Kimi K2 사고 모드는 복잡한 문제 해결과 심층적인 추론에 뛰어난 Kimi의 사고 모델입니다.
Kimi 모델 사용
다음 모델 이름을 사용하여 curl 명령어로 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.
- Kimi K2 사고 모드의 경우
kimi-k2-thinking-maas를 사용합니다.
Kimi 모델에 스트리밍 및 비스트리밍 호출을 수행하는 방법을 알아보려면 개방형 모델 API 호출을 참조하세요.
Kimi 모델 리전 가용성 및 할당량
Kimi 모델의 경우 모델을 사용할 수 있는 각 리전에 할당량이 적용됩니다. 할당량은 분당 쿼리 수(QPM)로 지정됩니다.
| 모델 | 지역 | 할당량 | 컨텍스트 길이 |
|---|---|---|---|
| Kimi K2 사고 모드 | |||
global |
|
262144 |
Vertex AI 기반 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용하여 할당량 상향을 요청하면 됩니다. 할당량에 대해 자세히 알아보려면 Cloud 할당량 개요를 참조하세요.
다음 단계
- 개방형 모델 API 호출 방법 알아보기