Vertex AI 기반 DeepSeek 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 DeepSeek 모델을 사용하려면 Vertex AI API 엔드포인트로 직접 요청을 보내면 됩니다. DeepSeek 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.
최종 사용자에게 지연 시간이 길게 느껴지지 않도록 응답을 스트리밍 방식으로 전송할 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.
사용 가능한 DeepSeek 모델
Vertex AI에서 사용할 수 있는 DeepSeek 모델은 다음과 같습니다. DeepSeek 모델에 액세스하려면 Model Garden의 해당 모델 카드로 이동합니다.
DeepSeek-V3.1
DeepSeek-V3.1은 사고 모드와 비사고 모드를 모두 지원하는 하이브리드 모델입니다. 이전 버전과 비교했을 때, 이번 업그레이드는 하이브리드 사고 모드, 도구 호출, 사고 효율성에서 개선이 이뤄졌습니다.
DeepSeek R1(0528)
DeepSeek R1(0528)은 최신 버전의 DeepSeek R1 모델입니다. DeepSeek-R1과 비교했을 때, 추론 깊이와 추론 능력이 크게 향상되었습니다. DeepSeek R1(0528)은 창의적 글쓰기, 일반 질의 응답, 수정, 요약과 같은 폭넓은 작업에서 우수한 성능을 발휘합니다.
고려사항
- 프로덕션에 즉시 사용 가능한 환경에서의 안전성을 위해 DeepSeek R1(0528)을 사용할 때는 Model Armor와 통합하여 사용하는 것이 좋습니다. Model Armor는 다양한 보안 및 안전 위험을 점검하기 위해 LLM 프롬프트와 응답을 검사합니다.
DeepSeek 모델 사용
다음 모델 이름을 사용하여 curl 명령어로 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.
- DeepSeek-V3.1의 경우
deepseek-v3.1-maas
를 사용합니다. - DeepSeek R1(0528)의 경우
deepseek-r1-0528-maas
를 사용합니다.
DeepSeek 모델에 스트리밍 및 비스트리밍 호출을 수행하는 방법을 알아보려면 개방형 모델 API 호출을 참고하세요.
DeepSeek 모델 리전 가용성 및 할당량
DeepSeek 모델의 경우 모델을 사용할 수 있는 각 리전에 할당량이 적용됩니다. 할당량은 분당 쿼리 수(QPM)로 지정됩니다.
모델 | 지역 | 할당량 | 컨텍스트 길이 |
---|---|---|---|
DeepSeek-V3.1 | |||
us-west2 |
|
163,840 | |
DeepSeek R1(0528) | |||
us-central1 |
|
163,840 |
Vertex AI 기반 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용하여 할당량 상향을 요청하면 됩니다. 할당량에 대해 자세히 알아보려면 Cloud 할당량 개요를 참고하세요.
다음 단계
- 개방형 모델 API를 호출하는 방법을 알아보세요.