Vertex AI 기반 Qwen 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI 기반 Qwen 모델을 사용하려면 요청을 직접 Vertex AI API 엔드포인트로 보냅니다. Qwen 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.
대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 대답은 서버 전송 이벤트(SSE)를 사용하여 대답을 점진적으로 스트리밍합니다.
사용 가능한 Qwen 모델
Vertex AI에서 사용할 수 있는 Qwen 모델은 다음과 같습니다. Qwen 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.
Qwen3-Next-80B Instruct
Qwen3-Next-80B Instruct는 Qwen3-Next 모델 제품군의 언어 모델입니다. 특정 명령어를 따르고 매우 긴 텍스트를 처리할 수 있도록 설계되었습니다. Mixture-of-Experts(MoE)라는 스마트한 디자인을 사용하여 정보를 처리하는 데 사용할 수 있는 파라미터의 하위 집합을 활성화하므로 크기가 같은 다른 모델보다 실행 속도가 빠르고 경제적입니다.
Instruct 버전은 채팅 및 에이전트 애플리케이션에서 안정적이고 직접적인 답변을 제공하도록 조정되었으며 컨텍스트 윈도우가 커서 전체 대화 또는 대규모 문서를 메모리에 유지할 수 있습니다.
Qwen3-Next-80B Instruct 모델 카드로 이동
Qwen3-Next-80B Thinking
Qwen3-Next-80B Thinking은 Qwen3-Next 모델 제품군의 언어 모델입니다. 복잡한 문제 해결과 심층 추론에 특화되어 있습니다. '사고' 모드는 최종 답변과 함께 확인 가능한 단계별 추론 프로세스를 생성하므로 수학적 증명, 복잡한 코드 디버깅, 다단계 에이전트 계획과 같이 투명한 논리가 필요한 태스크에 적합합니다.
Qwen3-Next-80B Thinking 모델 카드로 이동
Qwen3 Coder(Qwen3 Coder)
Qwen3 Coder(Qwen3 Coder
)는 고급 소프트웨어 개발 태스크를 위해 개발된 대규모 오픈-웨이트 모델입니다. 이 모델의 주요 기능은 대규모 컨텍스트 윈도우로, 이를 통해 대규모 코드베이스를 포괄적으로 처리하고 이해할 수 있습니다.
Qwen3 235B(Qwen3 235B)
Qwen3 235B(Qwen3 235B
)는 대형 235B 파라미터 모델입니다. 이 모델의 특징은 사용자가 수학적 추론 및 코딩과 같은 복잡한 태스크를 위한 체계적인 단계별 '사고' 모드 또는 범용 대화를 위한 빠른 '비사고' 모드를 동적으로 전환할 수 있는 '하이브리드 사고' 기능입니다. 컨텍스트 윈도우가 커서 심층적인 추론과 긴 형식의 이해가 필요한 사용 사례에 적합합니다.
Qwen 모델 사용
Qwen 모델에 스트리밍 및 비스트리밍 호출을 하는 방법을 알아보려면 개방형 모델 API 호출을 참고하세요.
다음 단계
- 개방형 모델 API를 호출하는 방법을 알아보세요.