Vertex AI 기반 OpenAI 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 OpenAI 모델을 사용하려면 요청을 Vertex AI API 엔드포인트로 직접 보냅니다. OpenAI 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.
대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.
사용 가능한 OpenAI 모델
Vertex AI에 사용할 수 있는 OpenAI의 모델은 다음과 같습니다. OpenAI 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.
gpt-oss 120B
OpenAI gpt-oss 120B는 Apache 2.0 라이선스에 따라 출시된 120B의 오픈-웨이트 언어 모델입니다. 추론 및 함수 호출 사용 사례에 적합합니다. 이 모델은 소비자 하드웨어에 배포하도록 최적화되어 있습니다.
120B 모델은 단일 80GB GPU에서 실행되면서 핵심 추론 벤치마크에서 OpenAI o4-mini와 거의 동등한 성능을 달성합니다.
gpt-oss 20B
OpenAI gpt-oss 20B는 Apache 2.0 라이선스에 따라 출시된 20B의 오픈-웨이트 언어 모델입니다. 추론 및 함수 호출 사용 사례에 적합합니다. 이 모델은 소비자 하드웨어에 배포하도록 최적화되어 있습니다.
20B 모델은 일반적인 벤치마크에서 OpenAI o3-mini와 유사한 결과를 제공하며 메모리가 16GB인 에지 기기에서 실행할 수 있으므로 온디바이스 사용 사례, 로컬 추론 또는 비용이 많이 드는 인프라 없이 빠른 반복에 적합합니다.
OpenAI 모델 사용
OpenAI 모델에 스트리밍 및 비스트리밍 호출을 하는 방법을 알아보려면 개방형 모델 API 호출을 참고하세요.
다음 단계
- 개방형 모델 API를 호출하는 방법을 알아보세요.