개방형 모델 서빙 옵션 선택

Vertex AI는 Llama, DeepSeek, Mistral, Qwen 등 Google Cloud에서 개방형 대규모 언어 모델을 제공하는 여러 방법을 제공합니다. 이 문서에서는 개방형 모델 서빙을 위한 Vertex AI 제품을 간략하게 설명하고 사용 사례에 적합한 옵션을 선택하는 데 도움을 줍니다.

서빙 옵션

Vertex AI는 개방형 모델 서빙을 위한 다음 옵션을 제공합니다. 이러한 각 옵션은 고가용성을 제공하며 기본적으로 Google Cloud 보안 권장사항을 포함합니다.

서비스형 모델(MaaS): 서버리스 관리형 API를 사용하여 개방형 모델을 서빙합니다.
Model Garden의 자체 배포 모델: 원클릭 배포를 사용하거나 맞춤 가중치를 사용하여 Model Garden에서 개방형 모델을 배포합니다.
Vertex AI 사전 빌드된 컨테이너 이미지: vLLM, Hex-LLM, TGI와 같은 인기 있는 서빙 프레임워크용 사전 빌드된 컨테이너를 사용하여 개방형 모델을 서빙합니다.
맞춤 vLLM 컨테이너: 유연성을 높이기 위해 자체 맞춤 vLLM 컨테이너를 빌드하고 배포할 수 있습니다.

MaaS를 사용해야 하는 경우

다음과 같은 시나리오에서는 MaaS를 사용하는 것이 좋습니다.

신속한 개발 및 프로토타입 제작: MaaS를 사용하면 LLM 기능을 애플리케이션에 빠르게 통합할 수 있습니다. 이는 초기 탐색, 빠른 프로토타입 제작, 빠른 출시가 주요 목표인 경우에 특히 유용합니다.
운영 오버헤드 최소화: 팀에서 인프라 관리 대신 애플리케이션 로직에 집중하려는 경우 MaaS를 선택합니다. Google은 모든 GPU/TPU 프로비저닝, 확장, 유지보수를 처리하므로 MLOps 또는 DevOps가 아닌 애플리케이션 개발에 집중하는 팀에 유용합니다.
가변 트래픽: 사용한 만큼만 지불하는 종량제 모델은 예측할 수 없고 급증하는 트래픽 패턴이 있는 실험 워크로드 또는 애플리케이션을 지원합니다.
즉시 사용 가능한 사용: 일관된 성능이 필요하지만 기본 모델이나 제공 스택의 심층 맞춤설정이 필요하지 않은 애플리케이션에는 관리 API를 사용합니다.
보안 및 규정 준수: MaaS를 사용하면 기업에서 Google Cloud의 내장된 엔터프라이즈급 보안 및 규정 준수 기능을 사용할 수 있습니다.
표준 모델 사용: 표준의 맞춤설정되지 않은 파운데이션 모델이 요구사항을 충족하는 경우 MaaS를 사용합니다.

Model Garden에서 자체 배포 모델을 사용해야 하는 경우

자체 배포 옵션에는 사전 빌드된 컨테이너 또는 커스텀 컨테이너를 사용하여 Model Garden에서 배포하는 것이 포함됩니다. 다음과 같은 주요 시나리오에서는 자체 배포를 고려하세요.

커스텀 가중치 및 파인 튜닝된 모델: 애플리케이션에서 커스텀 가중치 또는 파인 튜닝된 모델 버전을 사용해야 하는 경우 자체 배포가 가장 적합합니다. 자체 배포를 사용하면 특정 요구사항에 맞게 모델을 배포할 수 있는 유연성이 높아집니다. 자체 커스텀 서빙 컨테이너를 빌드하고 배포할 수도 있습니다. 예를 들어 모델에 고유한 사전 처리 또는 사후 처리 로직이 필요한 경우 이 옵션을 사용합니다.
예측 가능한 대량의 워크로드: 자체 배포는 예측 가능하고 대량의 트래픽이 있는 프로덕션 애플리케이션에 적합한 전략적이고 비용 효율적인 옵션입니다. 초기 엔지니어링 투자가 더 많이 필요하지만, 대규모로 토큰당 비용이 최적화되어 애플리케이션 수명 주기 전반에 걸쳐 총소유비용(TCO)이 낮아질 수 있습니다.
인프라에 대한 세부적인 제어: 특정 하드웨어 구성을 선택하여 성능과 예산을 미세 조정해야 하는 경우 자체 배포를 사용합니다. 여기에는 정확한 머신 유형, GPU(예: NVIDIA L4 또는 H100), TPU, 최적화된 서빙 프레임워크를 선택하는 것이 포함됩니다.
엄격한 보안 및 규정 준수: 이 접근 방식은 멀티 테넌트 관리형 서비스 사용을 금지하는 특정 데이터 상주 정책 또는 엄격한 규정을 준수해야 하는 애플리케이션을 지원합니다. 자체 Google Cloud 프로젝트 및 Virtual Private Cloud 네트워크 내에서 모델을 안전하게 배포하여 데이터 경로를 완전히 제어할 수 있습니다.
위치에 대한 세부적인 제어: 전용 엔드포인트를 사용하면 모든 리전에서 Google Cloud 의 모든 Compute Engine 가속기에 배포할 수 있습니다.

사전 빌드된 컨테이너를 사용해야 하는 경우

다음과 같은 시나리오에서는 Vertex AI 사전 빌드된 컨테이너를 사용하는 것이 좋습니다.

성능 최적화: Vertex AI는 Google Cloud내에서 성능, 안정성, 원활한 통합을 개선하기 위해 vLLM과 같은 프레임워크용으로 사전 빌드된 컨테이너를 최적화하고 맞춤설정합니다.
사용 편의성: 자체 컨테이너 이미지를 빌드하고 유지관리하지 않고도 vLLM, Hex-LLM, SGLang, TGI, TensorRT-LLM과 같은 인기 있는 서빙 프레임워크를 사용하여 모델을 서빙합니다.

커스텀 vLLM 컨테이너를 사용해야 하는 경우

다음과 같은 시나리오에서는 자체 커스텀 컨테이너를 빌드하고 사용하는 것이 좋습니다.

최대 유연성: 기존 서빙 옵션과 사전 빌드된 컨테이너가 요구사항을 충족하지 않으며 종속 항목과 구성을 비롯한 컨테이너 이미지를 완전히 제어해야 하는 경우입니다.
커스텀 서빙 로직: 모델에 사전 빌드된 컨테이너에서 지원하지 않는 고유한 전처리 또는 후처리 단계가 필요한 경우입니다.

개방형 모델 서빙 옵션 선택 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.