이 문서에서는 사전 빌드된 컨테이너 이미지를 사용하여 Vertex AI에서 개방형 모델을 배포하고 제공하는 방법을 설명합니다. Vertex AI는 vLLM, Hex-LLM, SGLang과 같은 인기 있는 서비스 프레임워크를 위한 사전 빌드 컨테이너를 제공하며, Hugging Face Text Generation Inference(TGI), Text Embeddings Inference(TEI), Inference Toolkit (Google Cloud Hugging Face PyTorch Inference Containers를 통해) 및 Tensor-RT-LLM 컨테이너를 지원하여 Vertex AI에서 지원되는 모델을 제공합니다.
vLLM은 대규모 언어 모델 (LLM)의 빠른 추론 및 서빙을 위한 오픈소스 라이브러리입니다. Vertex AI는 최적화되고 맞춤설정된 버전의 vLLM을 사용합니다. 이 버전은 Google Cloud내에서 성능, 안정성, 원활한 통합을 개선하도록 특별히 설계되었습니다. Vertex AI의 맞춤설정된 vLLM 컨테이너 이미지를 사용하여 Vertex AI에서 모델을 제공할 수 있습니다. 사전 빌드된 vLLM 컨테이너는 Hugging Face 또는 Cloud Storage에서 모델을 다운로드할 수 있습니다. Vertex AI 사전 빌드 vLLM 컨테이너 이미지를 사용한 모델 제공에 관한 자세한 내용은 Vertex AI 사전 빌드 vLLM 컨테이너 이미지를 사용한 모델 제공을 참고하세요.
예시 노트북
다음 노트북은 모델 제공을 위해 Vertex AI 사전 빌드 컨테이너를 사용하는 방법을 보여줍니다. Vertex AI 샘플 GitHub 저장소에서 더 많은 샘플 노트북을 확인할 수 있습니다.
| 노트북 이름 | 설명 | 직접 링크 (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden - Gemma 3 (배포) | vLLM을 사용하여 GPU에 Gemma 3 모델을 배포하는 방법을 보여줍니다. | GitHub에서 보기 |
| Vertex AI Model Garden - vLLM으로 멀티모달 Llama 3.2 제공 | vLLM 사전 빌드 컨테이너를 사용하여 멀티모달 Llama 3.2 모델을 배포합니다. | GitHub에서 보기 |
| Vertex AI Model Garden - Hugging Face 텍스트 생성 추론 배포 | Hugging Face의 텍스트 생성 추론 (TGI)을 사용하여 Gemma-2-2b-it 모델을 배포하는 방법을 보여줍니다. | GitHub에서 보기 |
| Vertex AI Model Garden - Hugging Face 텍스트 임베딩 추론 배포 | Hugging Face의 텍스트 임베딩 추론 (TEI)을 사용하여 nomic-ai/nomic-embed-text-v1을 배포하는 방법을 보여줍니다. | GitHub에서 보기 |
| Vertex AI Model Garden - Hugging Face PyTorch 추론 배포 | Hugging Face PyTorch 추론을 사용하여 distilbert/distilbert-base-uncased-finetuned-sst-2-english를 배포하는 방법을 보여줍니다. | GitHub에서 보기 |
| Vertex AI Model Garden - DeepSeek 배포 | vLLM, SGLang 또는 TensorRT-LLM으로 DeepSeek 모델을 제공하는 방법을 보여줍니다. | GitHub에서 보기 |
| Vertex AI Model Garden - Qwen3 배포 | SGLang으로 Qwen3 모델을 제공하는 방법을 보여줍니다. | GitHub에서 보기 |
| Vertex AI Model Garden - Gemma 3n 배포 | SGLang으로 Gemma3n 모델을 제공하는 방법을 보여줍니다. | GitHub에서 보기 |
| Vertex AI Model Garden - 심층 분석: Hex-LLM으로 Llama 3.1 및 3.2 배포 | Vertex AI Model Garden을 사용하여 TPU에서 Hex-LLM을 사용하여 Llama 3.1 및 3.2 모델을 배포하는 방법을 보여줍니다. | GitHub에서 보기 |
다음 단계
- 개방형 모델 게재 옵션 선택
- 서비스형 모델 (MaaS)을 사용하여 개방형 모델 사용
- Model Garden에서 개방형 모델 배포
- 맞춤 vLLM 컨테이너를 사용하여 개방형 모델 배포