ビルド済みコンテナを使用してオープンモデルをデプロイする

このドキュメントでは、ビルド済みコンテナ イメージを使用して Vertex AI にオープンモデルをデプロイしてサービングする方法について説明します。Vertex AI は、vLLMHex-LLMSGLang などの一般的なサービング フレームワーク用の事前構築済みコンテナを提供します。また、Hugging Face Text Generation Inference(TGI)Text Embeddings Inference(TEI)Inference Toolkit(Google Cloud Hugging Face PyTorch Inference Containers 経由)、Tensor-RT-LLM コンテナをサポートし、Vertex AI でサポートされているモデルをサービングします。

vLLM は、大規模言語モデル(LLM)の高速な推論とサービングを行うためのオープンソース ライブラリです。Vertex AI は、最適化されカスタマイズされたバージョンの vLLM を使用します。このバージョンは、 Google Cloud内のパフォーマンス、信頼性、シームレスな統合を強化するように特別に設計されています。Vertex AI のカスタマイズされた vLLM コンテナ イメージを使用して、Vertex AI でモデルをサービングできます。事前構築済みの vLLM コンテナは、Hugging Face または Cloud Storage からモデルをダウンロードできます。Vertex AI ビルド済み vLLM コンテナ イメージを使用したモデル サービングの詳細については、Vertex AI ビルド済み vLLM コンテナ イメージを使用したモデル サービングをご覧ください。

ノートブックの例

次のノートブックでは、モデル サービングに Vertex AI ビルド済みコンテナを使用する方法を示します。その他のサンプル ノートブックは、Vertex AI サンプルの GitHub リポジトリで確認できます。

ノートブック名 説明 直接リンク(GitHub/Colab)
Vertex AI Model Garden - Gemma 3(デプロイ) vLLM を使用して GPU に Gemma 3 モデルをデプロイする方法を示します。 GitHub で表示
Vertex AI Model Garden - vLLM を使用してマルチモーダル Llama 3.2 を提供する vLLM ビルド済みコンテナを使用して、マルチモーダル Llama 3.2 モデルをデプロイします。 GitHub で表示
Vertex AI Model Garden - Hugging Face テキスト生成推論のデプロイ Hugging Face の Text Generation Inference(TGI)を使用して Gemma-2-2b-it モデルをデプロイする方法を示す GitHub で表示
Vertex AI Model Garden - Hugging Face テキスト エンベディング推論のデプロイ Hugging Face の Text Embeddings Inference(TEI)を使用して nomic-ai/nomic-embed-text-v1 をデプロイする方法を示します GitHub で表示
Vertex AI Model Garden - Hugging Face PyTorch 推論のデプロイ Hugging Face PyTorch Inference を使用して distilbert/distilbert-base-uncased-finetuned-sst-2-english をデプロイする方法を示します GitHub で表示
Vertex AI Model Garden - DeepSeek のデプロイ vLLM、SGLang、TensorRT-LLM を使用して DeepSeek モデルをサービングする方法を示す GitHub で表示
Vertex AI Model Garden - Qwen3 のデプロイ SGLang を使用して Qwen3 モデルをサービングする方法を示します GitHub で表示
Vertex AI Model Garden - Gemma 3n のデプロイ SGLang を使用して Gemma3n モデルをサービングする方法を示す GitHub で表示
Vertex AI Model Garden - 詳細: Hex-LLM を使用して Llama 3.1 と 3.2 をデプロイする Vertex AI Model Garden を使用して TPU で Hex-LLM を使用して Llama 3.1 モデルと 3.2 モデルをデプロイする方法を示します GitHub で表示

次のステップ