ビルド済みコンテナを使用してオープンモデルをデプロイする

このドキュメントでは、事前構築済みのコンテナイメージを使用して Vertex AI にオープンモデルをデプロイし、サービングする方法について説明します。Vertex AI は、vLLM、Hex-LLM、SGLang などの一般的なサービングフレームワーク用の事前構築済みコンテナを提供します。また、Hugging Face Text Generation Inference（TGI）、Text Embeddings Inference（TEI）、Inference Toolkit（Google Cloud Hugging Face PyTorch Inference Containers を通じて）、Tensor-RT-LLM コンテナをサポートし、Vertex AI 上でサポートされているモデルをサービングします。

vLLM は、大規模言語モデル（LLM）の高速な推論とサービング用に設計されたオープンソースライブラリです。Vertex AI は、最適化されカスタマイズされたバージョンの vLLM を使用します。このバージョンは、 Google Cloud内のパフォーマンス、信頼性、シームレスな統合を強化するように特別に設計されています。Vertex AI のカスタマイズされた vLLM コンテナイメージを使用して、Vertex AI 上でモデルをサービングできます。事前構築済みの vLLM コンテナは、Hugging Face または Cloud Storage からモデルをダウンロードできます。Vertex AI の事前構築済みの vLLM コンテナイメージを使用したモデルサービングの詳細については、Vertex AI の事前構築済み vLLM コンテナイメージを使用したモデルサービングをご覧ください。

ノートブックの例

以下のノートブックは、Vertex AI の事前構築済みのコンテナを使用してモデルをサービングする方法を示します。Vertex AI サンプルの GitHub リポジトリには、さらに多くのサンプルノートブックがあります。

ノートブック名	説明	直接リンク（GitHub/Colab）
Vertex AI Model Garden - Gemma 3（デプロイ）	vLLM を使用して GPU に Gemma 3 モデルをデプロイする方法を示します。	GitHub で表示
Vertex AI Model Garden - vLLM を使用したマルチモーダル Llama 3.2 のサービング	vLLM の事前構築済みコンテナを使用して、マルチモーダル Llama 3.2 モデルをデプロイします。	GitHub で表示
Vertex AI Model Garden - Hugging Face テキスト生成推論のデプロイ	Hugging Face の Text Generation Inference（TGI）を使用した Gemma-2-2b-it モデルをデプロイする方法を示します。	GitHub で表示
Vertex AI Model Garden - Hugging Face テキストエンベディング推論のデプロイ	Hugging Face の Text Embeddings Inference（TEI）を使用した nomic-ai/nomic-embed-text-v1 をデプロイする方法を示します。	GitHub で表示
Vertex AI Model Garden - Hugging Face PyTorch Inference のデプロイ	Hugging Face PyTorch Inference を使用した distilbert/distilbert-base-uncased-finetuned-sst-2-english をデプロイする方法を示します。	GitHub で表示
Vertex AI Model Garden - DeepSeek のデプロイ	vLLM、SGLang、TensorRT-LLM を使用した DeepSeek モデルをサービングする方法を示します。	GitHub で表示
Vertex AI Model Garden - Qwen3 のデプロイ	SGLang を使用した Qwen3 モデルをサービングする方法を示します。	GitHub で表示
Vertex AI Model Garden - Gemma 3n のデプロイ	SGLang を使用した Gemma3n モデルをサービングする方法を示します。	GitHub で表示
Vertex AI Model Garden - 詳細: Hex-LLM を使用した Llama 3.1 と 3.2 のデプロイ	Vertex AI Model Garden を使用して、Hex-LLM を使用する Llama 3.1 と 3.2 のモデルを TPU にデプロイする方法を示します。	GitHub で表示

ビルド済みコンテナを使用してオープンモデルをデプロイする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ノートブックの例

次のステップ

ビルド済みコンテナを使用してオープンモデルをデプロイする