ビルド済みコンテナを使用してオープンモデルをデプロイする

このドキュメントでは、事前構築済みのコンテナ イメージを使用して Vertex AI にオープンモデルをデプロイし、サービングする方法について説明します。Vertex AI は、vLLMHex-LLMSGLang などの一般的なサービング フレームワーク用の事前構築済みコンテナを提供します。また、Hugging Face Text Generation Inference(TGI)Text Embeddings Inference(TEI)Inference Toolkit(Google Cloud Hugging Face PyTorch Inference Containers を通じて)、Tensor-RT-LLM コンテナをサポートし、Vertex AI 上でサポートされているモデルをサービングします。

vLLM は、大規模言語モデル(LLM)の高速な推論とサービング用に設計されたオープンソース ライブラリです。Vertex AI は、最適化されカスタマイズされたバージョンの vLLM を使用します。このバージョンは、 Google Cloud内のパフォーマンス、信頼性、シームレスな統合を強化するように特別に設計されています。Vertex AI のカスタマイズされた vLLM コンテナ イメージを使用して、Vertex AI 上でモデルをサービングできます。事前構築済みの vLLM コンテナは、Hugging Face または Cloud Storage からモデルをダウンロードできます。Vertex AI の事前構築済みの vLLM コンテナ イメージを使用したモデル サービングの詳細については、Vertex AI の事前構築済み vLLM コンテナ イメージを使用したモデル サービングをご覧ください。

ノートブックの例

以下のノートブックは、Vertex AI の事前構築済みのコンテナを使用してモデルをサービングする方法を示します。Vertex AI サンプルの GitHub リポジトリには、さらに多くのサンプル ノートブックがあります。

ノートブック名 説明 直接リンク(GitHub/Colab)
Vertex AI Model Garden - Gemma 3(デプロイ) vLLM を使用して GPU に Gemma 3 モデルをデプロイする方法を示します。 GitHub で表示
Vertex AI Model Garden - vLLM を使用したマルチモーダル Llama 3.2 のサービング vLLM の事前構築済みコンテナを使用して、マルチモーダル Llama 3.2 モデルをデプロイします。 GitHub で表示
Vertex AI Model Garden - Hugging Face テキスト生成推論のデプロイ Hugging Face の Text Generation Inference(TGI)を使用した Gemma-2-2b-it モデルをデプロイする方法を示します。 GitHub で表示
Vertex AI Model Garden - Hugging Face テキスト エンベディング推論のデプロイ Hugging Face の Text Embeddings Inference(TEI)を使用した nomic-ai/nomic-embed-text-v1 をデプロイする方法を示します。 GitHub で表示
Vertex AI Model Garden - Hugging Face PyTorch Inference のデプロイ Hugging Face PyTorch Inference を使用した distilbert/distilbert-base-uncased-finetuned-sst-2-english をデプロイする方法を示します。 GitHub で表示
Vertex AI Model Garden - DeepSeek のデプロイ vLLM、SGLang、TensorRT-LLM を使用した DeepSeek モデルをサービングする方法を示します。 GitHub で表示
Vertex AI Model Garden - Qwen3 のデプロイ SGLang を使用した Qwen3 モデルをサービングする方法を示します。 GitHub で表示
Vertex AI Model Garden - Gemma 3n のデプロイ SGLang を使用した Gemma3n モデルをサービングする方法を示します。 GitHub で表示
Vertex AI Model Garden - 詳細: Hex-LLM を使用した Llama 3.1 と 3.2 のデプロイ Vertex AI Model Garden を使用して、Hex-LLM を使用する Llama 3.1 と 3.2 のモデルを TPU にデプロイする方法を示します。 GitHub で表示

次のステップ