このドキュメントでは、事前構築済みのコンテナ イメージを使用して Gemini Enterprise Agent Platform にオープンモデルをデプロイし、サービングする方法について説明します。Gemini Enterprise Agent Platform は、vLLM、Hex-LLM、SGLang などの一般的なサービング フレームワーク用の事前構築済みコンテナを提供します。また、Hugging Face Text Generation Inference(TGI)、Text Embeddings Inference(TEI)、Inference Toolkit(Google Cloud Hugging Face PyTorch Inference Containers 経由)、Tensor-RT-LLM コンテナをサポートし、Gemini Enterprise Agent Platform でサポートされているモデルをサービングします。
vLLM は、大規模言語モデル(LLM)の高速な推論とサービング用に設計されたオープンソース ライブラリです。Gemini Enterprise Agent Platform は、最適化されカスタマイズされたバージョンの vLLM を使用します。このバージョンは、 Google Cloud内のパフォーマンス、信頼性、シームレスな統合を強化するように特別に設計されています。Gemini Enterprise Agent Platform のカスタマイズされた vLLM コンテナ イメージを使用して、Gemini Enterprise Agent Platform でモデルをサービングできます。事前構築済みの vLLM コンテナは、Hugging Face または Cloud Storage からモデルをダウンロードできます。Gemini Enterprise Agent Platform の事前構築済みの vLLM コンテナ イメージを使用したモデル提供の詳細については、Gemini Enterprise Agent Platform の事前構築済み vLLM コンテナ イメージを使用したモデル提供をご覧ください。
ノートブックの例
次のノートブックは、Gemini Enterprise Agent Platform の事前構築済みコンテナを使用してモデル提供を行う方法を示しています。Gemini Enterprise Agent Platform サンプルの GitHub リポジトリには、さらに多くのサンプル ノートブックがあります。
| ノートブック名 | 説明 | 直接リンク(GitHub/Colab) |
|---|---|---|
| Gemini Enterprise Agent Platform Model Garden - Gemma 3(デプロイ) | vLLM を使用して GPU に Gemma 3 モデルをデプロイする方法を示します。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - vLLM を使用したマルチモーダル Llama 3.2 のサービング | vLLM の事前構築済みコンテナを使用して、マルチモーダル Llama 3.2 モデルをデプロイします。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - Hugging Face テキスト生成推論のデプロイ | Hugging Face の Text Generation Inference(TGI)を使用した Gemma-2-2b-it モデルをデプロイする方法を示します。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - Hugging Face テキスト エンベディング推論のデプロイ | Hugging Face の Text Embeddings Inference(TEI)を使用した nomic-ai/nomic-embed-text-v1 をデプロイする方法を示します。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - Hugging Face PyTorch 推論のデプロイ | Hugging Face PyTorch Inference を使用した distilbert/distilbert-base-uncased-finetuned-sst-2-english をデプロイする方法を示します。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - DeepSeek のデプロイ | vLLM、SGLang、TensorRT-LLM を使用した DeepSeek モデルをサービングする方法を示します。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - Qwen3 のデプロイ | SGLang を使用した Qwen3 モデルをサービングする方法を示します。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - Gemma 3n のデプロイ | SGLang を使用した Gemma3n モデルをサービングする方法を示します。 | GitHub で表示 |
| Gemini Enterprise Agent Platform Model Garden - 詳細: Hex-LLM を使用した Llama 3.1 と 3.2 のデプロイ | Gemini Enterprise Agent Platform Model Garden を使用して、Hex-LLM を使用する Llama 3.1 と 3.2 のモデルを TPU にデプロイする方法を示します。 | GitHub で表示 |
次のステップ
- オープンモデルのサービング オプションを選択する
- Model as a Service(MaaS)を使用してオープンモデルを使用する
- Model Garden からオープンモデルをデプロイする
- カスタム vLLM コンテナを使用してオープンモデルをデプロイする