Vertex AI には、 Google Cloudで Llama、DeepSeek、Mistral、Qwen などのオープン大規模言語モデルをサービングする方法が複数あります。このドキュメントでは、オープンモデル サービング用の Vertex AI サービスについて説明し、ユースケースに適したオプションを選択できるようにします。
配信オプション
Vertex AI には、オープンモデルのサービングに次のオプションが用意されています。これらのオプションはそれぞれ高可用性を提供し、デフォルトで Google Cloud セキュリティのベスト プラクティスが含まれています。
- Model as a Service(MaaS): サーバーレスのマネージド API を使用してオープンモデルを提供します。
- Model Garden のセルフデプロイ モデル: Model Garden からオープンモデルをワンクリック デプロイまたはカスタムの重みを使用してデプロイします。
- Vertex AI ビルド済みコンテナ イメージ: vLLM、Hex-LLM、TGI などの一般的なサービング フレームワーク用のビルド済みコンテナを使用して、オープンモデルをサービングします。
- カスタム vLLM コンテナ: 柔軟性を高めるために、独自のカスタム vLLM コンテナをビルドしてデプロイできます。
MaaS を使用する場合
次のようなシナリオでは、MaaS の使用を検討してください。
- 迅速な開発とプロトタイピング: MaaS を使用すると、LLM 機能をアプリケーションにすばやく統合できます。これは、初期の探索、迅速なプロトタイピング、市場投入までの時間を短縮することが重要な場合に特に役立ちます。
- 運用上のオーバーヘッドの最小化: チームがインフラストラクチャ管理ではなくアプリケーション ロジックに集中したい場合は、MaaS を選択します。Google は GPU/TPU のプロビジョニング、スケーリング、メンテナンスをすべて処理します。これは、MLOps や DevOps ではなくアプリケーション開発に注力しているチームにとってメリットがあります。
- トラフィックの変動: 従量課金モデルは、予測不可能なバースト トラフィック パターンを持つ試験運用ワークロードやアプリケーションをサポートします。
- すぐに使用できる: 一貫したパフォーマンスが必要だが、基盤となるモデルやサービング スタックの深いカスタマイズは必要ないアプリケーションには、マネージド API を使用します。
- セキュリティとコンプライアンス: MaaS を使用すると、企業は Google Cloudの組み込みのエンタープライズ グレードのセキュリティ機能とコンプライアンス機能を使用できます。
- 標準モデルの使用: 標準のカスタマイズされていない基盤モデルがニーズを満たしている場合は、MaaS を使用します。
Model Garden でセルフデプロイされたモデルを使用する場合
セルフデプロイ オプションには、ビルド済みコンテナまたはカスタム コンテナを使用して Model Garden からデプロイする方法があります。次の主なシナリオでは、セルフデプロイを検討してください。
- カスタムの重みとファインチューニングされたモデル: アプリケーションでカスタムの重みやファインチューニングされたバージョンのモデルを使用する必要がある場合は、セルフデプロイが最適です。セルフデプロイでは、特定のニーズに合わせてモデルをデプロイする際の柔軟性が高まります。独自のカスタム サービング コンテナをビルドしてデプロイすることもできます。たとえば、モデルに一意の前処理または後処理のロジックが必要な場合は、このオプションを使用します。
- 予測可能で大量のワークロード: セルフデプロイは、予測可能で大量のトラフィックが発生する本番環境アプリケーションにとって、戦略的で費用対効果の高いオプションです。初期のエンジニアリング投資は大きくなりますが、大規模なトークンあたりのコストが最適化されるため、アプリケーションのライフサイクル全体で総所有コスト(TCO)を削減できます。
- インフラストラクチャのきめ細かい制御: 特定のハードウェア構成を選択してパフォーマンスと予算を微調整する必要がある場合は、セルフデプロイを使用します。これには、正確なマシンタイプ、GPU(NVIDIA L4 や H100 など)、TPU、最適化されたサービング フレームワークの選択が含まれます。
- 厳格なセキュリティとコンプライアンス: このアプローチは、特定のデータ所在地ポリシーや、マルチテナント マネージド サービスの使用を禁止する厳格な規制を遵守する必要があるアプリケーションをサポートします。独自の Google Cloud プロジェクトと Virtual Private Cloud ネットワーク内でモデルを安全にデプロイできるため、データパスを完全に制御できます。
- ロケーションのきめ細かい制御: 専用エンドポイントを使用すると、すべてのリージョンの Google Cloud で任意の Compute Engine アクセラレータにデプロイできます。
ビルド済みコンテナを使用する場合
次のような場合は、Vertex AI のビルド済みコンテナの使用を検討してください。
- 最適化されたパフォーマンス: Vertex AI は、vLLM などのフレームワーク用に構築済みのコンテナを最適化してカスタマイズし、 Google Cloud内のパフォーマンス、信頼性、シームレスな統合を強化します。
- 使いやすさ: 独自のコンテナ イメージを構築して維持することなく、vLLM、Hex-LLM、SGLang、TGI、TensorRT-LLM などの一般的なサービング フレームワークを使用してモデルをサービングします。
カスタム vLLM コンテナを使用するタイミング
次のようなシナリオでは、独自のカスタム コンテナをビルドして使用することを検討してください。
- 最大限の柔軟性: 既存のサービング オプションと事前構築済みコンテナではニーズを満たせず、依存関係や構成など、コンテナ イメージを完全に制御する必要がある場合。
- カスタム サービング ロジック: モデルに、ビルド済みコンテナでサポートされていない独自の前処理または後処理の手順が必要な場合。
次のステップ
- Model as a Service(MaaS)でオープンモデルを使用する
- Model Garden からオープンモデルをデプロイする
- ビルド済みコンテナを使用してオープンモデルをデプロイする
- カスタム vLLM コンテナを使用してオープンモデルをデプロイする