オープンモデルのサービングオプションを選択する

Vertex AI には、 Google Cloudで Llama、DeepSeek、Mistral、Qwen などのオープン大規模言語モデルをサービングする方法が複数あります。このドキュメントでは、オープンモデルサービング用の Vertex AI サービスについて説明します。この情報は、ユースケースに適したオプションを選択する際に役立ちます。

サービングオプション

Vertex AI では、オープンモデルのサービングに次のオプションが用意されています。これらのオプションはそれぞれ高可用性を提供し、デフォルトで Google Cloud セキュリティのベストプラクティスが含まれています。

Model as a Service（MaaS）: サーバーレスのマネージド API を使用してオープンモデルを提供します。
Model Garden のセルフデプロイモデル: Model Garden からオープンモデルをワンクリックでデプロイできます。また、カスタムの重みを使用してデプロイすることもできます。
Vertex AI ビルド済みコンテナイメージ: vLLM、Hex-LLM、TGI などの一般的なサービングフレームワーク用のビルド済みコンテナを使用して、オープンモデルをサービングします。
カスタム vLLM コンテナ: 柔軟性を高めるために、独自のカスタム vLLM コンテナをビルドしてデプロイできます。

MaaS を使用する場合

次のようなシナリオでは、MaaS の使用を検討してください。

迅速な開発とプロトタイピング: MaaS を使用すると、LLM 機能をアプリケーションにすばやく統合できます。これは、初期の探索、迅速なプロトタイピング、市場投入までの時間を短縮することが重要な場合に特に役立ちます。
運用上のオーバーヘッドの最小化: チームがインフラストラクチャ管理ではなくアプリケーションロジックに集中したい場合は、MaaS を選択します。Google は GPU / TPU のプロビジョニング、スケーリング、メンテナンスをすべて処理します。これは、MLOps や DevOps ではなくアプリケーション開発に注力しているチームにとってメリットがあります。
トラフィックの変動: 従量課金モデルは、予測不可能なバーストトラフィックパターンのある試験運用ワークロードやアプリケーションをサポートします。
すぐに使用できる: 一貫したパフォーマンスが必要だが、基盤となるモデルや、サービングスタックの詳細なカスタマイズが必要ないアプリケーションには、マネージド API を使用します。
セキュリティとコンプライアンス: MaaS を使用すると、 Google Cloudの組み込みのエンタープライズグレードのセキュリティ機能とコンプライアンス機能を使用できます。
標準モデルの使用: 標準のカスタマイズされていない基盤モデルがニーズを満たしている場合は、MaaS を使用します。

Model Garden でセルフデプロイされたモデルを使用する場合

セルフデプロイオプションには、ビルド済みコンテナまたはカスタムコンテナを使用して Model Garden からデプロイする方法があります。次の主なシナリオでは、セルフデプロイを検討してください。

カスタムの重みとファインチューニングされたモデル: アプリケーションでカスタムの重みやファインチューニングされたバージョンのモデルを使用する必要がある場合は、セルフデプロイが最適です。セルフデプロイでは、特定のニーズに合わせてモデルをデプロイする際の柔軟性が高まります。独自のカスタムサービングコンテナをビルドしてデプロイすることもできます。たとえば、モデルに一意の前処理または後処理のロジックが必要な場合は、このオプションを使用します。
予測可能で大量のワークロード: 予測可能で大量のトラフィックが発生する本番環境アプリケーションには、セルフデプロイが戦略的で費用対効果の高いオプションです。初期のエンジニアリング投資は大きくなりますが、大規模なトークンあたりのコストが最適化されるため、アプリケーションのライフサイクル全体で総所有コスト（TCO）を削減できます。
インフラストラクチャのきめ細かい制御: 特定のハードウェア構成を選択してパフォーマンスと予算を微調整する必要がある場合は、セルフデプロイを使用します。これには、正確なマシンタイプ、GPU（NVIDIA L4 や H100 など）、TPU、最適化されたサービングフレームワークの選択が含まれます。
厳格なセキュリティとコンプライアンス: このアプローチは、特定のデータ所在地ポリシーや、マルチテナントマネージドサービスの使用を禁止する厳格な規制が適用されるアプリケーションをサポートします。独自の Google Cloud プロジェクトと Virtual Private Cloud ネットワーク内でモデルを安全にデプロイできるため、データパスを完全に制御できます。
ロケーションのきめ細かい制御: 専用エンドポイントを使用すると、すべてのリージョンの Google Cloud で任意の Compute Engine アクセラレータにデプロイできます。

ビルド済みコンテナを使用する場合

次のような場合は、Vertex AI のビルド済みコンテナの使用を検討してください。

最適化されたパフォーマンス: Vertex AI は、vLLM などのフレームワーク用に構築済みのコンテナを最適化してカスタマイズし、 Google Cloud内のパフォーマンス、信頼性、シームレスな統合を強化します。
使いやすさ: 独自のコンテナイメージを構築して維持することなく、vLLM、Hex-LLM、SGLang、TGI、TensorRT-LLM などの一般的なサービングフレームワークを使用してモデルをサービングします。

カスタム vLLM コンテナを使用する場合

次のようなシナリオでは、独自のカスタムコンテナをビルドして使用することを検討してください。

最大限の柔軟性: 既存のサービングオプションと事前構築済みコンテナではニーズを満たせず、依存関係や構成など、コンテナイメージを完全に制御する必要がある場合。
カスタムサービングロジック: モデルに、ビルド済みコンテナでサポートされていない独自の前処理または後処理のステップが必要な場合。

オープンモデルのサービング オプションを選択する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

サービング オプション