Cloud Run での AI のユースケース

エージェントの構築、推論モデルの実行、さまざまな AI サービスとの統合など、Cloud Run は AI イノベーションを実現するために必要な拡張性、柔軟性、使いやすさを提供します。

このページでは、Cloud Run で AI ワークロードをホスト、構築、デプロイするユースケースの概要について説明します。

AI ワークロードに Cloud Run を使用する理由

Cloud Run には、AI アプリケーションのスケーラビリティ、柔軟性、管理性を確保するためのいくつかのメリットがあります。以下で、その一部をご紹介します。

柔軟なコンテナサポート: アプリとその依存関係をコンテナにパッケージ化するか、サポートされている言語、ライブラリ、フレームワークを使用します。Cloud Run のコンテナランタイム契約の詳細を確認してください。
HTTP エンドポイント: Cloud Run サービスをデプロイすると、すぐに使用できる安全な Cloud Run URL エンドポイントが提供されます。Cloud Run は、HTTP チャンク転送エンコード、HTTP/2、WebSocket をサポートすることでストリーミングを提供します。
自動スケーリングまたは手動スケーリング: デフォルトでは、Cloud Run は需要に基づいてサービスを自動的にスケーリングします（ゼロまでスケーリングすることもできます）。これにより、使用した分だけ料金を支払うため、予測不可能な AI ワークロードに最適です。トラフィックと CPU 使用率のニーズに基づいて、サービスを手動スケーリングに設定することもできます。

GPU サポート: GPU を使用して Cloud Run リソースを構成することで、AI モデルを高速化します。GPU が有効になっている Cloud Run サービスは、未使用時にゼロにスケールダウンして、費用を節約できます。
統合エコシステム: Vertex AI、BigQuery、Cloud SQL、Memorystore、Pub/Sub、AlloyDB for PostgreSQL、Cloud CDN、Secret Manager、カスタムドメインなどの他の Google Cloud サービスにシームレスに接続して、包括的なエンドツーエンドの AI パイプラインを構築します。Google Cloud Observability には、アプリケーションのパフォーマンスを把握し、問題を効果的にトラブルシューティングするためのモニタリングツールとロギングツールも組み込まれています。

エンタープライズ対応: Cloud Run は、VPC への直接接続、きめ細かいセキュリティ、ネットワーキング制御を提供します。

AI の主なユースケース

Cloud Run を使用して AI アプリケーションを強化する方法をいくつかご紹介します。

AI エージェントと bot をホストする

Cloud Run は、AI エージェント、chatbot、仮想アシスタントのバックエンドロジックをホストするのに最適なプラットフォームです。これらのエージェントは、Vertex AI の Gemini などの AI モデルへの呼び出しをオーケストレートし、状態を管理して、さまざまなツールや API と統合できます。

エージェントのマイクロサービス: 個々のエージェント機能を個別の Cloud Run サービスとしてデプロイします。詳細については、AI エージェントをホストするをご覧ください。

Agent2Agent（A2A）通信: A2A プロトコルを使用して、連携型エージェントシステムを構築します。詳細については、A2A エージェントをホストするをご覧ください。

Model Context Protocol（MCP）サーバー: MCP サーバーを実装して、ツールとデータソースから LLM に標準化されたコンテキストを提供します。詳しくは、MCP サーバーをホストするをご覧ください。

推論用に AI/ML モデルを提供する

トレーニング済みの機械学習モデルをスケーラブルな HTTP エンドポイントとしてデプロイします。

リアルタイム推論: TensorFlow、PyTorch、scikit-learn などのフレームワークで構築されたモデル、または Gemma などのオープンモデルから予測を提供します。例については、Cloud Run で Gemma 3 を実行するをご覧ください。

GPU アクセラレーション: NVIDIA GPU を使用して、より要求の厳しいモデルの推論を高速化します。詳細については、サービスの GPU を構成するをご覧ください。
Vertex AI と統合する: スケーラブルなフロントエンドとして Cloud Run を使用して、Vertex AI でトレーニングされたかデプロイされたモデルをサービングします。

コンテナから大規模なモデルファイルを切り離す: Cloud Storage FUSE アダプタを使用すると、Cloud Storage バケットをマウントして、Cloud Run コンテナ内のローカルディレクトリとしてアクセスできます。

検索拡張生成（RAG）システムを構築する

Cloud Run サービスをデータソースに接続して、RAG アプリケーションを構築します。

ベクトルデータベース: Cloud SQL（pgvector を使用）、AlloyDB for PostgreSQL、Memorystore for Redis、その他の専用ベクトルストアでホストされているベクトルデータベースに接続して、LLM に関連するコンテキストを取得します。Cloud Run を使用して RAG 対応生成 AI アプリケーションをホストし、Vertex AI とベクトル検索を使用してデータ処理を行うインフラストラクチャの例をご覧ください。
データアクセス: Cloud Storage、BigQuery、Firestore、その他の API からデータを取得して、プロンプトを拡充します。

AI による API とバックエンドをホストする

AI 機能を組み込んだ API とマイクロサービスを作成します。

スマート API: LLM を使用して自然言語理解、感情分析、翻訳、要約などを行う API を開発します。
自動化されたワークフロー: イベントやリクエストに基づいて AI を活用したアクションをトリガーするサービスを構築します。

アイデアのプロトタイプを作成して試験運用する

AI のアイデアを迅速に反復処理します。

高速なデプロイ: Vertex AI Studio、Google AI Studio、Jupyter ノートブックなどの環境から、最小限の構成で Cloud Run のスケーラブルなデプロイにプロトタイプを迅速に移行します。

トラフィック分割: Cloud Run のトラフィック分割機能を使用して、さまざまなモデル、プロンプト、構成の A/B テストを実施します。また、Google Cloud Observability を使用して指標（レイテンシ、エラー率、費用）をモニタリングし、A/B テストの成功を測定します。

次のステップ

AI のコンセプトと AI のユースケースに精通している場合は、Cloud Run AI リソースをご覧ください。

Cloud Run での AI のユースケース コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。