Cloud Run での AI のユースケース

エージェントの構築、推論モデルの実行、さまざまな AI サービスとの統合など、Cloud Run は AI イノベーションを実現するために必要な拡張性、柔軟性、使いやすさを提供します。

このページでは、Cloud Run で AI ワークロードをホスト、構築、デプロイするユースケースの概要について説明します。

AI ワークロードに Cloud Run を使用する理由

Cloud Run には、AI アプリケーションのスケーラビリティ、柔軟性、管理性を確保するためのいくつかのメリットがあります。以下で、その一部をご紹介します。

  • 柔軟なコンテナ サポート: アプリとその依存関係をコンテナにパッケージ化するか、サポートされている言語、ライブラリ、フレームワークを使用します。Cloud Run のコンテナ ランタイム契約の詳細を確認してください。
  • HTTP エンドポイント: Cloud Run サービスをデプロイすると、すぐに使用できる安全な Cloud Run URL エンドポイントが提供されます。Cloud Run は、HTTP チャンク転送エンコード、HTTP/2、WebSocket をサポートすることでストリーミングを提供します。
  • 自動スケーリングまたは手動スケーリング: デフォルトでは、Cloud Run は需要に基づいてサービスを自動的にスケーリングします(ゼロまでスケーリングすることもできます)。これにより、使用した分だけ料金を支払うため、予測不可能な AI ワークロードに最適です。トラフィックと CPU 使用率のニーズに基づいて、サービスを手動スケーリングに設定することもできます。
  • GPU サポート: GPU を使用して Cloud Run リソースを構成することで、AI モデルを高速化します。GPU が有効になっている Cloud Run サービスは、未使用時にゼロにスケールダウンして、費用を節約できます。

  • 統合エコシステム: Vertex AI、BigQuery、Cloud SQL、Memorystore、Pub/Sub、AlloyDB for PostgreSQL、Cloud CDN、Secret Manager、カスタム ドメインなどの他の Google Cloud サービスにシームレスに接続して、包括的なエンドツーエンドの AI パイプラインを構築します。Google Cloud Observability には、アプリケーションのパフォーマンスを把握し、問題を効果的にトラブルシューティングするためのモニタリング ツールとロギングツールも組み込まれています。

  • エンタープライズ対応: Cloud Run は、VPC への直接接続、きめ細かいセキュリティ、ネットワーキング制御を提供します。

AI の主なユースケース

Cloud Run を使用して AI アプリケーションを強化する方法をいくつかご紹介します。

AI エージェントと bot をホストする

Cloud Run は、AI エージェント、chatbot、仮想アシスタントのバックエンド ロジックをホストするのに最適なプラットフォームです。これらのエージェントは、Vertex AI の Gemini などの AI モデルへの呼び出しをオーケストレートし、状態を管理して、さまざまなツールや API と統合できます。

  • エージェントのマイクロサービス: 個々のエージェント機能を個別の Cloud Run サービスとしてデプロイします。詳細については、AI エージェントをホストするをご覧ください。
  • Agent2Agent(A2A)通信: A2A プロトコルを使用して、連携型エージェント システムを構築します。詳細については、A2A エージェントをホストするをご覧ください。
  • Model Context Protocol(MCP)サーバー: MCP サーバーを実装して、ツールとデータソースから LLM に標準化されたコンテキストを提供します。詳しくは、MCP サーバーをホストするをご覧ください。

推論用に AI/ML モデルを提供する

トレーニング済みの機械学習モデルをスケーラブルな HTTP エンドポイントとしてデプロイします。

  • リアルタイム推論: TensorFlow、PyTorch、scikit-learn などのフレームワークで構築されたモデル、または Gemma などのオープンモデルから予測を提供します。 例については、Cloud Run で Gemma 3 を実行するをご覧ください。
  • GPU アクセラレーション: NVIDIA GPU を使用して、より要求の厳しいモデルの推論を高速化します。詳細については、サービスの GPU を構成するをご覧ください。
  • Vertex AI と統合する: スケーラブルなフロントエンドとして Cloud Run を使用して、Vertex AI でトレーニングされたかデプロイされたモデルをサービングします。
  • コンテナから大規模なモデルファイルを切り離す: Cloud Storage FUSE アダプタを使用すると、Cloud Storage バケットをマウントして、Cloud Run コンテナ内のローカル ディレクトリとしてアクセスできます。

検索拡張生成(RAG)システムを構築する

Cloud Run サービスをデータソースに接続して、RAG アプリケーションを構築します。

  • ベクトル データベース: Cloud SQL(pgvector を使用)、AlloyDB for PostgreSQL、Memorystore for Redis、その他の専用ベクトルストアでホストされているベクトル データベースに接続して、LLM に関連するコンテキストを取得します。Cloud Run を使用して RAG 対応生成 AI アプリケーションをホストし、Vertex AI とベクトル検索を使用してデータ処理を行うインフラストラクチャの例をご覧ください。
  • データアクセス: Cloud Storage、BigQuery、Firestore、その他の API からデータを取得して、プロンプトを拡充します。

AI による API とバックエンドをホストする

AI 機能を組み込んだ API とマイクロサービスを作成します。

  • スマート API: LLM を使用して自然言語理解、感情分析、翻訳、要約などを行う API を開発します。
  • 自動化されたワークフロー: イベントやリクエストに基づいて AI を活用したアクションをトリガーするサービスを構築します。

アイデアのプロトタイプを作成して試験運用する

AI のアイデアを迅速に反復処理します。

  • 高速なデプロイ: Vertex AI StudioGoogle AI Studio、Jupyter ノートブックなどの環境から、最小限の構成で Cloud Run のスケーラブルなデプロイにプロトタイプを迅速に移行します。
  • トラフィック分割: Cloud Run のトラフィック分割機能を使用して、さまざまなモデル、プロンプト、構成の A/B テストを実施します。また、Google Cloud Observability を使用して指標(レイテンシ、エラー率、費用)をモニタリングし、A/B テストの成功を測定します。

次のステップ

AI のコンセプトと AI のユースケースに精通している場合は、Cloud Run AI リソースをご覧ください