Cloud Run で AI ソリューションを実行する

このガイドでは、Cloud Run を使用してアプリをホストし、推論を実行して、AI ワークフローを構築する方法の概要について説明します。

AI アプリケーション、エージェント、スケーラブルな API エンドポイントをホストするための Cloud Run

Cloud Run は、AI アプリとワークロードをスケーリングするフルマネージド プラットフォームを提供します。

Cloud Run で AI アプリをホストする場合、通常は次のアーキテクチャ コンポーネントがあります。

  • サービングとオーケストレーション: アプリケーション コードまたはコンテナを Cloud Run にデプロイします。
  • AI モデル: アプリで Google の AI モデル、オープンソース モデル、カスタムモデルを使用します。
  • インテグレーション: メモリ、データベース、ストレージ、セキュリティなどの Google Cloud サービスまたはサードパーティ サービスに接続できます。
  • ツール: 他のタスクやオペレーションのためのツールに接続できます。

次の図は、AI アプリのホスティング プラットフォームとして Cloud Run を使用する方法の概要を示しています。

Cloud Run でホストされる AI アプリの 4 つのコンポーネント:
    1. サービングとオーケストレーション、2. AI モデル、3. インテグレーション、4. ツール。
図 1. Cloud Run でホストされる AI アプリのコンポーネント。

図に示すように:

  1. サービングとオーケストレーション レイヤ内では、Cloud Run サービスはアプリケーションのコアロジックのスケーラブルな API エンドポイントとして機能します。インスタンスの自動オンデマンド高速スケーリングにより、複数のユーザーを同時に効率的に管理します。

    Cloud Run にデプロイするコンテナを用意します。アプリケーションとその依存関係をコンテナにパッケージ化するか、ソースコードを指定して Cloud Run でコードを自動的にコンテナにビルドしてデプロイできるようにします。ソースコードによるデプロイでは、任意の言語、オープン フレームワーク、SDK を使用して AI アプリを構築できます。

  2. AI アプリは、受信リクエストに対応して処理のために事前トレーニング済みの AI モデルにデータを送信してから結果を返す、スケーラブルな API エンドポイントとして機能します。

    Cloud Run は、Gemini モデルや Vertex AI モデルなどの Google のモデルと統合されており、Llama や Gemma などのオープンソース モデルと統合することもできます。自分でトレーニングしたカスタムモデルがある場合は、そのモデルを Cloud Run リソースで使用することもできます。

  3. Google Cloud は、AI アプリケーションのインフラストラクチャをサポートするさまざまなソリューションを提供します。 AI アプリと連携するGoogle Cloud インテグレーションには、次のようなものがあります。

    • メモリとデータベース
      • 短期
        • Memorystore は、短期間のデータ保存用の高速な外部キャッシュを提供する、キャッシュ保存に対応した一時的な高アクセスデータ マネジメント サービスです。
      • 長期
        • AlloyDB for PostgreSQL は、要求の厳しいトランザクション ワークロードと分析ワークロード向けに設計された PostgreSQL 互換のデータベースです。ベクトル エンベディングの生成と高速ベクトル インデックスが組み込まれているため、標準の pgvector 実装と比較してセマンティック検索が高速になります。
        • Cloud SQL は、MySQL、PostgreSQL、SQL Server 用のリレーショナル データベース サービスです。PostgreSQL 用の pgvector 拡張機能を使用して、ベクトルストアとしても機能します。
        • Firestore は、ベクトル検索機能が組み込まれたスケーラブルな NoSQL ドキュメント データベース サービスです。
    • ストレージ
      • Cloud Storage は、モデル トレーニング用の大規模なデータセット、アプリケーションの入出力ファイル、モデル アーティファクトを保持するためのオブジェクト ストレージ ソリューションです。
    • セキュリティ
      • Secret Manager は、AI アプリケーションが外部サービスとやり取りするために必要になることの多い API キー、パスワード、認証情報といったセンシティブ データを安全かつ一元的に保存できる、シークレットと認証情報の管理サービスです。

    詳細については、 Google Cloud サービスに接続するをご覧ください。

  4. ツールを使用すると、外部または Cloud Run で実行されているサービス、API、ウェブサイトを AI アプリや AI モデルから操作できます。

    たとえば、AI アプリが AI エージェントの場合、エージェントは MCP サーバーにリクエストを送信して外部ツールを実行したり、コンテナで実行されているツール(コード実行、コンピュータの使用、情報取得など)を使用したりします。

AI 推論用に Cloud Run でモデルをホストする

大規模言語モデル(LLM)を使用するアプリケーションとエージェントの構築に加えて、Cloud Run で GPU を有効にして、AI 推論用の事前トレーニング済みモデルまたはカスタムのセルフデプロイ モデルを実行することもできます。

Cloud Run GPU を使用すると、AI 推論ワークロードの計算負荷の高いタスクを実行するために必要な、大量のオペレーションを処理できます。AI モデルをコンテナ イメージとして、またはソースコードからデプロイし、さまざまな方法で Cloud Run リソースをデプロイします。

次のステップ