分散データ用のエージェント型分析ワークフローを実装する

Last reviewed 2026-06-09 UTC

このドキュメントでは、エージェント型 AI を使用するクロスクラウド分析ワークフローを実装するためのハイレベルなアーキテクチャについて説明します。このドキュメントは、マルチクラウド データレイク、構造化データ ウェアハウス、非構造化データ ストア全体で分析ワークフローにエージェント型 AI を使用したいクラウド アーキテクト、データ エンジニア、データ サイエンティストを対象としています。このドキュメントでは、エージェント型 AI のコンセプト、データ分析、クラウド アーキテクチャに関する基本的な知識があることを前提としています。

このドキュメントのデプロイ セクションでは、エージェント分析ソリューションの構築方法を学べる Codelab を紹介しています。

アーキテクチャ

次の図は、複数のデータストアとクラウド サービス プロバイダに分散された構造化データと非構造化データからビジネス分析情報を導き出すエージェント分析ソリューションのアーキテクチャを示しています。

エージェントベースの開発環境と AI モデルを使用して、 Google Cloud や他のクラウド サービス プロバイダに分散されたデータを分析するアーキテクチャ。

このアーキテクチャのコンポーネントは、次のレイヤに分類されます。

  • ユーザーとエージェントの操作

    • エージェント型開発環境: データ エンジニアやデータ サイエンティストなどのデータ実務担当者は、次のいずれかの方法で自然言語リクエストを送信します。
    • Google Cloud Data Agent Kit 拡張機能: この拡張機能により、エージェントは適切なスキルを読み込み、 Google Cloud サービスの遠隔 MCP サーバーに接続することで、Google Cloud の信頼できるデータにアクセスできます。
    • 基盤モデル: 信頼できるコンテキストとデータからビジネス分析情報を生成するために、エージェント開発環境では、Gemini ファミリーのモデルなどの基盤モデルが使用されます。このモデルは、Data Agent Kit 拡張機能の適切なスキルを使用し、必要な MCP サーバーツールを使用して複雑な分析ワークフローを実装します。
  • アナリティクスのワークフロー

    • Lakehouse for Apache Iceberg: Lakehouse は、 Google Cloudのエンタープライズ グレードのストレージに Apache Iceberg オープン テーブル形式を統合する、高パフォーマンスの統合メタデータ カタログを提供します。
    • Managed Service for Apache Spark: アーキテクチャのコア データ処理コンポーネントです。Managed Service for Apache Spark の Lightning Engine 機能は、バッチモードとインタラクティブ モードで高パフォーマンスのサーバーレス データ処理をサポートしています。Spark データ処理ジョブは、Lakehouse の Iceberg カタログのメタデータを使用し、BigQuery から構造化データを読み取り、Amazon S3 などの外部ソースからゼロコピー読み取りを実行します。
    • Knowledge Catalog: エージェントは Knowledge Catalog を使用して、Cloud Storage 内の非構造化データのインテリジェント スキャンを実行し、セマンティック メタデータを抽出して、コンテキスト グラフを構築します。
  • 信頼できるデータストア

    • Google Cloud のデータ: BigQuery は、Cloud Storage の非構造化データから抽出された構造化データを含む、構造化データの中央ウェアハウスとして機能します。
    • 外部ソースのデータ: このアーキテクチャは、Amazon S3 バケット内のデータや Databricks Unity Catalog 内のメタデータなどの外部データソースを示しています。Cross-Cloud Interconnect は、 Google Cloudと他のクラウド サービス プロバイダ間の高帯域幅の専用接続を提供します。

使用するプロダクト

このアーキテクチャでは、次の Google Cloud プロダクトとツールを使用します。

  • Google Cloud Data Agent Kit: データ サイエンティスト、データ エンジニア、データアプリ デベロッパーが、好みのエージェント型開発環境内からデータ ライフサイクル全体を管理できるようにするエージェント拡張機能。
  • BigQuery: ML、地理空間分析、ビジネス インテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、Google Cloud のフルマネージド エンタープライズ データ ウェアハウス。
  • Managed Service for Apache Spark: マネージド コンピューティング インフラストラクチャで Apache Spark バッチ ワークロードを実行するマネージド サービス。
  • Lakehouse for Apache Iceberg: オープン データ レイクハウスを構築できる高パフォーマンスのストレージ エンジン。高度な分析と AI のための統合インターフェースを提供します。
  • Knowledge Catalog: インテリジェントなメタデータとガバナンス機能を備えたデータアセットの統合カタログを提供する AI 搭載サービス。
  • Gemini: Google が開発したマルチモーダル AI モデルのファミリー。
  • Cloud Storage: 低コストで無制限のオブジェクト ストア。さまざまなデータ型に対応しています。データには Google Cloudの内部および外部からアクセスでき、冗長性を確保するために複数のロケーションに複製されます。
  • Cross-Cloud Interconnect: Google Cloud と他のクラウド サービス プロバイダの間で、高帯域幅、低レイテンシの専用接続を提供するサービス。
  • Google Cloud MCP サーバー: Model Context Protocol(MCP)を実装して、AI アプリケーションが Google と Google Cloud のプロダクトとサービスにアクセスできるようにする Google マネージド リモート サービス。

ユースケース

このドキュメントで説明するアーキテクチャは、次のユースケースに適しています。

  • マルチクラウド データ分析: Google Cloud や他のクラウド サービス プロバイダに分散されたデータを、ファイルを移動したり、複雑な抽出、変換、読み込み(ETL)パイプラインを構築したりすることなく、効率的にクエリして分析します。たとえば、グローバルな小売業者のマーケティング マネージャーは、Amazon S3 の顧客ロイヤリティ データと BigQuery のマーケティング オペレーション データを結合して、マーケティング キャンペーンの効果を分析できます。
  • インテリジェントなデータ検出: 自然言語プロンプトと AI エージェントを使用して、複数の環境にわたるフェデレーション データセットを検出、クエリ、処理します。たとえば、調達スペシャリストは、サプライ チェーン管理(SCM)システムの構造化データと、非構造化メール通信や損害評価レポートの分析情報を組み合わせて、サプライ チェーンの混乱の一般的な原因を特定できます。
  • 非構造化ソースからの構造化データの抽出: 大量の非構造化データをスキャンし、セマンティック メタデータを取得して、構造化データ抽出を BigQuery に保存し、ダウンストリーム分析を行います。たとえば、運用管理者は、PDF ファイルなどの非構造化形式で保存されている数千枚の請求書から構造化データを抽出して、費用を効率的に分析できます。

デプロイ

Data Agent Kit 拡張機能を使用してエージェント型分析ソリューションを構築する方法については、Codelab の AI エージェントを使用して数秒で予測を行うをご覧ください。この Codelab では、Data Agent Kit 拡張機能を使用して、お好みのエージェント型開発環境内でデータを効率的に分析する方法を説明します。Codelab で使用するサンプルデータはすべてGoogle Cloudに保存されています。

次のステップ

協力者

著者: Kumar Dhanagopal | クロスプロダクト ソリューション デベロッパー

その他の寄稿者: