Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

分散データ用のエージェント型分析ワークフローを実装する

Last reviewed 2026-06-09 UTC

このドキュメントでは、AI エージェントを使用するクロスクラウド分析ワークフローを実装するための大まかなアーキテクチャについて説明します。このドキュメントは、マルチクラウドデータレイク、構造化データウェアハウス、非構造化データストア全体でエージェント型 AI を分析ワークフローに使用したいクラウドアーキテクト、データエンジニア、データサイエンティストを対象としています。このドキュメントでは、エージェント型 AI のコンセプト、データ分析、クラウドアーキテクチャに関する基本的な知識があることを前提としています。

このドキュメントのデプロイセクションでは、エージェント分析ソリューションを構築する方法を学習できる Codelab を紹介します。

アーキテクチャ

次の図は、複数のデータストアとクラウドサービスプロバイダに分散された構造化データと非構造化データからビジネス上の分析情報を導出するエージェント分析ソリューションのアーキテクチャを示しています。

エージェントベースの開発環境と AI モデルを使用して、 Google Cloud や他のクラウドサービスプロバイダに分散されたデータを分析するアーキテクチャ。

このアーキテクチャのコンポーネントは、次のレイヤに整理されています。

ユーザーとエージェントのアクション
- エージェント開発環境: データエンジニアやデータサイエンティストなどのデータ実務担当者は、次のいずれかの方法で自然言語リクエストを送信します:
  - Google Antigravity IDE や Microsoft Visual Studio Code などのエージェント開発環境。
  - Gemini CLI、Claude Code、Codex などの CLI エージェント。
- Google Cloud Data Agent Kit 拡張機能: この拡張機能を使用すると、エージェントは適切なスキルを読み込み、 Google Cloud サービスの MCP サーバーに接続して、信頼できるデータにアクセスできます。 Google Cloud
- 基盤モデル: 信頼できるコンテキストとデータからビジネス上の分析情報を生成するために、エージェント開発環境では Gemini ファミリーのモデルなどの基盤モデルを使用します。このモデルは、Data Agent Kit 拡張機能の適切なスキルを使用し、必要な MCP サーバーツールを使用して複雑な分析ワークフローを実装します。
分析ワークフロー
- Lakehouse for Apache Iceberg: Lakehouse は、Apache Iceberg オープンテーブル形式をのエンタープライズグレードのストレージと統合する、高パフォーマンスの統合メタデータカタログを提供します Google Cloud。
- Managed Service for Apache Spark: これは、アーキテクチャのコアデータ処理コンポーネントです。Managed Service for Apache Spark の Lightning Engine 機能は、バッチモードとインタラクティブモードで高パフォーマンスのサーバーレスデータ処理をサポートします。Spark データ処理ジョブは、 Lakehouse の Iceberg カタログのメタデータを使用し、 BigQuery から構造化データを読み取り、 Amazon S3 などの外部ソースからゼロコピー読み取りを実行します。
- Knowledge Catalog: エージェントは Knowledge Catalog を使用して Cloud Storage 内の非構造化データのインテリジェントスキャンを実行し、セマンティックメタデータを抽出し、コンテキストグラフを構築します。
信頼できるデータストア
- Google Cloud のデータ: BigQuery は、Cloud Storage 内の非構造化データから抽出された構造化データを含む、構造化データの中央ウェアハウスとして機能します。
- 外部ソースからのデータ: このアーキテクチャは、Amazon S3 バケット内のデータや Databricks Unity Catalog のメタデータなどの外部データソースを示しています。 Cross-Cloud Interconnect は、 Google Cloud と他のクラウドサービスプロバイダの間で高帯域幅の専用接続を提供します。

使用するプロダクト

このアーキテクチャでは、次の Google Cloud プロダクトとツールを使用します。

Google Cloud Data Agent Kit: データサイエンティスト、データエンジニア、データアプリデベロッパーが、任意の Agentic 開発環境内からデータライフサイクル全体を管理できるようにするエージェント拡張機能。
BigQuery: ML、地理空間分析、ビジネスインテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、Google Cloud のフルマネージドエンタープライズデータウェアハウス。
Managed Service for Apache Spark: マネージドコンピューティングインフラストラクチャで Apache Spark バッチワークロードを実行するマネージドサービス。
Lakehouse for Apache Iceberg: オープンデータレイクハウスを構築し、高度な分析と AI の統合インターフェースを提供する高パフォーマンスのストレージエンジン。
Knowledge Catalog: インテリジェントメタデータとガバナンス機能を備えたデータアセットの統合カタログを提供する AI 搭載サービス。
Gemini : Google が開発したマルチモーダル AI モデルのファミリー。

Cloud Storage: 低コストで無制限のオブジェクトストア。さまざまなデータ型に対応しています。データにはの内部および外部からアクセスでき Google Cloud、冗長性を確保するために複数のロケーションに複製されます。
Cross-Cloud Interconnect: と他のクラウドサービスプロバイダの間で、高帯域幅、低レイテンシの専用接続を提供するサービス。 Google Cloud
Google Cloud MCP サーバー: Model Context Protocol （MCP）を実装して、AI アプリケーションが Google プロダクトとサービスにアクセスできるようにする、Google マネージドリモートサービス。 Google Cloud

ユースケース

このドキュメントで説明するアーキテクチャは、次のユースケースに適しています。

マルチクラウドデータ分析: ファイルを移動したり、複雑な ETL パイプラインを構築したりすることなく、と他のクラウドサービスプロバイダに分散されたデータを効率的にクエリして分析します。 Google Cloud たとえば、グローバルな小売業者のマーケティングマネージャーは、Amazon S3 の顧客ロイヤリティデータと BigQuery のマーケティングオペレーションデータを結合して、マーケティングキャンペーンの効果を分析できます。
インテリジェントなデータ検出: 自然言語プロンプトと AI エージェントを使用して、複数の環境にわたるフェデレーションデータセットを検出、クエリ、処理します。たとえば、調達スペシャリストは、サプライチェーンマネジメント（SCM）システムの構造化データと、非構造化メールコミュニケーションと損害評価レポートの分析情報を組み合わせて、サプライチェーンの中断の一般的な原因を特定できます。
非構造化ソースからの構造化データの抽出: 大量の非構造化データをスキャンし、セマンティックメタデータを導出し、構造化データの抽出を BigQuery に保存してダウンストリーム分析を行います。たとえば、オペレーションコントローラは、PDF ファイルなどの非構造化形式で保存されている数千件の請求書から構造化データを抽出することで、費用を効率的に分析できます。

デプロイ

Data Agent Kit 拡張機能を使用してエージェント分析ソリューションを構築する方法については、Codelab の AI エージェントを使用して生データを数秒で予測するをご覧ください。この Codelab では、Data Agent Kit 拡張機能を使用して、任意の Agentic 開発環境内からデータを効率的に分析する方法について説明します。Codelab で使用するサンプルデータはすべて Google Cloudに保存されます。

次のステップ

Data Agent Kit 拡張機能を使用して、データ変換と分析にノートブックを使用する方法を学習する。
Knowledge Catalog のユースケースを確認する。
Lakehouse の詳細を確認する。
Lightning Engine を使用して Apache Spark ワークロードを高速化する方法を学習する。
Knowledge Catalog を BigQuery のガバナンスレイヤとエージェントレイヤとして使用する方法を学習する。
Cloud アーキテクチャセンターで、リファレンスアーキテクチャ、図、ベストプラクティスを確認する。

協力者

著者: Kumar Dhanagopal | クロスプロダクトソリューションデベロッパー

その他の寄稿者:

Abirami Sukumaran | スタッフデベロッパーアドボケイト
Arti Prasad | テクニカルライター
Brad Miro | シニアデベロッパーアドボケイト
Matthew Rahmann | シニアプロダクトマネージャー
Ranadip Chatterjee | ソリューションエンジニア
Remigiusz Samborski | リードデベロッパーリレーションズエンジニア

分散データ用のエージェント型分析ワークフローを実装する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。