Agentische Analyse-Workflows für verteilte Daten implementieren

Last reviewed 2026-06-09 UTC

In diesem Dokument wird eine allgemeine Architektur für die Implementierung von cloudübergreifenden Analyse-Workflows mit KI-Agents beschrieben. Dieses Dokument richtet sich an Cloud-Architekten, Data Engineers und Data Scientists, die agentenbasierte KI für Analyse-Workflows in Multi-Cloud-Data Lakes, strukturierten Data Warehouses und unstrukturierten Datenspeichern verwenden möchten. In diesem Dokument wird davon ausgegangen, dass Sie über grundlegende Kenntnisse in den Bereichen agentische KI-Konzepte, Datenanalyse und Cloud-Architektur verfügen.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie ein Codelab, mit dem Sie lernen können, wie Sie eine agentenbasierte Analyselösung erstellen.

Architektur

Das folgende Diagramm zeigt eine Architektur für eine agentenbasierte Analyselösung, die Geschäftsstatistiken aus strukturierten und unstrukturierten Daten ableitet, die auf mehrere Datenspeicher und Cloud-Dienstanbieter verteilt sind.

Eine Architektur, die eine agentenbasierte Entwicklungsumgebung und ein KI-Modell verwendet, um Daten zu analysieren, die auf Google Cloud und anderen Cloud-Dienstanbietern verteilt sind.

Die Komponenten in dieser Architektur sind in die folgenden Ebenen unterteilt:

  • Nutzer- und Agent-Aktionen

    • Agentic Entwicklungsumgebung: Datenexperten wie Data Engineers und Data Scientists senden Anfragen in natürlicher Sprache über eine der folgenden Methoden:
      • Eine agentenbasierte Entwicklungsumgebung wie die Google Antigravity IDE oder Microsoft Visual Studio Code.
      • Ein CLI-Agent wie Gemini CLI, Claude Code oder Codex.
    • Google Cloud Data Agent Kit-Erweiterung: Mit der Erweiterung können Agents auf vertrauenswürdige Daten inGoogle Cloud zugreifen, indem sie entsprechende Skills laden und eine Verbindung zu Remote-MCP-Servern für Google Cloud -Dienste herstellen.
    • Foundation Model: Um Insights aus vertrauenswürdigem Kontext und vertrauenswürdigen Daten zu generieren, wird in der agentischen Entwicklungsumgebung ein Foundation Model wie ein Modell aus der Gemini-Familie verwendet. Das Modell nutzt geeignete Skills aus der Data Agent Kit-Erweiterung und die erforderlichen MCP-Servertools, um komplexe Analyse-Workflows zu implementieren.
  • Analytics-Workflows

    • Lakehouse for Apache Iceberg: Lakehouse bietet einen leistungsstarken, einheitlichen Metadatenkatalog, der das offene Tabellenformat Apache Iceberg mit Speicher der Enterprise-Klasse in Google Cloudintegriert.
    • Managed Service for Apache Spark: Dies ist die zentrale Komponente für die Datenverarbeitung in der Architektur. Die Lightning Engine des Managed Service for Apache Spark unterstützt leistungsstarke, serverlose Datenverarbeitung im Batch- und interaktiven Modus. Die Spark-Datenverarbeitungsjobs verwenden Metadaten aus dem Iceberg-Katalog im Lakehouse, lesen strukturierte Daten aus BigQuery und führen Zero-Copy-Lesevorgänge aus externen Quellen wie Amazon S3 aus.
    • Knowledge Catalog: Der Agent verwendet Knowledge Catalog, um intelligente Scans unstrukturierter Daten in Cloud Storage durchzuführen, semantische Metadaten zu extrahieren und einen Kontextgraphen zu erstellen.
  • Vertrauenswürdige Datenspeicher

    • Daten in Google Cloud: BigQuery dient als zentrales Data Warehouse für strukturierte Daten, einschließlich strukturierter Auszüge aus unstrukturierten Daten in Cloud Storage.
    • Daten aus externen Quellen: Die Architektur zeigt externe Datenquellen wie Daten in Amazon S3-Buckets und Metadaten im Databricks Unity Catalog.Cross-Cloud Interconnect bietet eine dedizierte Verbindung mit hoher Bandbreite zwischen Google Cloudund anderen Cloud-Dienstanbietern.

Verwendete Produkte

In der Architektur werden die folgenden Google Cloud Produkte und ‑Tools verwendet:

  • Google Cloud Data Agent Kit: Agent-Erweiterungen, mit denen Data Scientists, Data Engineers und Entwickler von Daten-Apps den gesamten Datenlebenszyklus in ihren bevorzugten agentischen Entwicklungsumgebungen verwalten können.
  • BigQuery: Ein Data Warehouse für Unternehmen, mit dem Sie Ihre Daten mit integrierten Features wie maschinellem Lernen, raumbezogenen Analysen und Business Intelligence verwalten und analysieren können.
  • Managed Service for Apache Spark: Ein verwalteter Dienst, mit dem Apache Spark-Batcharbeitslasten auf einer verwalteten Compute-Infrastruktur ausgeführt werden.
  • Lakehouse für Apache Iceberg: Eine leistungsstarke Speicher-Engine, mit der Sie offene Data Lakehouses erstellen können. Sie bietet eine einheitliche Schnittstelle für erweiterte Analysen und KI.
  • Knowledge Catalog: Ein KI-basierter Dienst, der einen einheitlichen Katalog von Datenassets mit intelligenten Metadaten und Governance-Funktionen bietet.
  • Gemini: Eine Reihe multimodaler KI-Modelle, die von Google entwickelt wurden.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
  • Cross-Cloud Interconnect: Ein Dienst, der dedizierte Verbindungen mit hoher Bandbreite und niedriger Latenz zwischen Google Cloud und anderen Cloud-Dienstanbietern bietet.
  • Google Cloud-MCP-Server: Von Google verwaltete Remotedienste, die das Model Context Protocol (MCP) implementieren, um KI-Anwendungen Zugriff auf Google- und Google Cloud Produkte und ‑Dienste zu ermöglichen.

Anwendungsfälle

Die in diesem Dokument beschriebene Architektur eignet sich für die folgenden Anwendungsfälle:

  • Multi-Cloud-Datenanalyse: Daten, die auf Google Cloud und anderen Cloud-Dienstanbietern verteilt sind, lassen sich effizient abfragen und analysieren, ohne dass Dateien verschoben oder komplexe ETL-Pipelines (Extrahieren, Transformieren, Laden) erstellt werden müssen. Ein Marketingmanager eines globalen Einzelhändlers kann beispielsweise die Effektivität von Marketingkampagnen analysieren, indem er Kundentreuedaten in Amazon S3 mit Marketingvorgangsdaten in BigQuery zusammenführt.
  • Intelligente Datenermittlung: Mit Prompts in natürlicher Sprache und KI-Agents können Sie föderierte Datasets in mehreren Umgebungen ermitteln, abfragen und verarbeiten. Ein Beschaffungsspezialist kann beispielsweise anhand von strukturierten Daten in einem Supply Chain Management-System (SCM) in Kombination mit Erkenntnissen aus unstrukturierter E-Mail-Kommunikation und Schadensbewertungsberichten häufige Ursachen für Unterbrechungen der Lieferkette ermitteln.
  • Extrahieren strukturierter Daten aus unstrukturierten Quellen: Scannen Sie große Mengen unstrukturierter Daten, leiten Sie semantische Metadaten ab und speichern Sie Auszüge strukturierter Daten in BigQuery für die nachgelagerte Analyse. Ein Operations Controller kann beispielsweise Ausgaben effizient analysieren, indem er strukturierte Daten aus Tausenden von Rechnungen extrahiert, die in einem unstrukturierten Format wie PDF-Dateien gespeichert sind.

Bereitstellung

Informationen zum Erstellen einer agentenbasierten Analyselösung mit der Data Agent Kit-Erweiterung finden Sie im Codelab Rohdaten in Sekundenschnelle in Vorhersagen umwandeln – mit KI-Agenten. In diesem Codelab wird gezeigt, wie Sie mit der Data Agent Kit-Erweiterung Daten effizient in Ihrer bevorzugten agentischen Entwicklungsumgebung analysieren können. Alle Beispieldaten, die im Codelab verwendet werden, sind inGoogle Cloudgespeichert.

Nächste Schritte

Beitragende

Autor: Kumar Dhanagopal | Cross-product Solution Developer

Weitere Beitragende: