Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Agentische Analyse-Workflows für verteilte Daten implementieren

Last reviewed 2026-06-09 UTC

In diesem Dokument wird eine allgemeine Architektur für die Implementierung von cloudübergreifenden Analyse-Workflows mit KI-Agents beschrieben. Dieses Dokument richtet sich an Cloud-Architekten, Data Engineers und Data Scientists, die agentenbasierte KI für Analyse-Workflows in Multi-Cloud-Data Lakes, strukturierten Data Warehouses und unstrukturierten Datenspeichern verwenden möchten. In diesem Dokument wird davon ausgegangen, dass Sie ein grundlegendes Verständnis von agentenbasierter KI, Datenanalyse und Cloud-Architektur haben.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie ein Codelab, mit dem Sie lernen können, wie Sie eine agentenbasierte Analyselösung erstellen.

Architektur

Das folgende Diagramm zeigt eine Architektur für eine agentenbasierte Analyselösung, die Geschäftsstatistiken aus strukturierten und unstrukturierten Daten ableitet, die auf mehrere Datenspeicher und Cloud-Dienstanbieter verteilt sind.

Eine Architektur, die eine agentenbasierte Entwicklungsumgebung und ein KI-Modell verwendet, um Daten zu analysieren, die auf Google Cloud und anderen Cloud-Dienstanbietern verteilt sind.

Die Komponenten in dieser Architektur sind in die folgenden Ebenen unterteilt:

Nutzer- und Agent-Aktionen
- Agentic Entwicklungsumgebung: Datenexperten wie Data Engineers und Data Scientists senden Anfragen in natürlicher Sprache über eine der folgenden Methoden:
  - Eine agentenbasierte Entwicklungsumgebung wie die Google Antigravity IDE oder Microsoft Visual Studio Code.
  - Ein CLI-Agent wie Gemini CLI, Claude Code oder Codex.
- Google Cloud Data Agent Kit-Erweiterung: Mit der Erweiterung können Agents auf vertrauenswürdige Daten inGoogle Cloud zugreifen, indem sie entsprechende Skills laden und eine Verbindung zu Remote-MCP-Servern für Google Cloud -Dienste herstellen.
- Foundation Model: Um Geschäftsstatistiken aus vertrauenswürdigem Kontext und vertrauenswürdigen Daten zu generieren, wird in der agentenbasierten Entwicklungsumgebung ein Foundation Model wie ein Modell aus der Gemini-Familie verwendet. Das Modell verwendet geeignete Skills aus der Erweiterung „Data Agent Kit“ und die erforderlichen MCP-Servertools, um komplexe Analyse-Workflows zu implementieren.
Analytics-Workflows
- Lakehouse for Apache Iceberg: Lakehouse bietet einen leistungsstarken, einheitlichen Metadatenkatalog, der das offene Tabellenformat Apache Iceberg mit Speicher der Enterprise-Klasse in Google Cloudintegriert.
- Managed Service for Apache Spark: Dies ist die zentrale Datenverarbeitungskomponente in der Architektur. Die Lightning Engine-Funktion von Managed Service for Apache Spark unterstützt die leistungsstarke, serverlose Datenverarbeitung im Batch- und interaktiven Modus. Die Spark-Datenverarbeitungsjobs verwenden Metadaten aus dem Iceberg-Katalog im Lakehouse, lesen strukturierte Daten aus BigQuery und führen Zero-Copy-Lesevorgänge aus externen Quellen wie Amazon S3 aus.
- Knowledge Catalog: Der Agent verwendet Knowledge Catalog, um intelligente Scans unstrukturierter Daten in Cloud Storage durchzuführen, semantische Metadaten zu extrahieren und einen Kontextgraphen zu erstellen.
Vertrauenswürdige Datenspeicher
- Daten in Google Cloud: BigQuery dient als zentrales Data Warehouse für strukturierte Daten, einschließlich strukturierter Auszüge aus unstrukturierten Daten in Cloud Storage.
- Daten aus externen Quellen: Die Architektur zeigt externe Datenquellen wie Daten in Amazon S3-Buckets und Metadaten im Databricks Unity Catalog. Cross-Cloud Interconnect bietet dedizierte Verbindungen mit hoher Bandbreite zwischen Google Cloudund anderen Cloud-Dienstanbietern.

Verwendete Produkte

In der Architektur werden die folgenden Google Cloud Produkte und ‑Tools verwendet:

Google Cloud Data Agent Kit: Agent-Erweiterungen, mit denen Data Scientists, Data Engineers und Entwickler von Daten-Apps den gesamten Datenlebenszyklus in ihren bevorzugten agentischen Entwicklungsumgebungen verwalten können.
BigQuery: Ein Data Warehouse für Unternehmen, mit dem Sie Ihre Daten mit integrierten Features wie maschinellem Lernen, raumbezogenen Analysen und Business Intelligence verwalten und analysieren können.
Managed Service for Apache Spark: Ein verwalteter Dienst, mit dem Apache Spark-Batcharbeitslasten auf einer verwalteten Compute-Infrastruktur ausgeführt werden.
Lakehouse für Apache Iceberg: Eine leistungsstarke Speicher-Engine, mit der Sie offene Data Lakehouses erstellen können. Sie bietet eine einheitliche Schnittstelle für erweiterte Analysen und KI.
Knowledge Catalog: Ein KI-basierter Dienst, der einen einheitlichen Katalog von Datenassets mit intelligenten Metadaten und Governance-Funktionen bietet.
Gemini : Eine Reihe multimodaler KI-Modelle, die von Google entwickelt wurden.

Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
Cross-Cloud Interconnect: Ein Dienst, der dedizierte Verbindungen mit hoher Bandbreite und niedriger Latenz zwischen Google Cloud und anderen Cloud-Dienstanbietern bietet.
Google Cloud-MCP-Server: Von Google verwaltete Remotedienste, die das Model Context Protocol (MCP) implementieren, um KI-Anwendungen Zugriff auf Google- und Google Cloud Produkte und ‑Dienste zu ermöglichen.

Anwendungsfälle

Die in diesem Dokument beschriebene Architektur eignet sich für die folgenden Anwendungsfälle:

Datenanalyse in mehreren Clouds: Daten, die auf Google Cloud und anderen Cloud-Dienstanbietern verteilt sind, lassen sich effizient abfragen und analysieren, ohne dass Dateien verschoben oder komplexe ETL-Pipelines (Extrahieren, Transformieren, Laden) erstellt werden müssen. Ein Marketingmanager eines globalen Einzelhändlers kann beispielsweise die Effektivität von Marketingkampagnen analysieren, indem er Kundentreuedaten in Amazon S3 mit Marketingbetriebsdaten in BigQuery zusammenführt.
Intelligente Datenerkennung: Mit Prompts in natürlicher Sprache und KI-Agents können Sie föderierte Datasets in mehreren Umgebungen erkennen, abfragen und verarbeiten. Ein Beschaffungsspezialist kann beispielsweise anhand strukturierter Daten in einem SCM-System (Supply Chain Management) in Kombination mit Erkenntnissen aus unstrukturierter E-Mail-Kommunikation und Schadensberichten häufige Ursachen für Unterbrechungen der Lieferkette ermitteln.
Extrahieren strukturierter Daten aus unstrukturierten Quellen: Durchsuchen Sie große Mengen unstrukturierter Daten, leiten Sie semantische Metadaten ab und speichern Sie Auszüge strukturierter Daten in BigQuery für die nachgelagerte Analyse. Ein Operations Controller kann beispielsweise Ausgaben effizient analysieren, indem er strukturierte Daten aus Tausenden von Rechnungen extrahiert, die in einem unstrukturierten Format wie PDF-Dateien gespeichert sind.

Bereitstellung

Informationen zum Erstellen einer agentenbasierten Analyselösung mit der Data Agent Kit-Erweiterung finden Sie im Codelab Rohdaten in Sekundenschnelle in Vorhersagen umwandeln – mit KI-Agenten. In diesem Codelab wird gezeigt, wie Sie mit der Data Agent Kit-Erweiterung Daten effizient in Ihrer bevorzugten agentischen Entwicklungsumgebung analysieren können. Alle Beispieldaten, die im Codelab verwendet werden, sind inGoogle Cloudgespeichert.

Nächste Schritte

Informationen zur Verwendung von Notebooks für Datentransformation und ‑analyse
Anwendungsfälle für Knowledge Catalog
Lakehouse
Lightning Engine verwenden, um Apache Spark-Arbeitslasten zu beschleunigen
Informationen zur Verwendung von Dataplex Universal Catalog als Governance- und Agentic-Ebene für BigQuery
Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.

Beitragende

Autor: Kumar Dhanagopal | Cross-product Solution Developer

Weitere Beitragende:

Abirami Sukumaran | Staff Developer Advocate
Arti Prasad | Technical Writer
Brad Miro | Senior Developer Advocate
Matthew Rahmann | Senior Product Manager
Ranadip Chatterjee | Solutions Engineer
Remigiusz Samborski | Lead Developer Relations Engineer

Agentische Analyse-Workflows für verteilte Daten implementieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.