In diesem Dokument wird eine allgemeine Architektur für die Implementierung von cloudübergreifenden Analyse-Workflows mit KI-Agents beschrieben. Dieses Dokument richtet sich an Cloud-Architekten, Data Engineers und Data Scientists, die agentenbasierte KI für Analyse-Workflows in Multi-Cloud-Data Lakes, strukturierten Data Warehouses und unstrukturierten Datenspeichern verwenden möchten. In diesem Dokument wird davon ausgegangen, dass Sie über grundlegende Kenntnisse in den Bereichen agentische KI-Konzepte, Datenanalyse und Cloud-Architektur verfügen.
Im Abschnitt Bereitstellung dieses Dokuments finden Sie ein Codelab, mit dem Sie lernen können, wie Sie eine agentenbasierte Analyselösung erstellen.
Architektur
Das folgende Diagramm zeigt eine Architektur für eine agentenbasierte Analyselösung, die Geschäftsstatistiken aus strukturierten und unstrukturierten Daten ableitet, die auf mehrere Datenspeicher und Cloud-Dienstanbieter verteilt sind.
Die Komponenten in dieser Architektur sind in die folgenden Ebenen unterteilt:
Nutzer- und Agent-Aktionen
- Agentic Entwicklungsumgebung: Datenexperten wie Data Engineers und Data Scientists senden Anfragen in natürlicher Sprache über eine der folgenden Methoden:
- Eine agentenbasierte Entwicklungsumgebung wie die Google Antigravity IDE oder Microsoft Visual Studio Code.
- Ein CLI-Agent wie Gemini CLI, Claude Code oder Codex.
- Google Cloud Data Agent Kit-Erweiterung: Mit der Erweiterung können Agents auf vertrauenswürdige Daten inGoogle Cloud zugreifen, indem sie entsprechende Skills laden und eine Verbindung zu Remote-MCP-Servern für Google Cloud -Dienste herstellen.
- Foundation Model: Um Insights aus vertrauenswürdigem Kontext und vertrauenswürdigen Daten zu generieren, wird in der agentischen Entwicklungsumgebung ein Foundation Model wie ein Modell aus der Gemini-Familie verwendet. Das Modell nutzt geeignete Skills aus der Data Agent Kit-Erweiterung und die erforderlichen MCP-Servertools, um komplexe Analyse-Workflows zu implementieren.
- Agentic Entwicklungsumgebung: Datenexperten wie Data Engineers und Data Scientists senden Anfragen in natürlicher Sprache über eine der folgenden Methoden:
Analytics-Workflows
- Lakehouse for Apache Iceberg: Lakehouse bietet einen leistungsstarken, einheitlichen Metadatenkatalog, der das offene Tabellenformat Apache Iceberg mit Speicher der Enterprise-Klasse in Google Cloudintegriert.
- Managed Service for Apache Spark: Dies ist die zentrale Komponente für die Datenverarbeitung in der Architektur. Die Lightning Engine des Managed Service for Apache Spark unterstützt leistungsstarke, serverlose Datenverarbeitung im Batch- und interaktiven Modus. Die Spark-Datenverarbeitungsjobs verwenden Metadaten aus dem Iceberg-Katalog im Lakehouse, lesen strukturierte Daten aus BigQuery und führen Zero-Copy-Lesevorgänge aus externen Quellen wie Amazon S3 aus.
- Knowledge Catalog: Der Agent verwendet Knowledge Catalog, um intelligente Scans unstrukturierter Daten in Cloud Storage durchzuführen, semantische Metadaten zu extrahieren und einen Kontextgraphen zu erstellen.
Vertrauenswürdige Datenspeicher
- Daten in Google Cloud: BigQuery dient als zentrales Data Warehouse für strukturierte Daten, einschließlich strukturierter Auszüge aus unstrukturierten Daten in Cloud Storage.
- Daten aus externen Quellen: Die Architektur zeigt externe Datenquellen wie Daten in Amazon S3-Buckets und Metadaten im Databricks Unity Catalog.Cross-Cloud Interconnect bietet eine dedizierte Verbindung mit hoher Bandbreite zwischen Google Cloudund anderen Cloud-Dienstanbietern.
Verwendete Produkte
In der Architektur werden die folgenden Google Cloud Produkte und ‑Tools verwendet:
- Google Cloud Data Agent Kit: Agent-Erweiterungen, mit denen Data Scientists, Data Engineers und Entwickler von Daten-Apps den gesamten Datenlebenszyklus in ihren bevorzugten agentischen Entwicklungsumgebungen verwalten können.
- BigQuery: Ein Data Warehouse für Unternehmen, mit dem Sie Ihre Daten mit integrierten Features wie maschinellem Lernen, raumbezogenen Analysen und Business Intelligence verwalten und analysieren können.
- Managed Service for Apache Spark: Ein verwalteter Dienst, mit dem Apache Spark-Batcharbeitslasten auf einer verwalteten Compute-Infrastruktur ausgeführt werden.
- Lakehouse für Apache Iceberg: Eine leistungsstarke Speicher-Engine, mit der Sie offene Data Lakehouses erstellen können. Sie bietet eine einheitliche Schnittstelle für erweiterte Analysen und KI.
- Knowledge Catalog: Ein KI-basierter Dienst, der einen einheitlichen Katalog von Datenassets mit intelligenten Metadaten und Governance-Funktionen bietet.
- Gemini: Eine Reihe multimodaler KI-Modelle, die von Google entwickelt wurden.
- Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
- Cross-Cloud Interconnect: Ein Dienst, der dedizierte Verbindungen mit hoher Bandbreite und niedriger Latenz zwischen Google Cloud und anderen Cloud-Dienstanbietern bietet.
- Google Cloud-MCP-Server: Von Google verwaltete Remotedienste, die das Model Context Protocol (MCP) implementieren, um KI-Anwendungen Zugriff auf Google- und Google Cloud Produkte und ‑Dienste zu ermöglichen.
Anwendungsfälle
Die in diesem Dokument beschriebene Architektur eignet sich für die folgenden Anwendungsfälle:
- Multi-Cloud-Datenanalyse: Daten, die auf Google Cloud und anderen Cloud-Dienstanbietern verteilt sind, lassen sich effizient abfragen und analysieren, ohne dass Dateien verschoben oder komplexe ETL-Pipelines (Extrahieren, Transformieren, Laden) erstellt werden müssen. Ein Marketingmanager eines globalen Einzelhändlers kann beispielsweise die Effektivität von Marketingkampagnen analysieren, indem er Kundentreuedaten in Amazon S3 mit Marketingvorgangsdaten in BigQuery zusammenführt.
- Intelligente Datenermittlung: Mit Prompts in natürlicher Sprache und KI-Agents können Sie föderierte Datasets in mehreren Umgebungen ermitteln, abfragen und verarbeiten. Ein Beschaffungsspezialist kann beispielsweise anhand von strukturierten Daten in einem Supply Chain Management-System (SCM) in Kombination mit Erkenntnissen aus unstrukturierter E-Mail-Kommunikation und Schadensbewertungsberichten häufige Ursachen für Unterbrechungen der Lieferkette ermitteln.
- Extrahieren strukturierter Daten aus unstrukturierten Quellen: Scannen Sie große Mengen unstrukturierter Daten, leiten Sie semantische Metadaten ab und speichern Sie Auszüge strukturierter Daten in BigQuery für die nachgelagerte Analyse. Ein Operations Controller kann beispielsweise Ausgaben effizient analysieren, indem er strukturierte Daten aus Tausenden von Rechnungen extrahiert, die in einem unstrukturierten Format wie PDF-Dateien gespeichert sind.
Bereitstellung
Informationen zum Erstellen einer agentenbasierten Analyselösung mit der Data Agent Kit-Erweiterung finden Sie im Codelab Rohdaten in Sekundenschnelle in Vorhersagen umwandeln – mit KI-Agenten. In diesem Codelab wird gezeigt, wie Sie mit der Data Agent Kit-Erweiterung Daten effizient in Ihrer bevorzugten agentischen Entwicklungsumgebung analysieren können. Alle Beispieldaten, die im Codelab verwendet werden, sind inGoogle Cloudgespeichert.
Nächste Schritte
- Informationen zur Verwendung von Notebooks für Datentransformation und ‑analyse
- Anwendungsfälle für Knowledge Catalog
- Lakehouse
- Lightning Engine verwenden, um Apache Spark-Arbeitslasten zu beschleunigen
- Informationen zur Verwendung von Dataplex Universal Catalog als Governance- und Agentic-Ebene für BigQuery
- Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.
Beitragende
Autor: Kumar Dhanagopal | Cross-product Solution Developer
Weitere Beitragende:
- Abirami Sukumaran | Staff Developer Advocate
- Arti Prasad | Technical Writer
- Brad Miro | Senior Developer Advocate
- Matthew Rahmann | Senior Product Manager
- Ranadip Chatterjee | Solutions Engineer
- Remigiusz Samborski | Lead Developer Relations Engineer