Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Anwendungsfall für agentische KI: Multimodale Daten klassifizieren

Last reviewed 2026-03-03 UTC

In diesem Dokument wird eine allgemeine Architektur für ein KI-System mit mehreren Agenten beschrieben, das in Cloud Run bereitgestellt wird, unterschiedliche multimodale Daten analysiert und eine Klassifizierung mit hoher Konfidenz erstellt. Bei diesem Ansatz werden fragmentierte Media durch den Abgleich von Live-Daten mit dem historischen Ground Truth kreuzvalidiert, um fundierte, überprüfbare Erkenntnisse zu gewinnen.

Die Zielgruppe für dieses Dokument umfasst Architekten, Entwickler und Administratoren, die KI-Infrastruktur und -Anwendungen in der Cloud erstellen und verwalten. In diesem Dokument wird davon ausgegangen, dass Sie über grundlegende Kenntnisse zu KI-Agenten und ‑Modellen verfügen. Das Dokument enthält keine spezifischen Anleitungen zum Entwerfen und Programmieren von KI-Agents.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele, mit denen Sie lernen können, wie Sie KI-Systeme mit mehreren Agents erstellen und bereitstellen.

Architektur

Das folgende Diagramm zeigt die Architektur des KI-Systems mit mehreren Agenten, das ein paralleles Agentenmuster verwendet, um unabhängige Analysen multimodaler Daten zu koordinieren und eine einzelne Klassifizierung zu erstellen.

Architektur eines KI-Systems mit mehreren Agenten, das multimodale Daten klassifiziert.

Die Architektur zeigt den folgenden Datenfluss:

Die Webanwendung sendet eine Anfrage an den Root-Agent, um eine Reihe multimodaler Daten zur Klassifizierung zu analysieren. Der Stamm-Agent ist ein Coordinator-Agent, der Anfragen empfängt und in einem Cloud Run-Dienst bereitgestellt wird.
Der Root-Agent verarbeitet die Anfrage so:
1. Der Root-Agent initiiert einen before_agent_callback, um Umgebungskonfigurationen zu erfassen, Nutzereingaben zu validieren und Ressourcenpfade in einem gemeinsamen Sitzungsstatus zu speichern. Alle untergeordneten Agents können auf den freigegebenen Sitzungsstatus zugreifen. Dadurch werden redundante Aufrufe zum Abrufen von Statusdaten vermieden und die Gesamtlatenz verringert.
2. Der Stamm-Agent verwendet Gemini auf der Gemini Enterprise Agent Platform, um die Anfrage des Nutzers zu interpretieren und Aufgaben an spezialisierte untergeordnete Agents zu verteilen, die parallel ausgeführt werden.
Jeder untergeordnete Agent ist auf einen bestimmten Bereich spezialisiert und führt die folgenden Aufgaben unabhängig aus:
1. Die Bild- und Videoanalysten-Unteragenten interagieren mit benutzerdefinierten MCP-Servern (Model Context Protocol), um die folgenden Aktionen auszuführen:
  1. Abrufen unstrukturierter Rohdaten, die in einem Cloud Storage-Bucket gespeichert sind
  2. Senden Sie eine Anfrage an Gemini, um die Eingabedaten zu interpretieren, zu klassifizieren und ein Konfidenzniveau zu berechnen.
  3. Gemini sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den benutzerdefinierten MCP-Server.
  4. Der benutzerdefinierte MCP-Server leitet die Antwort an den untergeordneten Agenten zurück.
2. Der Unter-Agent „Analyst für strukturierte Daten“ orchestriert die Analyse, indem er die folgenden Aufgaben ausführt:
  1. Interagiert mit dem BigQuery-MCP-Server, um strukturierte Kontextdaten (z. B. Verlaufsdatensätze, Ereignisprotokolle oder Sensormesswerte) abzurufen, die in einem BigQuery-Dataset gespeichert sind.
  2. Die Fachkraft für strukturierte Daten sendet eine Anfrage an Gemini, um die Eingabedaten zu interpretieren, zu klassifizieren und ein Konfidenzniveau zu berechnen.
  3. Gemini sendet die vorgeschlagene Klassifizierung und den Konfidenzwert zurück an den Sub-Agent.
Jeder untergeordnete Agent sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den Stamm-Agent.
Der Stamm-Agent verwendet Gemini, um die Ausgaben der spezialisierten untergeordneten Agenten zusammenzufassen und eine einzelne Klassifizierung mit hoher Konfidenz zu erstellen.
- Wenn die meisten Klassifizierungen der spezialisierten untergeordneten Agents übereinstimmen, sendet der Stamm-Agent die übereinstimmende Klassifizierung an die Webanwendung.
- Wenn die untergeordneten Agents keine passende Klassifizierung liefern, wählt der Stamm-Agent die Klassifizierung mit dem höchsten Konfidenzniveau aus und sendet sie an die Webanwendung.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte und Tools verwendet:

Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
Gemini Enterprise Agent Platform: Eine umfassende Plattform, mit der Sie KI‑Agenten auf Unternehmensniveau erstellen, skalieren, verwalten und optimieren können.
Gemini : Eine Reihe multimodaler KI-Modelle, die von Google entwickelt wurden.

BigQuery: Ein Data Warehouse für Unternehmen, mit dem Sie Ihre Daten mit integrierten Features wie maschinellem Lernen, raumbezogenen Analysen und Business Intelligence verwalten und analysieren können.
Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
Google Cloud-MCP-Server: Von Google verwaltete Remotedienste, die das Model Context Protocol (MCP) implementieren, um KI-Anwendungen Zugriff auf Google- und Google Cloud Produkte und ‑Dienste zu ermöglichen.
Model Context Protocol (MCP): Ein Open-Source-Standard zum Verbinden von KI-Anwendungen mit externen Systemen.
Agent Development Kit (ADK): Eine Sammlung von Tools und Bibliotheken zum Entwickeln, Testen und Bereitstellen von KI-Agenten.

Informationen zum Auswählen alternativer Komponenten für Ihr agentisches KI-System, einschließlich Framework, Agent-Laufzeit, Tools, Speicher und Designmustern, finden Sie unter Komponenten für die Architektur von agentischen KI-Systemen auswählen.

Anwendungsfall

Diese Architektur ist für Anwendungsfälle konzipiert, bei denen verschiedene multimodale Daten für Klassifizierungs- und Erkennungsaufgaben zusammengeführt werden. Für eine höhere Genauigkeit und Skalierbarkeit wird in der Architektur ein Multi-Agenten-KI-System anstelle eines monolithischen Single-Agenten-Ansatzes verwendet. Dieses Designmuster bietet fokussierte Anweisungen, vermeidet widersprüchliche Richtlinien, ermöglicht kleinere Toolsets für schnellere Entscheidungen und unterstützt unabhängige Updates, was zu robusteren und anspruchsvolleren Ergebnissen führt.

Hier sind einige Beispiele für Anwendungsfälle für die in diesem Dokument beschriebene Architektur:

Medizinische Diagnose: Umfassende diagnostische Bewertungen durchführen, indem spezielle Agents eingesetzt werden, die medizinische Bilder, Patientensymptome und Laborergebnisse unabhängig analysieren. Das KI-System fasst diese Ergebnisse auf Grundlage eines festgelegten Konfidenzschwellenwerts zusammen, um fundierte, überprüfbare Informationen für Ärzte bereitzustellen.
Betrugserkennung: Potenzielle Betrugsfälle erkennen und kennzeichnen, indem Sie Agents einsetzen, um Nutzerverhaltensmuster und Transaktionsdaten wie gescannte Belege und Händlerrechnungen unabhängig zu analysieren. Durch den Abgleich visueller Beweise aus Dokumenten mit digitalen Netzwerkaktivitäten erkennt das System Unstimmigkeiten und kennzeichnet alle Transaktionen, bei denen ein einzelner Kundenservicemitarbeiter einen verdächtigen Hinweis identifiziert.
Dokumentverarbeitung: Automatisieren Sie die Klassifizierung und Extraktion von Informationen aus Dokumenten, indem Sie spezielle Agents für optische Zeichenerkennung (OCR), Dokumentklassifizierung und Datenextraktion bereitstellen. Um die Verarbeitung mit hoher Zuverlässigkeit zu unterstützen, müssen sich alle Agenten im KI-System auf die Ausgabe einigen.
Qualitätskontrolle: Klassifizieren Sie die Produktqualität oder erkennen Sie Anomalien, indem Sie spezielle Agents für die visuelle Inspektion, die Analyse von Sensordaten und die Spezifikationsprüfung einsetzen. Das System bestimmt anhand eines festgelegten Konfidenzschwellenwerts zwischen den Kundenservicemitarbeitern, ob die Antwort als „bestanden“ oder „nicht bestanden“ eingestuft wird.

Designaspekte

Beachten Sie die folgenden Empfehlungen, wenn Sie diese Architektur für die Produktion implementieren:

Agentsicherheit: Wenn Sie die Möglichkeiten eines Agents, gefährliche Aktionen auszuführen, einschränken möchten, erstellen Sie eine Agent-Identität und sichern Sie dann den Zugriff auf Ihre MCP-Server mit IAM-Attributen (Identity and Access Management). Wenn Sie das Prinzip der geringsten Berechtigung anwenden, können Sie dazu beitragen, dass Ihr agentenbasiertes KI-System sich wie erwartet verhält und unbeabsichtigter Lese-/Schreibzugriff auf Ihre Produktionsressourcen verhindert wird.
Ingress-Sicherheit:Um den Zugriff auf die Anwendung zu steuern, deaktivieren Sie die Standard-URL „run.app“ des Frontend-Cloud Run-Dienstes und richten Sie einen regionalen externen Application Load Balancer ein. Der Load-Balancer verteilt nicht nur eingehenden Traffic auf die Anwendung, sondern übernimmt auch die Verwaltung von SSL-Zertifikaten. Für zusätzlichen Schutz können Sie Google Cloud Armor-Sicherheitsrichtlinien verwenden, um Anfragen zu filtern, DDoS-Schutz zu bieten und die Raten für den Dienst zu begrenzen.
Sicherheit von Container-Images:Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, verwenden Sie die Binärautorisierung. Um Sicherheitsrisiken in den Container-Images zu erkennen und zu minimieren, können Sie mit Artifact Analysis automatisch Scans auf Sicherheitslücken ausführen. Weitere Informationen finden Sie unter Übersicht über das Scannen von Containern.
Kostengünstige Prompts: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie kurze, direkte Prompts, die ausreichend Kontext liefern. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design.
Speicherkosten:Um die Speicherkosten zu senken, können Sie die Speicherklasse „Standard“ auswählen und die Verwaltung des Objektlebenszyklus und Autoclass aktivieren. Mit diesen Funktionen können Sie Kosten optimieren, indem Sie Daten basierend auf Ihren Zugriffsmustern oder von Ihnen festgelegten Regeln automatisch zwischen Speicherklassen verschieben oder löschen.
Speichersicherheit: Cloud Storage bietet Ihnen zwei Systeme, um die Nutzerberechtigung zum Zugriff auf Ihre Buckets und Objekte zu steuern: IAM und Access Control Lists (ACLs). In den meisten Fällen empfehlen wir die Verwendung von IAM, mit dem Sie Berechtigungen auf Bucket- und Projektebene erteilen können. Weitere Informationen finden Sie unter Zugriffssteuerung.
Ressourcenzuweisung:Konfigurieren Sie je nach Leistungsanforderungen die Arbeitsspeicherlimits und CPU-Limits, die dem Cloud Run-Dienst zugewiesen werden sollen. Weitere Informationen zur Leistungsoptimierung finden Sie unter Allgemeine Entwicklungstipps für Cloud Run.

Informationen zu Designfaktoren und Best Practices sowie Empfehlungen zum Erstellen und Bereitstellen eines KI-Systems mit mehreren Agents finden Sie unter KI-System mit mehreren Agents in Google Cloud.

Bereitstellung

Wenn Sie eine Beispielimplementierung dieser Architektur bereitstellen möchten, probieren Sie das Codelab „Way Back Home“ – Level 1 aus.

Nächste Schritte

Informationen zum Hosten von KI-Agents in Cloud Run
Informationen zum Erstellen und Bereitstellen eines Remote-MCP-Servers in Cloud Run
Informationen zum Auswählen der Komponenten für die Architektur von agentischer KI
(Video) Podcast „The Agent Factory“ zum Erstellen benutzerdefinierter Tools für Agents
Hier finden Sie Lernressourcen zum Erstellen und Bereitstellen von KI-Agenten auf Unternehmensebene mit Gemini Enterprise Agent Ready (GEAR).
Weitere Anleitungen zur agentischen KI-Architektur
Eine Übersicht über Architekturprinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive.
Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.

Beitragende

Autorin: Samantha He | Technische Autorin

Weitere Beitragende:

Amina Mansour | Head of Cloud Platform Evaluations Team
Andrey Shakirov | Solutions Architect, Google Cloud
Ayo Adedeji | Developer Relations Engineer
Christina Lin | Developer Relations Engineer Manager
Kumar Dhanagopal | Cross-Product Solution Developer
Ryan Pei | Product Manager, Google Cloud

Anwendungsfall für agentische KI: Multimodale Daten klassifizieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.