Anwendungsfall für agentische KI: Multimodale Daten klassifizieren

Last reviewed 2026-03-03 UTC

In diesem Dokument wird eine allgemeine Architektur für ein Multi-Agent-KI-System beschrieben, das in Cloud Run bereitgestellt wird. Es analysiert unterschiedliche multimodale Daten und liefert eine Klassifizierung mit hoher Konfidenz. Bei diesem Ansatz werden fragmentierte Medien durch den Abgleich von Live-Daten mit historischen Ground-Truth-Daten kreuzvalidiert, um fundierte, überprüfbare Erkenntnisse zu gewinnen.

Die Zielgruppe für dieses Dokument umfasst Architekten, Entwickler und Administratoren, die KI-Infrastruktur und ‑Anwendungen in der Cloud erstellen und verwalten. Dabei wird vorausgesetzt, dass Sie über grundlegende Kenntnisse zu KI-Agents und ‑Modellen verfügen. Das Dokument enthält keine spezifischen Anleitungen zum Entwerfen und Programmieren von KI-Agents.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele, mit denen Sie erfahren, wie Sie Multi-Agent-KI-Systeme erstellen und bereitstellen.

Architektur

Das folgende Diagramm zeigt die Architektur des Multi-Agent-KI-Systems, das ein paralleles Agent-Designmuster verwendet, um unabhängige Analysen multimodaler Daten zu koordinieren und eine einzelne Klassifizierung zu erstellen.

Architektur eines KI-Systems mit mehreren Agenten, das multimodale Daten klassifiziert.

Die Architektur zeigt den folgenden Datenfluss:

  1. Die Webanwendung sendet eine Anfrage an den Root-Agent, um eine Reihe multimodaler Daten zur Klassifizierung zu analysieren. Der Root-Agent ist ein Koordinations-Agent , der Anfragen empfängt und in einem Cloud Run-Dienst bereitgestellt wird.
  2. Der Root-Agent verarbeitet die Anfrage so:
    1. Der Root-Agent initiiert einen before_agent_callback, um Umgebungskonfigurationen zu erfassen, die Nutzereingabe zu validieren und Ressourcen pfade in einem freigegebenen Sitzungsstatus zu speichern. Alle Sub-Agents können auf den freigegebenen Sitzungsstatus zugreifen. Dadurch werden redundante Aufrufe zum Abrufen von Statusdaten vermieden und die Gesamtlatenz verringert.
    2. Der Root-Agent verwendet Gemini in Vertex AI, um die Anfrage des Nutzers zu interpretieren und Aufgaben an spezialisierte Sub-Agents zu verteilen, die parallel ausgeführt werden.
  3. Jeder Sub-Agent ist auf einen bestimmten Bereich spezialisiert und führt die folgenden Aufgaben unabhängig aus:
    1. Die Sub-Agents für Bild- und Videoanalysen interagieren mit benutzerdefinierten Model Context Protocol (MCP)-Servern, um die folgenden Aktionen auszuführen:
      1. Abrufen unstrukturierter Rohdaten, die in einem Cloud Storage-Bucket gespeichert sind.
      2. Senden einer Anfrage an Gemini, um die Eingabedaten zu interpretieren, zu klassifizieren und ein Konfidenzniveau zu berechnen.
      3. Gemini sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den benutzerdefinierten MCP-Server.
      4. Der benutzerdefinierte MCP-Server leitet die Antwort an den Sub-Agent weiter.
    2. Der Sub-Agent für strukturierte Datenanalysen orchestriert die Analyse, indem er die folgenden Aufgaben ausführt:
      1. Interagiert mit dem BigQuery-MCP-Server, um strukturierte Kontextdaten (z. B. Verlaufsdatensätze, Ereignislogs oder Sensormesswerte) abzurufen, die in einem BigQuery-Dataset gespeichert sind.
      2. Der Sub-Agent für strukturierte Datenanalysen sendet eine Anfrage an Gemini, um die Eingabedaten zu interpretieren, zu klassifizieren und ein Konfidenzniveau zu berechnen.
      3. Gemini sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den Sub-Agent.
  4. Jeder Sub-Agent sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den Root-Agent.
  5. Der Root-Agent verwendet Gemini, um die Ausgaben der spezialisierten Sub-Agents zusammenzufassen und eine einzelne Klassifizierung mit hoher Konfidenz zu erstellen.
    • Wenn die meisten Klassifizierungen der spezialisierten Sub-Agents übereinstimmen, sendet der Root-Agent die übereinstimmende Klassifizierung an die Webanwendung.
    • Wenn die Sub-Agents keine übereinstimmende Klassifizierung liefern, wählt der Root-Agent die Klassifizierung mit dem höchsten Konfidenzniveau aus und sendet sie an die Webanwendung.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte und Tools verwendet:

  • Cloud Run: Eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
  • Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
  • Gemini: Eine Familie multimodaler KI-Modelle, die von Google entwickelt wurden.
  • BigQuery: Ein Data Warehouse für Unternehmen, mit dem Sie Ihre Daten mit integrierten Features wie raumbezogenen Analysen für maschinelles Lernen und Business Intelligence verwalten und analysieren können.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb zugegriffen werden Google Cloud. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
  • Google Cloud-MCP-Server: Von Google verwaltete Remotedienste, die das Model Context Protocol (MCP) implementieren, um KI-Anwendungen Zugriff auf Google- und Google Cloud-Produkte und ‑Dienste zu ermöglichen.
  • Model Context Protocol (MCP): Ein Open-Source-Standard zum Verbinden von KI-Anwendungen mit externen Systemen.
  • Das Agent Development Kit (ADK) ist eine Sammlung von Tools und Bibliotheken zum Entwickeln, Testen und Bereitstellen von KI-Agents.

Informationen zum Auswählen alternativer Komponenten für Ihr agentisches KI System, einschließlich Framework, Agent-Laufzeit, Tools, Arbeitsspeicher und Designmuster, finden Sie unter Komponenten für agentisches KI-System auswählen.

Anwendungsfall

Diese Architektur ist für Anwendungsfälle konzipiert, in denen verschiedene multimodale Daten für Klassifizierungs- und Erkennungsaufgaben synthetisiert werden. Für eine höhere Genauigkeit und Skalierbarkeit verwendet die Architektur ein Multi-Agent-KI-System anstelle eines monolithischen Single-Agent-Ansatzes. Dieses Designmuster bietet gezielte Anweisungen, vermeidet widersprüchliche Anweisungen, ermöglicht kleinere Toolsets für schnellere Entscheidungen und unterstützt unabhängige Updates, was zu robusteren und ausgefeilteren Ergebnissen führt.

Im Folgenden finden Sie Beispiele für Anwendungsfälle für die in diesem Dokument beschriebene Architektur:

  • Medizinische Diagnose: Umfassende Diagnosen durchführen, indem spezialisierte Agents bereitgestellt werden, die medizinische Bilder, Patienten symptome und Laborergebnisse unabhängig analysieren. Das KI-System fasst diese Ergebnisse basierend auf einem festgelegten Konfidenzschwellenwert zusammen, um fundierte, überprüfbare Erkenntnisse für Ärzte zu liefern.
  • Betrugserkennung: Potenziellen Betrug erkennen und kennzeichnen, indem Agents bereitgestellt werden, die unabhängig Verhaltensmuster von Nutzern und Transaktionsdaten wie gescannte Belege und Händlerrechnungen analysieren. Durch den Abgleich visueller Beweise aus Dokumenten mit digitalen Netzwerkaktivitäten erkennt das System Abweichungen und kennzeichnet alle Transaktionen, bei denen ein einzelner Agent einen verdächtigen Indikator identifiziert.
  • Dokumentverarbeitung: Die Klassifizierung und Extraktion von Informationen aus Dokumenten automatisieren, indem spezialisierte Agents für die optische Zeichenerkennung (Optical Character Recognition, OCR), Dokumentklassifizierung und Datenextraktion bereitgestellt werden. Um eine Verarbeitung mit hoher Konfidenz zu ermöglichen, müssen sich alle Agents auf die Ausgabe einigen.
  • Qualitätskontrolle: Produktqualität klassifizieren oder Anomalien erkennen, indem spezialisierte Agents für die visuelle Inspektion, die Analyse von Sensordaten und die Überprüfung von Spezifikationen bereitgestellt werden. Das System bestimmt anhand eines festgelegten Konfidenzschwellenwerts zwischen den Agents, ob ein Test bestanden oder nicht bestanden wurde.

Designaspekte

Wenn Sie diese Architektur für die Produktion implementieren möchten, beachten Sie die folgenden Empfehlungen:

Informationen zu Designfaktoren und Best Practices sowie Empfehlungen zum Erstellen und Bereitstellen eines Multi-Agent-KI-Systems finden Sie unter Multi-Agent-KI-System in Google Cloud.

Bereitstellung

Wenn Sie eine Beispielimplementierung dieser Architektur bereitstellen möchten, probieren Sie das Codelab Way Back Home Level 1 aus.

Nächste Schritte

Beitragende

Autor: Samantha He | Technischer Autor

Weitere Beitragende: