Anwendungsfall für agentische KI: Multimodale Daten klassifizieren

Last reviewed 2026-03-03 UTC

In diesem Dokument wird eine allgemeine Architektur für ein KI-System mit mehreren Agents beschrieben, das in Cloud Run bereitgestellt wird, unterschiedliche multimodale Daten analysiert und eine Klassifizierung mit hoher Konfidenz erstellt. Bei diesem Ansatz werden fragmentierte Media durch den Abgleich von Live-Daten mit dem historischen Ground Truth kreuzvalidiert, um fundierte, überprüfbare Erkenntnisse zu gewinnen.

Dieses Dokument richtet sich an Architekten, Entwickler und Administratoren, die KI-Infrastruktur und -Anwendungen in der Cloud erstellen und verwalten. In diesem Dokument wird davon ausgegangen, dass Sie über grundlegende Kenntnisse zu KI-Agents und ‑Modellen verfügen. Das Dokument enthält keine spezifischen Anleitungen zum Entwerfen und Programmieren von KI-Agents.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele, mit denen Sie lernen können, wie Sie KI-Systeme mit mehreren Agents erstellen und bereitstellen.

Architektur

Das folgende Diagramm zeigt die Architektur des KI-Systems mit mehreren Agenten, das ein paralleles Agentendesignmuster verwendet, um unabhängige Analysen multimodaler Daten zu koordinieren und eine einzelne Klassifizierung zu erstellen.

Architektur eines Multi-Agenten-KI-Systems, das multimodale Daten klassifiziert.

Die Architektur zeigt den folgenden Datenfluss:

  1. Die Webanwendung sendet eine Anfrage an den Root-Agent, um eine Reihe multimodaler Daten zur Klassifizierung zu analysieren. Der Stamm-Agent ist ein Coordinator-Agent, der Anfragen empfängt und in einem Cloud Run-Dienst bereitgestellt wird.
  2. Der Root-Agent verarbeitet die Anfrage so:
    1. Der Root-Agent initiiert einen before_agent_callback, um Umgebungskonfigurationen zu erfassen, Nutzereingaben zu validieren und Ressourcenpfade in einem gemeinsamen Sitzungsstatus zu speichern. Alle untergeordneten Agents können auf den freigegebenen Sitzungsstatus zugreifen. Dadurch werden redundante Aufrufe zum Abrufen von Statusdaten vermieden und die Gesamtlatenz verringert.
    2. Der Stamm-Agent verwendet Gemini auf Vertex AI, um die Anfrage des Nutzers zu interpretieren und Aufgaben an spezialisierte untergeordnete Agents zu verteilen, die parallel ausgeführt werden.
  3. Jeder untergeordnete Agent ist auf einen bestimmten Bereich spezialisiert und führt die folgenden Aufgaben unabhängig aus:
    1. Die Unteragenten für die Bild- und Videoanalyse interagieren mit benutzerdefinierten MCP-Servern (Model Context Protocol), um die folgenden Aktionen auszuführen:
      1. Abrufen unstrukturierter Rohdaten, die in einem Cloud Storage-Bucket gespeichert sind
      2. Senden Sie eine Anfrage an Gemini, um die Eingabedaten zu interpretieren, die Daten zu klassifizieren und ein Konfidenzniveau zu berechnen.
      3. Gemini sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den benutzerdefinierten MCP-Server.
      4. Der benutzerdefinierte MCP-Server leitet die Antwort an den untergeordneten Agenten zurück.
    2. Der Unter-Agent „Structured Data Analyst“ orchestriert die Analyse, indem er die folgenden Aufgaben ausführt:
      1. Interagiert mit dem BigQuery-MCP-Server, um strukturierte Kontextdaten wie Verlaufsdatensätze, Ereignisprotokolle oder Sensormesswerte abzurufen, die in einem BigQuery-Dataset gespeichert sind.
      2. Die Fachkraft für strukturierte Daten sendet eine Anfrage an Gemini, um die Eingabedaten zu interpretieren, zu klassifizieren und ein Konfidenzniveau zu berechnen.
      3. Gemini sendet die vorgeschlagene Klassifizierung und den Konfidenzwert zurück an den Sub-Agent.
  4. Jeder untergeordnete Agent sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den Stamm-Agent.
  5. Der Stamm-Agent verwendet Gemini, um die Ausgaben der spezialisierten untergeordneten Agents zusammenzufassen und eine einzelne Klassifizierung mit hoher Konfidenz zu erstellen.
    • Wenn die meisten Klassifizierungen der spezialisierten untergeordneten Agents übereinstimmen, sendet der Stamm-Agent die übereinstimmende Klassifizierung an die Webanwendung.
    • Wenn die untergeordneten Agents keine passende Klassifizierung liefern, wählt der Stamm-Agent die Klassifizierung mit dem höchsten Konfidenzniveau aus und sendet sie an die Webanwendung.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte und Tools verwendet:

  • Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
  • Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
  • Gemini: Eine Reihe multimodaler KI-Modelle, die von Google entwickelt wurden.
  • BigQuery: Ein Data Warehouse für Unternehmen, mit dem Sie Ihre Daten mit integrierten Features wie raumbezogenen Analysen für maschinelles Lernen und Business Intelligence verwalten und analysieren können.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
  • Google Cloud-MCP-Server: Von Google verwaltete Remotedienste, die das Model Context Protocol (MCP) implementieren, um KI-Anwendungen Zugriff auf Google- und Google Cloud-Produkte und -Dienste zu ermöglichen.
  • Model Context Protocol (MCP): Ein Open-Source-Standard zum Verbinden von KI-Anwendungen mit externen Systemen.
  • Agent Development Kit (ADK): Eine Sammlung von Tools und Bibliotheken zum Entwickeln, Testen und Bereitstellen von KI-Agenten.

Informationen zum Auswählen alternativer Komponenten für Ihr agentisches KI-System, einschließlich Framework, Agent-Laufzeit, Tools, Speicher und Designmustern, finden Sie unter Komponenten für die Architektur von agentischen KI-Systemen auswählen.

Anwendungsfall

Diese Architektur ist für Anwendungsfälle konzipiert, bei denen verschiedene multimodale Daten für Klassifizierungs- und Erkennungsaufgaben zusammengeführt werden. Für eine höhere Genauigkeit und Skalierbarkeit wird in der Architektur ein Multi-Agenten-KI-System anstelle eines monolithischen Single-Agenten-Ansatzes verwendet. Dieses Designmuster bietet fokussierte Anweisungen, vermeidet widersprüchliche Anweisungen, ermöglicht kleinere Toolsets für schnellere Entscheidungen und unterstützt unabhängige Updates, was zu robusteren und anspruchsvolleren Ergebnissen führt.

Hier sind einige Beispiele für Anwendungsfälle für die in diesem Dokument beschriebene Architektur:

  • Medizinische Diagnose: Umfassende diagnostische Bewertungen durchführen, indem spezielle Agents eingesetzt werden, die medizinische Bilder, Patientensymptome und Laborergebnisse unabhängig analysieren. Das KI-System fasst diese Ergebnisse auf Grundlage eines festgelegten Konfidenzschwellenwerts zusammen, um fundierte, überprüfbare Informationen für Ärzte bereitzustellen.
  • Betrugserkennung: Erkennen und kennzeichnen Sie potenziellen Betrug, indem Sie Agents bereitstellen, um Nutzerverhaltensmuster und Transaktionsdaten wie gescannte Belege und Händlerrechnungen unabhängig zu analysieren. Durch den Abgleich visueller Beweise aus Dokumenten mit digitalen Netzwerkaktivitäten erkennt das System Unstimmigkeiten und kennzeichnet alle Transaktionen, bei denen ein einzelner Kundenservicemitarbeiter einen verdächtigen Hinweis identifiziert.
  • Dokumentverarbeitung: Automatisieren Sie die Klassifizierung und Extraktion von Informationen aus Dokumenten, indem Sie spezielle Agents für optische Zeichenerkennung (OCR), Dokumentklassifizierung und Datenextraktion bereitstellen. Um die Verarbeitung mit hoher Zuverlässigkeit zu unterstützen, muss das KI-System sicherstellen, dass alle Agenten sich auf die Ausgabe einigen.
  • Qualitätskontrolle: Klassifizieren Sie die Produktqualität oder erkennen Sie Anomalien, indem Sie spezielle Agents für die visuelle Inspektion, die Analyse von Sensordaten und die Spezifikationsprüfung einsetzen. Das System bestimmt anhand eines festgelegten Konfidenzschwellenwerts zwischen den Kundenservicemitarbeitern, ob die Authentifizierung erfolgreich war oder nicht.

Designaspekte

Beachten Sie die folgenden Empfehlungen, wenn Sie diese Architektur für die Produktion implementieren:

  • Agentsicherheit: Wenn Sie die Möglichkeit eines Agents einschränken möchten, gefährliche Aktionen auszuführen, erstellen Sie eine Agent-Identität und sichern Sie dann den Zugriff auf Ihre MCP-Server mit IAM-Attributen (Identity and Access Management). Wenn Sie das Prinzip der geringsten Berechtigung anwenden, können Sie dazu beitragen, dass Ihr Agent-basiertes KI-System sich wie erwartet verhält und unbeabsichtigter Lese-/Schreibzugriff auf Ihre Produktionsressourcen verhindert wird.
  • Ingress-Sicherheit:Um den Zugriff auf die Anwendung zu steuern, deaktivieren Sie die Standard-URL run.app des Frontend-Cloud Run-Dienstes und richten Sie einen regionalen externen Application Load Balancer ein. Der Load-Balancer verteilt nicht nur eingehenden Traffic auf die Anwendung, sondern übernimmt auch die Verwaltung von SSL-Zertifikaten. Für zusätzlichen Schutz können Sie Google Cloud Armor-Sicherheitsrichtlinien verwenden, um Anfragen zu filtern, DDoS-Schutz zu bieten und die Raten für den Dienst zu begrenzen.
  • Sicherheit von Container-Images:Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, verwenden Sie die Binärautorisierung. Um Sicherheitsrisiken in den Container-Images zu erkennen und zu minimieren, können Sie mit Artifact Analysis automatisch Scans auf Sicherheitslücken ausführen. Weitere Informationen finden Sie unter Übersicht über das Scannen von Containern.
  • Kostengünstige Prompts: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie kurze, direkte Prompts, die ausreichend Kontext liefern. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design.
  • Speicherkosten:Um die Speicherkosten zu kontrollieren, können Sie die Speicherklasse „Standard“ auswählen und die Verwaltung des Objektlebenszyklus und Autoclass aktivieren. Mit diesen Funktionen können Sie Kosten optimieren, indem Daten basierend auf Ihren Zugriffsmustern oder von Ihnen festgelegten Regeln automatisch zwischen Speicherklassen verschoben oder gelöscht werden.
  • Speichersicherheit: Cloud Storage bietet Ihnen zwei Systeme, um die Nutzerberechtigung zum Zugriff auf Ihre Buckets und Objekte zu steuern: IAM und Access Control Lists (ACLs). In den meisten Fällen empfehlen wir die Verwendung von IAM, mit dem Sie Berechtigungen auf Bucket- und Projektebene erteilen können. Weitere Informationen finden Sie unter Zugriffssteuerung.
  • Ressourcenzuweisung:Konfigurieren Sie je nach Leistungsanforderungen die Arbeitsspeicherlimits und CPU-Limits, die dem Cloud Run-Dienst zugewiesen werden sollen. Weitere Informationen zur Leistungsoptimierung finden Sie unter Allgemeine Entwicklungstipps für Cloud Run.

Informationen zu Designfaktoren und Best Practices sowie Empfehlungen zum Erstellen und Bereitstellen eines KI-Systems mit mehreren Agents finden Sie unter KI-System mit mehreren Agents in Google Cloud.

Bereitstellung

Wenn Sie eine Beispielimplementierung dieser Architektur bereitstellen möchten, probieren Sie das Codelab „Way Back Home“ (Level 1) aus.

Nächste Schritte

Beitragende

Autor: Samantha He | Technische Autorin

Weitere Beitragende: