In diesem Dokument wird eine allgemeine Architektur für ein Multi-Agent-KI-System beschrieben, das in Cloud Run bereitgestellt wird. Es analysiert unterschiedliche multimodale Daten und liefert eine Klassifizierung mit hoher Konfidenz. Bei diesem Ansatz werden fragmentierte Medien durch den Abgleich von Live-Daten mit historischen Ground-Truth-Daten kreuzvalidiert, um fundierte, überprüfbare Erkenntnisse zu gewinnen.
Die Zielgruppe für dieses Dokument umfasst Architekten, Entwickler und Administratoren, die KI-Infrastruktur und ‑Anwendungen in der Cloud erstellen und verwalten. Dabei wird vorausgesetzt, dass Sie über grundlegende Kenntnisse zu KI-Agents und ‑Modellen verfügen. Das Dokument enthält keine spezifischen Anleitungen zum Entwerfen und Programmieren von KI-Agents.
Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele, mit denen Sie erfahren, wie Sie Multi-Agent-KI-Systeme erstellen und bereitstellen.
Architektur
Das folgende Diagramm zeigt die Architektur des Multi-Agent-KI-Systems, das ein paralleles Agent-Designmuster verwendet, um unabhängige Analysen multimodaler Daten zu koordinieren und eine einzelne Klassifizierung zu erstellen.
Die Architektur zeigt den folgenden Datenfluss:
- Die Webanwendung sendet eine Anfrage an den Root-Agent, um eine Reihe multimodaler Daten zur Klassifizierung zu analysieren. Der Root-Agent ist ein Koordinations-Agent , der Anfragen empfängt und in einem Cloud Run-Dienst bereitgestellt wird.
- Der Root-Agent verarbeitet die Anfrage so:
- Der Root-Agent initiiert einen
before_agent_callback, um Umgebungskonfigurationen zu erfassen, die Nutzereingabe zu validieren und Ressourcen pfade in einem freigegebenen Sitzungsstatus zu speichern. Alle Sub-Agents können auf den freigegebenen Sitzungsstatus zugreifen. Dadurch werden redundante Aufrufe zum Abrufen von Statusdaten vermieden und die Gesamtlatenz verringert. - Der Root-Agent verwendet Gemini in Vertex AI, um die Anfrage des Nutzers zu interpretieren und Aufgaben an spezialisierte Sub-Agents zu verteilen, die parallel ausgeführt werden.
- Der Root-Agent initiiert einen
- Jeder Sub-Agent ist auf einen bestimmten Bereich spezialisiert und führt die folgenden Aufgaben unabhängig aus:
- Die Sub-Agents für Bild- und Videoanalysen interagieren mit benutzerdefinierten Model Context
Protocol (MCP)-Servern, um
die folgenden Aktionen auszuführen:
- Abrufen unstrukturierter Rohdaten, die in einem Cloud Storage-Bucket gespeichert sind.
- Senden einer Anfrage an Gemini, um die Eingabedaten zu interpretieren, zu klassifizieren und ein Konfidenzniveau zu berechnen.
- Gemini sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den benutzerdefinierten MCP-Server.
- Der benutzerdefinierte MCP-Server leitet die Antwort an den Sub-Agent weiter.
- Der Sub-Agent für strukturierte Datenanalysen orchestriert die Analyse, indem er die folgenden Aufgaben ausführt:
- Interagiert mit dem BigQuery-MCP-Server, um strukturierte Kontextdaten (z. B. Verlaufsdatensätze, Ereignislogs oder Sensormesswerte) abzurufen, die in einem BigQuery-Dataset gespeichert sind.
- Der Sub-Agent für strukturierte Datenanalysen sendet eine Anfrage an Gemini, um die Eingabedaten zu interpretieren, zu klassifizieren und ein Konfidenzniveau zu berechnen.
- Gemini sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den Sub-Agent.
- Die Sub-Agents für Bild- und Videoanalysen interagieren mit benutzerdefinierten Model Context
Protocol (MCP)-Servern, um
die folgenden Aktionen auszuführen:
- Jeder Sub-Agent sendet die vorgeschlagene Klassifizierung und das Konfidenzniveau zurück an den Root-Agent.
- Der Root-Agent verwendet Gemini, um die Ausgaben der spezialisierten Sub-Agents zusammenzufassen und eine einzelne Klassifizierung mit hoher Konfidenz zu erstellen.
- Wenn die meisten Klassifizierungen der spezialisierten Sub-Agents übereinstimmen, sendet der Root-Agent die übereinstimmende Klassifizierung an die Webanwendung.
- Wenn die Sub-Agents keine übereinstimmende Klassifizierung liefern, wählt der Root-Agent die Klassifizierung mit dem höchsten Konfidenzniveau aus und sendet sie an die Webanwendung.
Verwendete Produkte
In dieser Referenzarchitektur werden die folgenden Google Cloud Produkte und Tools verwendet:
- Cloud Run: Eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
- Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
- Gemini: Eine Familie multimodaler KI-Modelle, die von Google entwickelt wurden.
- BigQuery: Ein Data Warehouse für Unternehmen, mit dem Sie Ihre Daten mit integrierten Features wie raumbezogenen Analysen für maschinelles Lernen und Business Intelligence verwalten und analysieren können.
- Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb zugegriffen werden Google Cloud. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
- Google Cloud-MCP-Server: Von Google verwaltete Remotedienste, die das Model Context Protocol (MCP) implementieren, um KI-Anwendungen Zugriff auf Google- und Google Cloud-Produkte und ‑Dienste zu ermöglichen.
- Model Context Protocol (MCP): Ein Open-Source-Standard zum Verbinden von KI-Anwendungen mit externen Systemen.
- Das Agent Development Kit (ADK) ist eine Sammlung von Tools und Bibliotheken zum Entwickeln, Testen und Bereitstellen von KI-Agents.
Informationen zum Auswählen alternativer Komponenten für Ihr agentisches KI System, einschließlich Framework, Agent-Laufzeit, Tools, Arbeitsspeicher und Designmuster, finden Sie unter Komponenten für agentisches KI-System auswählen.
Anwendungsfall
Diese Architektur ist für Anwendungsfälle konzipiert, in denen verschiedene multimodale Daten für Klassifizierungs- und Erkennungsaufgaben synthetisiert werden. Für eine höhere Genauigkeit und Skalierbarkeit verwendet die Architektur ein Multi-Agent-KI-System anstelle eines monolithischen Single-Agent-Ansatzes. Dieses Designmuster bietet gezielte Anweisungen, vermeidet widersprüchliche Anweisungen, ermöglicht kleinere Toolsets für schnellere Entscheidungen und unterstützt unabhängige Updates, was zu robusteren und ausgefeilteren Ergebnissen führt.
Im Folgenden finden Sie Beispiele für Anwendungsfälle für die in diesem Dokument beschriebene Architektur:
- Medizinische Diagnose: Umfassende Diagnosen durchführen, indem spezialisierte Agents bereitgestellt werden, die medizinische Bilder, Patienten symptome und Laborergebnisse unabhängig analysieren. Das KI-System fasst diese Ergebnisse basierend auf einem festgelegten Konfidenzschwellenwert zusammen, um fundierte, überprüfbare Erkenntnisse für Ärzte zu liefern.
- Betrugserkennung: Potenziellen Betrug erkennen und kennzeichnen, indem Agents bereitgestellt werden, die unabhängig Verhaltensmuster von Nutzern und Transaktionsdaten wie gescannte Belege und Händlerrechnungen analysieren. Durch den Abgleich visueller Beweise aus Dokumenten mit digitalen Netzwerkaktivitäten erkennt das System Abweichungen und kennzeichnet alle Transaktionen, bei denen ein einzelner Agent einen verdächtigen Indikator identifiziert.
- Dokumentverarbeitung: Die Klassifizierung und Extraktion von Informationen aus Dokumenten automatisieren, indem spezialisierte Agents für die optische Zeichenerkennung (Optical Character Recognition, OCR), Dokumentklassifizierung und Datenextraktion bereitgestellt werden. Um eine Verarbeitung mit hoher Konfidenz zu ermöglichen, müssen sich alle Agents auf die Ausgabe einigen.
- Qualitätskontrolle: Produktqualität klassifizieren oder Anomalien erkennen, indem spezialisierte Agents für die visuelle Inspektion, die Analyse von Sensordaten und die Überprüfung von Spezifikationen bereitgestellt werden. Das System bestimmt anhand eines festgelegten Konfidenzschwellenwerts zwischen den Agents, ob ein Test bestanden oder nicht bestanden wurde.
Designaspekte
Wenn Sie diese Architektur für die Produktion implementieren möchten, beachten Sie die folgenden Empfehlungen:
- Agent-Sicherheit: Um die Fähigkeit eines Agents, gefährliche Aktionen auszuführen, einzuschränken, erstellen Sie eine Agent-Identität und schützen Sie dann den Zugriff auf Ihre MCP-Server mit Attributen der Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM). Wenn Sie das Prinzip der geringsten Berechtigung, anwenden, können Sie dazu beitragen, dass sich Ihr agentisches KI-System wie erwartet verhält und ein unbeabsichtigter Lese-/Schreibzugriff auf Ihre Produktionsressourcen verhindert wird.
- Ingress-Sicherheit: Um den Zugriff auf die Anwendung zu steuern, deaktivieren Sie die Standard-URL run.app des Frontend- Cloud Run-Dienstes und richten Sie einen regionalen externen Application Load Balancer ein. Der Load Balancer verteilt nicht nur den eingehenden Traffic auf die Anwendung, sondern verwaltet auch SSL-Zertifikate. Verwenden Sie für zusätzlichen Schutz die Sicherheitsrichtlinien von Google Cloud Armor , um die Anfragefilterung, den DDoS-Schutz und die Ratenbegrenzung für den Dienst zu aktivieren.
- Sicherheit von Container-Images:Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, verwenden Sie die Binärautorisierung. Um Sicherheitsrisiken in den Container-Images zu erkennen und zu minimieren, führen Sie mit der Artefaktanalyseautomatisch Scans auf Sicherheitslücken aus. Weitere Informationen finden Sie unter Übersicht zum Scannen von Containern.
- Kostengünstige Prompts: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirken sich direkt auf die Leistung und die Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design.
- Speicherkosten: Um die Speicherkosten zu kontrollieren, können Sie die Speicherklasse „Standard“ auswählen und die Verwaltung des Objektlebenszyklus und Autoclass aktivieren. Mit diesen Funktionen können Sie Kosten optimieren, indem Daten basierend auf Ihren Zugriffsmustern oder von Ihnen festgelegten Regeln automatisch zwischen Speicherklassen verschoben oder gelöscht werden.
- Speichersicherheit: Cloud Storage bietet Ihnen zwei Systeme, um die Nutzerberechtigung zum Zugriff auf Ihre Buckets und Objekte zu steuern: IAM und Access Control Lists (ACLs). In den meisten Fällen empfehlen wir die Verwendung von IAM, mit dem Sie Berechtigungen auf Bucket- und Projektebene erteilen können. Weitere Informationen finden Sie unter Zugriffssteuerung – Übersicht.
- Ressourcenzuweisung: Konfigurieren Sie je nach Ihren Leistungsanforderungen die Arbeitsspeicher-Limits und CPU-Limits, die dem Cloud Run-Dienst zugewiesen werden sollen. Weitere Informationen zur Leistungsoptimierung finden Sie unter siehe Allgemeine Entwicklungstipps für Cloud Run.
Informationen zu Designfaktoren und Best Practices sowie Empfehlungen zum Erstellen und Bereitstellen eines Multi-Agent-KI-Systems finden Sie unter Multi-Agent-KI-System in Google Cloud.
Bereitstellung
Wenn Sie eine Beispielimplementierung dieser Architektur bereitstellen möchten, probieren Sie das Codelab Way Back Home Level 1 aus.
Nächste Schritte
- Informationen zum Hosten von KI-Agents in Cloud Run
- Informationen zum Erstellen und Bereitstellen eines Remote-MCP-Servers in Cloud Run
- Informationen zum Auswählen von Komponenten für agentisches KI-System
- (Video) Podcast „The Agent Factory“ zum Erstellen benutzerdefinierter Tools für Agents ansehen
- Noch mehr Leitfäden zur Architektur für agentisches KI-System entdecken
- Eine Übersicht über Architekturprinzipien und Empfehlungen speziell für KI und ML-Arbeitslasten in Google Cloudfinden Sie in der KI- und ML-Perspektive im Well-Architected Framework.
- Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud Architecture Center.
Beitragende
Autor: Samantha He | Technischer Autor
Weitere Beitragende:
- Amina Mansour | Head of Cloud Platform Evaluations Team
- Andrey Shakirov | Solutions Architect, Google Cloud
- Ayo Adedeji | Developer Relations Engineer
- Christina Lin | Developer Relations Engineer Manager
- Kumar Dhanagopal | Cross-Product Solution Developer
- Ryan Pei | Product Manager, Google Cloud