Dieses Dokument enthält eine Referenzarchitektur, die Sie beim Entwerfen eines KI-Systems mit einem einzelnen Agenten auf Google Cloudunterstützt. Das Single-Agent-System in dieser Architektur wird mit dem Agent Development Kit (ADK) erstellt und in Cloud Run bereitgestellt. Sie können den Agent auch in Vertex AI Agent Engine oder Google Kubernetes Engine (GKE) bereitstellen. Die Architektur verwendet das Model Context Protocol (MCP), das es dem Agenten ermöglicht, auf Informationen aus mehreren Quellen zuzugreifen und diese zu verarbeiten, um kontextreiche Informationen zu liefern.
Dieses Dokument richtet sich an Architekten, Entwickler und Administratoren von KI-Anwendungen. In diesem Dokument werden grundlegende Kenntnisse der Konzepte von KI, maschinellem Lernen (ML) und Large Language Model (LLM) vorausgesetzt. Außerdem wird davon ausgegangen, dass Sie grundlegende Kenntnisse zu KI-Agents und ‑Modellen haben. Es enthält keine spezifischen Anleitungen zum Entwerfen und Programmieren von KI-Agenten.
Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele, mit denen Sie lernen können, wie Sie KI-Systeme mit einem einzelnen Agent erstellen und bereitstellen.
Architektur
Das folgende Diagramm zeigt eine Architektur für ein KI-System mit einem einzelnen Agent, das in Cloud Run bereitgestellt wird:
Architekturkomponenten
Die Beispielarchitektur besteht aus den folgenden Komponenten:
| Komponente | Beschreibung |
|---|---|
| Frontend | Nutzer interagieren mit dem Agent über ein Frontend, z. B. eine Chat-Oberfläche, die als serverloser Cloud Run-Dienst ausgeführt wird. |
| Agent | Der Agent empfängt Nutzeranfragen, interpretiert die Nutzerintention, wählt die entsprechenden Tools aus und fasst dann Informationen zusammen, um Anfragen zu beantworten. |
| Agent-Laufzeit | Der Agent wird mit dem ADK erstellt und als serverloser Cloud Run-Dienst bereitgestellt. Sie können den Agent auch in Vertex AI Agent Engine oder als containerisierte App in GKE bereitstellen. Informationen zum Auswählen einer Agent-Laufzeit finden Sie unter Komponenten für die Architektur von agentischer KI auswählen. |
| ADK | Das ADK bietet Tools und ein Framework zum Entwickeln, Testen und Bereitstellen von Agenten. Das ADK abstrahiert die Komplexität der Agentenerstellung und ermöglicht es KI-Entwicklern, sich auf die Logik und die Funktionen des Agenten zu konzentrieren. Wenn Sie Agenten mit dem ADK entwickeln, können Sie sie so konfigurieren, dass sie auf integrierte Tools wie die Google Suche zugreifen und diese verwenden. |
| KI-Modell und Laufzeit des Modells | Für die Bereitstellung von Inferenzen verwendet der Agent in dieser Beispielarchitektur das Gemini AI-Modell in Vertex AI. |
| MCP-Toolbox | Die MCP Toolbox für Datenbanken bietet datenbankspezifische Tools für den Agenten. Sie kann Komplexitäten wie Connection Pooling und Authentifizierung bewältigen. |
| MCP-Clients, ‑Server und ‑Tools | MCP erleichtert den Zugriff auf Tools, indem die Interaktion zwischen Agenten und Tools standardisiert wird. Für jedes Agent-Tool-Paar sendet ein MCP-Client Anfragen an einen MCP-Server, über den der Agent auf ein Tool wie ein Dateisystem oder eine API zugreift. Externe Tools wie das StackOverflow LangChain-Tool und das Google Suche-Tool können beispielsweise Daten und Fundierung liefern. |
| Beobachtbarkeit | Der Agent wird mit Google Cloud Observability für Logging, Monitoring und Tracing überwacht. |
Agentischer Ablauf
Das Beispielsystem mit einem einzelnen Agenten in der vorherigen Architektur hat den folgenden Ablauf:
- Ein Nutzer gibt einen Prompt über ein Frontend ein, z. B. über eine Chatoberfläche, die als serverloser Cloud Run-Dienst ausgeführt wird.
- Das Frontend leitet den Prompt an den Agent weiter.
- Der Agent verwendet das KI-Modell, um den Prompt des Nutzers zu analysieren und eine Antwort zu generieren:
- Das KI-Modell bestimmt, welche Tools verwendet werden, um Kontextinformationen zu erfassen oder eine Aufgabe auszuführen.
- Der Agent führt Tool-Aufrufe aus und fügt die Antwort seinem Kontext hinzu.
- Der Agent führt eine Fundierung und eine Zwischenvalidierung durch.
Verwendete Produkte
In dieser Referenzarchitektur werden die folgenden Google Cloud und Open-Source-Produkte und ‑Tools verwendet:
- Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
- Gemini: Eine Reihe multimodaler KI-Modelle, die von Google entwickelt wurden.
- Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
- Model Context Protocol (MCP): Ein Open-Source-Standard zum Verbinden von KI-Anwendungen mit externen Systemen.
- MCP Toolbox for Databases: Ein Open-Source-Server für das Model Context Protocol (MCP), mit dem KI-Agents sicher mit Datenbanken verbunden werden können. Dabei werden Datenbankkomplexitäten wie Connection Pooling, Authentifizierung und Beobachtbarkeit verwaltet.
- Google Cloud Observability: Beobachtbarkeitsdienste wie Cloud Monitoring, Cloud Logging und Cloud Trace, mit denen Sie das Verhalten, den Zustand und die Leistung Ihrer Anwendungen besser verstehen können.
Anwendungsfälle
In diesem Abschnitt werden mögliche Anwendungsfälle für die in diesem Dokument beschriebene Architektur beschrieben.
Automatisierte Erstbeurteilung von Fehlerberichten
Sie können diese Referenzarchitektur anpassen, um die Triage für eingehende Fehlerberichte zu automatisieren: das Problem verstehen, nach Duplikaten suchen, relevanten technischen Kontext erfassen und dann einen Fehler im System erstellen. Ein KI-basierter Agent kann als intelligenter Assistent fungieren, der die erste Untersuchung durchführt. So können sich menschliche Experten auf komplexere Problemlösungen konzentrieren.
Für diesen Anwendungsfall bietet die Architektur die folgenden Vorteile:
- Schnellere Bearbeitungszeiten: Der Agent automatisiert die erste Recherche und das Sammeln von Kontextinformationen. Dadurch kann die Zeit, die für die Zuweisung und Behebung von Fehler-Tickets benötigt wird, erheblich verkürzt werden.
- Höhere Genauigkeit und Konsistenz: Der Agent kann systematisch in mehreren Datenquellen suchen (interne Datenbanken, Code-Repositories und das öffentliche Web). Diese Funktion ermöglicht eine umfassendere und konsistentere Analyse als die manuelle Triage.
- Geringere manuelle Arbeitslast: Der Agent kann IT-Support- und Engineering-Teams sich wiederholende Triage-Aufgaben abnehmen, sodass sie sich auf Aufgaben mit höherem Mehrwert konzentrieren können.
Diese Architektur ist ideal für alle Organisationen, die Software entwickeln und die Effizienz und Effektivität ihres Prozesses zur Fehlerbehebung verbessern möchten. Weitere Informationen und Bereitstellungsoptionen finden Sie unter Software Bug Assistant – ADK Python Sample Agent und Tools Make an Agent: From Zero to Assistant with ADK.
Kundenservice
Sie können diese Referenzarchitektur anpassen, um Kunden ein nahtloses und personalisiertes Einkaufserlebnis zu bieten. Ein KI-basierter Kundenservicemitarbeiter kann Kundenservice leisten, Produkte empfehlen, Bestellungen verwalten und Termine vereinbaren. So können sich menschliche Kundenservicemitarbeiter auf andere Aufgaben konzentrieren.
Für diesen Anwendungsfall bietet die Architektur die folgenden Vorteile:
Upselling und Werbeaktionen: Der Kundenservice-Agent kann den Umsatz steigern, indem er Produkte, Dienstleistungen und Werbeaktionen vorschlägt. Die Vorschläge des Kundenservicemitarbeiters basieren auf der aktuellen Bestellung des Kunden und relevanten Angeboten, dem Bestellverlauf des Kunden und den Artikeln im Einkaufswagen.
Bestellverwaltung und Terminplanung: Der Agent kann die Effizienz steigern und die Reibung für Kunden verringern, indem er den Inhalt des Einkaufswagens eines Kunden verwaltet und die Selbstterminierung für Dienstleistungen ermöglicht.
Geringerer manueller Arbeitsaufwand: Der Agent bearbeitet allgemeine Anfragen, Bestellungen und Terminplanung, sodass sich menschliche Kundenservicemitarbeiter auf komplexere Kundenanliegen konzentrieren können.
Diese Architektur ist ideal für Einzelhandelsunternehmen, die das Kundenerlebnis verbessern, den Umsatz steigern und die Auftragsverwaltung und Terminplanung vereinfachen möchten. Weitere Informationen und Bereitstellungsoptionen finden Sie unter Cymbal Home & Garden Customer Service Agent.
Zeitachsenprognosen
Sie können diese Referenzarchitektur anpassen, um Ergebnisse wie Bedarfsprognosen, Vorhersagen von Verkehrsmustern oder Analysen und Vorhersagen von Maschinenausfällen zu treffen. Ein KI-basierter Agent kann Echtzeitdaten, historische Trends und anstehende Ereignisse analysieren. Der Agent kann diese Analysen verwenden, um Ergebnisse für einen bestimmten Zeitraum vorherzusagen. Diese Prognosen können Ihnen bei der Planung helfen und den Zeitaufwand für menschliche Datenanalysten verringern.
Organisationen können in vielen Szenarien von diesem Anwendungsfall profitieren, z. B. in den folgenden:
- Bestandsverwaltung: Durch die Verwendung von fortschrittlicher Analytik in Kombination mit historischen Verkaufsdaten und Markttrends kann der Agent Ihnen helfen, Nachbestellungen zu planen, damit Sie sich auf Spitzen oder Rückgänge der Kundennachfrage vorbereiten können.
- Reiserouten: Der Agent kann dazu beitragen, Zeit zu sparen und Reisekosten für Liefer- und Dienstleister zu senken, indem er Echtzeit- und historische Verkehrsmuster sowie Ereignisse wie Baustellen oder Straßensperrungen analysiert.
- Ausfälle vermeiden: Der Agent kann Ihnen helfen, potenzielle Dienstunterbrechungen zu vermeiden, indem er die Grundursache für frühere Ausfälle ermittelt. Außerdem können Sie damit zukünftige potenzielle Fehlerzustände vorhersagen, um ein Problem zu beheben, bevor es zu einem Problem wird.
Diese Architektur ist ideal für Organisationen, die sich an sich ändernde Muster auf Grundlage etablierter Trends anpassen müssen. Die Lösung ist auch ideal für Unternehmen, deren Kunden von proaktiven Informationen profitieren können, die ihnen bei der Planung für die Zukunft helfen. Weitere Informationen und Bereitstellungsoptionen finden Sie unter Time Series Forecasting Agent with Google's ADK and MCP Toolbox.
Dokumentabruf
Sie können diese Referenzarchitektur anpassen, um die Vertex AI RAG Engine zu verwenden und einen Agent zu erstellen, der den Abruf von Kontextdaten verwaltet. Ein Dokumentabruf-Agent kann relevante Daten aus einer kuratierten Gruppe von Dokumenten abrufen, um sachliche Antworten mit Quellenangaben zu liefern.
Mit einem Agent zum Abrufen von Dokumenten können Sie dafür sorgen, dass Kunden und interne Nutzer informierte und kontextbezogene Antworten auf ihre Anfragen erhalten. Diese Implementierung kann dazu beitragen, Fehler und Ungenauigkeiten zu reduzieren, da die Antworten auf den von Ihnen bestätigten Informationen basieren.
Eine Architektur zum Abrufen von Dokumenten ist ideal für Wissensdatenbanken zu Richtlinien und Prozessen, technischer Infrastruktur, Produktfunktionen und anderer faktenbasierter Dokumentation. Informationen zum Entwickeln eines Agents zum Abrufen von Dokumenten, der auf Retrieval-Augmented Generation (RAG) basiert, finden Sie unter Agent zum Abrufen von Dokumenten.
Designalternativen
In diesem Abschnitt werden alternative Designansätze vorgestellt, die Sie für die Bereitstellung Ihres KI-Agents in Google Cloudin Betracht ziehen können.
Agent-Laufzeit
In der in diesem Dokument beschriebenen Architektur werden der Agent und seine Tools in Cloud Run bereitgestellt. Alternativ können Sie auch GKE oder Vertex AI Agent Engine als Laufzeit verwenden. Informationen zur Auswahl einer Agent-Laufzeit finden Sie unter Agent-Laufzeit im Abschnitt „Komponenten für die KI-Architektur mit Agenten auswählen“.
Laufzeit des KI-Modells
In der in diesem Dokument beschriebenen Architektur ist die KI-Modell-Laufzeit Vertex AI. Sie können auch Cloud Run oder GKE als alternative Laufzeit verwenden. Informationen zum Auswählen einer Modelllaufzeit finden Sie unter Modelllaufzeit im Abschnitt „Komponenten für die Architektur von agentischer KI auswählen“.
Designaspekte
Dieser Abschnitt enthält eine Anleitung zur Verwendung dieser Referenzarchitektur, um eine Architektur zu entwickeln, die Ihren spezifischen Anforderungen an Sicherheit, Zuverlässigkeit, Kosten, operative Effizienz und Leistung entspricht.
Systemdesign
Dieser Abschnitt enthält eine Anleitung zur Auswahl von Google Cloud Regionen für Ihre Bereitstellung und zur Auswahl geeigneter Google Cloud Produkte und Tools.
Auswahl der Region
Berücksichtigen Sie bei der Auswahl von Google Cloud Regionen für Ihre KI-Anwendungen die folgenden Faktoren:
- Verfügbarkeit von Google Cloud -Diensten in jeder Region.
- Latenzanforderungen für den Endnutzer.
- Kosten für Google Cloud Ressourcen.
- Regulatorische Vorgaben.
Mit den folgenden Tools können Sie geeignete Google Cloud Standorte für Ihre Anwendungen auswählen:
- Google Cloud Region Picker: Ein interaktives webbasiertes Tool zur Auswahl der optimalen Google CloudRegion für Ihre Anwendungen und Daten basierend auf Faktoren wie CO2-Bilanz, Kosten und Latenz.
- Cloud Location Finder API: Eine öffentliche API, mit der Sie programmatisch Bereitstellungsorte in Google Cloud, Google Distributed Cloud und anderen Cloud-Anbietern finden können.
Agent-Design
In diesem Abschnitt finden Sie allgemeine Empfehlungen für das Design von KI-Agents. Eine detaillierte Anleitung zum Schreiben von Agent-Code und ‑Logik würde den Rahmen dieses Dokuments sprengen.
| Designschwerpunkt | Empfehlungen |
|---|---|
| Agent-Definition und -Design |
|
| Interaktionen mit KI-Agenten |
|
| Kontext, Tools und Daten |
|
Arbeitsspeicher und Sitzungsspeicher
Die in diesem Dokument gezeigte Beispielarchitektur umfasst keinen Arbeitsspeicher oder Sitzungsspeicher. In einer Produktionsumgebung können Sie die Antworten verbessern und personalisieren, indem Sie Status und Speicher in Ihren Agent integrieren.
- Sitzung: Eine Sitzung ist der Unterhaltungsstrang zwischen einem Nutzer und dem Agent, von der ersten Interaktion bis zum Ende des Dialogs.
- Status: Der Status umfasst die Daten, die der Agent in einer bestimmten Sitzung verwendet und erhebt. Zu den erfassten Statusdaten gehören der Verlauf der Nachrichten, die der Nutzer und der Agent ausgetauscht haben, die Ergebnisse von Tool-Aufrufen und andere Variablen, die der Agent benötigt, um den Kontext der Unterhaltung zu verstehen.
Mit dem Session-Objekt und den state-Attributen kann das ADK Sitzungen im Kurzzeitspeicher verfolgen. Das ADK unterstützt auch Langzeitgedächtnis über Sitzungen mit demselben Nutzer hinweg, einschließlich über Memory Bank.
Zum Speichern des Sitzungsstatus können Sie auch Dienste wie Memorystore for Redis verwenden.
Informationen zu den Optionen für den Agentspeicher finden Sie unter Komponenten für die Architektur von KI-Agents auswählen.
Sicherheit
In diesem Abschnitt werden Designüberlegungen und Empfehlungen beschrieben, mit denen Sie eine Topologie in Google Cloud entwerfen können, die die Sicherheitsanforderungen Ihrer Arbeitslast erfüllt.
| Komponente | Designüberlegungen und Empfehlungen |
|---|---|
| Agents |
KI-Agents bergen bestimmte einzigartige und kritische Sicherheitsrisiken, die mit herkömmlichen, deterministischen Sicherheitsverfahren möglicherweise nicht ausreichend gemindert werden können. Google empfiehlt einen Ansatz, der die Stärken deterministischer Sicherheitskontrollen mit dynamischen, auf Schlussfolgerungen basierenden Schutzmaßnahmen kombiniert. Dieser Ansatz basiert auf drei Grundprinzipien: menschliche Aufsicht, sorgfältig definierte Agentenautonomie und Beobachtbarkeit. Im Folgenden finden Sie konkrete Empfehlungen, die mit diesen Grundsätzen übereinstimmen. Aufsicht durch Menschen: Ein agentisches KI-System kann manchmal fehlschlagen oder nicht wie erwartet funktionieren. Das Modell kann beispielsweise ungenaue Inhalte generieren oder ein Agent kann unangemessene Tools auswählen. In geschäftskritischen agentischen KI-Systemen sollten Sie einen Human-in-the-Loop-Ablauf einbauen, damit menschliche Aufsichtspersonen Agents überwachen, außer Kraft setzen und pausieren können. So können menschliche Nutzer beispielsweise die Ausgabe von Agents überprüfen, genehmigen oder ablehnen und weitere Anleitungen geben, um Fehler zu korrigieren oder strategische Entscheidungen zu treffen. Dieser Ansatz kombiniert die Effizienz von agentischen KI-Systemen mit dem kritischen Denken und der Fachkompetenz menschlicher Nutzer. Zugriffssteuerung für Agents: Konfigurieren Sie Agent-Berechtigungen mithilfe von IAM-Steuerelementen (Identity and Access Management). Gewähren Sie jedem Agent nur die Berechtigungen, die er für die Ausführung seiner Aufgaben und die Kommunikation mit Tools und anderen Agents benötigt. Dieser Ansatz trägt dazu bei, die potenziellen Auswirkungen einer Sicherheitsverletzung zu minimieren, da ein manipulierter Agent nur eingeschränkten Zugriff auf andere Teile des Systems hätte. Weitere Informationen finden Sie unter Identität und Berechtigungen für Ihren Agent einrichten und Zugriff für bereitgestellte Agents verwalten. Monitoring: Überwachen Sie das Verhalten von Agenten mithilfe umfassender Trace-Funktionen, die Ihnen Einblick in jede Aktion eines Agenten geben, einschließlich des Begründungsprozesses, der Toolauswahl und der Ausführungspfade. Weitere Informationen finden Sie unter Logging eines Agenten in Vertex AI Agent Engine und Logging im ADK. Weitere Informationen zum Schutz von KI-Agents finden Sie unter Sicherheit für KI-Agents. |
| Vertex AI |
Geteilte Verantwortung: Sicherheit ist eine geteilte Verantwortung. Vertex AI sichert die zugrunde liegende Infrastruktur und bietet Tools und Sicherheitskontrollen, mit denen Sie Ihre Daten, Ihren Code und Ihre Modelle schützen können. Sie sind dafür verantwortlich, Ihre Dienste richtig zu konfigurieren, Zugriffssteuerungen zu verwalten und Ihre Anwendungen zu schützen. Weitere Informationen finden Sie unter Geteilte Verantwortung von Vertex AI. Sicherheitskontrollen: Vertex AI unterstützt Google Cloud Sicherheitskontrollen, mit denen Sie Ihre Anforderungen an Datenstandort, vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK), Netzwerksicherheit mit VPC Service Controls und Access Transparency erfüllen können. Weitere Informationen finden Sie in der folgenden Dokumentation:
Sicherheit: KI-Modelle können schädliche Antworten generieren, manchmal als Reaktion auf schädliche Prompts.
Modellzugriff: Sie können Organisationsrichtlinien einrichten, um den Typ und die Versionen von KI-Modellen zu beschränken, die in einem Google Cloud -Projekt verwendet werden können. Weitere Informationen finden Sie unter Zugriff auf Model Garden-Modelle steuern. Datenschutz: Mit der Cloud Data Loss Prevention API können Sie sensible Daten in den Prompts und Antworten sowie in den Logdaten erkennen und de-identifizieren. Weitere Informationen finden Sie in diesem Video: Protecting sensitive data in AI apps. |
| MCP | Wenn Sie Ihre Agents für die Verwendung von MCP konfigurieren, müssen Sie darauf achten, dass der Zugriff auf externe Daten und Tools autorisiert ist. Außerdem sollten Sie Datenschutzmaßnahmen wie die Verschlüsselung implementieren, Filter anwenden, um vertrauliche Daten zu schützen, und Agent-Interaktionen überwachen. Weitere Informationen finden Sie unter MCP und Sicherheit. |
| A2A |
Transportsicherheit: Das A2A-Protokoll schreibt HTTPS für die gesamte A2A-Kommunikation in Produktionsumgebungen vor und empfiehlt Transport Layer Security (TLS)-Versionen 1.2 oder höher. Authentifizierung: Das A2A-Protokoll delegiert die Authentifizierung an Standard-Webmechanismen wie HTTP-Header und an Standards wie OAuth2 und OpenID Connect. Jeder Agent gibt die Authentifizierungsanforderungen auf seiner Agent-Karte an. Weitere Informationen finden Sie unter A2A-Authentifizierung. |
| Cloud Run |
Sicherheit für eingehenden Traffic (für den Frontend-Dienst): Um den Zugriff auf die Anwendung zu steuern, deaktivieren Sie die standardmäßige Nutzerauthentifizierung:
Weitere Informationen finden Sie unter Nutzer authentifizieren. Sicherheit von Container-Images: Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, können Sie die Binärautorisierung verwenden. Um Sicherheitsrisiken in den Container-Images zu erkennen und zu minimieren, können Sie mit der Artefaktanalyse automatisch Scans auf Sicherheitslücken durchführen. Weitere Informationen finden Sie unter Übersicht über das Scannen von Containern. Datenstandort: Cloud Run unterstützt Sie dabei, die Anforderungen an den Datenstandort zu erfüllen. Ihre Cloud Run-Funktionen werden in der ausgewählten Region ausgeführt. Weitere Informationen zur Containersicherheit finden Sie unter Allgemeine Entwicklungstipps für Cloud Run. |
| Alle Produkte in der Architektur |
Datenverschlüsselung: Standardmäßig verschlüsselt Google Cloudinaktive Daten mit Google-owned and Google-managed encryption keys. Zum Schutz der Daten Ihrer Agents mit Verschlüsselungsschlüsseln, die Sie kontrollieren, können Sie CMEKs verwenden, die Sie in Cloud KMS erstellen und verwalten. Informationen zu Google Cloud -Diensten, die mit Cloud KMS kompatibel sind, finden Sie unter Kompatible Dienste. Risiko einer Daten-Exfiltration minimieren: Um das Risiko einer Daten-Exfiltration zu verringern, erstellen Sie einen VPC Service Controls-Perimeter für die Infrastruktur. VPC Service Controls unterstützt alle Google Cloud -Dienste, die in dieser Referenzarchitektur verwendet werden. Zugriffssteuerung: Wenn Sie Berechtigungen für die Ressourcen in Ihrer Topologie konfigurieren, halten Sie sich an das Prinzip der geringsten Berechtigung. Sicherheit der Cloud-Umgebung: Mit den Tools im Security Command Center können Sie Sicherheitslücken erkennen, Bedrohungen identifizieren und abwehren, einen Sicherheitsstatus definieren und bereitstellen sowie Daten für die weitere Analyse exportieren. Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, erhalten Sie mit Active Assist Empfehlungen zur weiteren Optimierung der Sicherheit. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden. |
Weitere Sicherheitsempfehlungen
- Well-Architected Framework – KI- und ML-Perspektive: Sicherheit
- Der Ansatz von Google für sichere KI-Agents: Eine Einführung
Zuverlässigkeit
In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Erstellen und Betreiben einer zuverlässigen Infrastruktur für Ihre Bereitstellung in Google Cloudbeschrieben.
| Komponente | Designüberlegungen und Empfehlungen |
|---|---|
| Agent |
Fehler simulieren: Bevor Sie das System mit agentenbasierter KI in der Produktion bereitstellen, sollten Sie es durch Simulation einer Produktionsumgebung validieren. Probleme und unerwartetes Verhalten erkennen und beheben Horizontal skalieren: Um Hochverfügbarkeit und Fehlertoleranz zu gewährleisten, sollten Sie mehrere Instanzen Ihrer Agent-Anwendung hinter einem Load-Balancer ausführen. Dieser Ansatz kann auch dazu beitragen, Latenz und Zeitüberschreitungen zu reduzieren, indem Anfragen auf mehrere Instanzen verteilt werden. Bei einigen Agent-Laufzeiten wird das Load-Balancing automatisch für Sie übernommen, z. B. bei Autoscaling von Instanzen in Cloud Run-Diensten. Wiederherstellung nach Ausfällen: Damit der Agent Neustarts problemlos verarbeiten und den Kontext beibehalten kann, sollten Sie den Status von der Laufzeit entkoppeln. Verwenden Sie für die Implementierung einer solchen zustandslosen Agent-Anwendung einen externen Datenspeicher wie eine Datenbank oder einen verteilten Cache. Sie können beispielsweise Memory Bank, Memorystore for Redis oder einen Datenbankdienst wie Cloud SQL verwenden. Fehlerbehandlung: Implementieren Sie Protokollierungs-, Ausnahmebehandlungs- und Wiederholungsmechanismen, um Fehler zu diagnostizieren und zu beheben. |
| Vertex AI |
Kontingentverwaltung: Vertex AI unterstützt dynamische gemeinsame Kontingente (Dynamic Shared Quota, DSQ) für Gemini-Modelle. Mit DSQ lassen sich Pay-as-you-go-Anfragen flexibel verwalten. Außerdem müssen Sie das Kontingent nicht mehr manuell verwalten oder Kontingenterhöhungen anfordern. DSQ weist die verfügbaren Ressourcen für ein bestimmtes Modell und eine bestimmte Region dynamisch auf aktive Kunden auf. Bei DSQ gibt es keine vordefinierten Kontingentlimits für einzelne Kunden. Kapazitätsplanung: Wenn die Anzahl der Anfragen an das Modell die zugewiesene Kapazität überschreitet, wird der Fehlercode 429 zurückgegeben. Für geschäftskritische Arbeitslasten, die einen konstant hohen Durchsatz erfordern, können Sie den Durchsatz mit Provisioned Throughput reservieren. Verfügbarkeit von Modellendpunkten: Wenn Daten in mehreren Regionen oder Ländern freigegeben werden können, können Sie einen globalen Endpunkt für das Modell verwenden. |
| Cloud Run |
Robustheit bei Infrastrukturausfällen: Cloud Run ist ein regionaler Dienst. Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert und der Traffic wird automatisch auf die Zonen verteilt. Wenn ein Zonenausfall auftritt, wird Cloud Run weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, wird der Dienst so lange ausgeführt, bis Google den Ausfall behoben hat. Horizontale Skalierung: Cloud Run-Dienste übernehmen das Autoscaling von Instanzen für Sie. Autoscaling trägt dazu bei, dass Instanzen alle eingehenden Anfragen, Ereignisse und die CPU-Auslastung verarbeiten können, die für eine hohe Verfügbarkeit erforderlich sind. |
| Alle Produkte in der Architektur |
Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, erhalten Sie mit Active Assist Empfehlungen zur weiteren Optimierung der Sicherheit. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden. |
Zuverlässigkeitsprinzipien und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Zuverlässigkeit.
Vorgänge
In diesem Abschnitt werden die Faktoren beschrieben, die Sie bei der Verwendung dieser Referenzarchitektur zum Entwerfen einer Google Cloud Topologie berücksichtigen sollten, die Sie effizient betreiben können.
| Komponente | Designüberlegungen und Empfehlungen |
|---|---|
| Agent |
Debugging und Analyse: Implementieren Sie strukturiertes Logging in Ihrer Agent-Anwendung. Mithilfe von Logging und Tracing können Sie wichtige Informationen in einem strukturierten Format erfassen, z. B. welche Tools aufgerufen wurden, die Ein- und Ausgaben des Agents und die Latenz jedes Schritts. |
| Vertex AI |
Überwachung mit Logs: Standardmäßig werden Agent-Logs, die in die Streams Kontinuierliche Bewertung: Führen Sie regelmäßig eine qualitative Bewertung der Ausgabe der Agents und des Pfads oder der Schritte durch, die die Agents zur Erstellung der Ausgabe ausgeführt haben. Zur Implementierung der Agentenbewertung können Sie den Gen AI Evaluation Service oder die von ADK unterstützten Bewertungsmethoden verwenden. |
| Cloud Run |
Zustand und Leistung: Überwachen Sie Ihre Cloud Run-Dienste mit Google Cloud Observability. Richten Sie Benachrichtigungen in Cloud Monitoring ein, um über potenzielle Probleme wie eine Zunahme der Fehlerraten, hohe Latenz oder eine ungewöhnliche Ressourcennutzung informiert zu werden. |
| Datenbanken |
Zustand und Leistung: Sie können Ihre Datenbank mit Google Cloud Observability überwachen. Richten Sie Benachrichtigungen in Monitoring ein, um über potenzielle Probleme wie eine erhöhte Fehlerrate, eine hohe Latenz oder eine ungewöhnliche Ressourcennutzung informiert zu werden. |
| MCP |
Datenbanktools: Wenn Sie Datenbanktools für Ihre KI-Agents effizient verwalten und dafür sorgen möchten, dass die Agents Komplexitäten wie Connection Pooling und Authentifizierung sicher verarbeiten, verwenden Sie die MCP Toolbox für Datenbanken. Es bietet einen zentralen Ort zum Speichern und Aktualisieren von Datenbanktools. Sie können die Tools für mehrere Agents freigeben und aktualisieren, ohne die Agents neu bereitzustellen. Die Toolbox enthält eine Vielzahl von Tools für Google Cloud -Datenbanken wie AlloyDB for PostgreSQL und für Drittanbieterdatenbanken wie MongoDB. Modelle für generative KI: Damit KI-Agents generative KI-Modelle von Google wie Imagen und Veo verwenden können, können Sie MCP-Server für Google Cloud APIs für generative Medien nutzen. Google-Sicherheitsprodukte und ‑tools: Damit Ihre KI-Agents auf Google-Sicherheitsprodukte und ‑tools wie Google Security Operations, Google Threat Intelligence und Security Command Center zugreifen können, verwenden Sie MCP-Server für Google-Sicherheitsprodukte. |
| Alle Google Cloud Produkte in der Architektur |
Tracing: Mit Trace werden kontinuierlich Trace-Daten erfasst und analysiert. Mit Trace-Daten können Sie Latenzprobleme in komplexen Agent-Workflows schnell erkennen und diagnostizieren. Sie können detaillierte Analysen mithilfe von Visualisierungen auf der Seite „Trace Explorer“ in der Google Cloud Console durchführen. Weitere Informationen finden Sie unter Agent-Ablauf nachvollziehen. |
Prinzipien und Empfehlungen für operative Exzellenz, die speziell für KI- und ML-Arbeitslasten gelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Operative Exzellenz.
Kostenoptimierung
Dieser Abschnitt enthält Anleitungen zur Optimierung der Kosten für die Einrichtung und den Betrieb einer Google Cloud Topologie, die Sie mithilfe dieser Referenzarchitektur erstellen.
| Komponente | Designüberlegungen und Empfehlungen |
|---|---|
| Vertex AI |
Kostenanalyse und ‑verwaltung: Um die Kosten für Vertex AI zu analysieren und zu verwalten, empfehlen wir, Baseline-Messwerte für Abfragen pro Sekunde (QPS) und Tokens pro Sekunde (TPS) zu erstellen. Behalten Sie diese Messwerte nach der Bereitstellung im Blick. Die Baseline hilft auch bei der Kapazitätsplanung. Anhand der Baseline können Sie beispielsweise ermitteln, wann Provisioned Throughput erforderlich ist. Modellauswahl: Das Modell, das Sie für Ihre KI-Anwendung auswählen, wirkt sich direkt auf Kosten und Leistung aus. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Verhältnis zwischen Leistung und Kosten bietet, testen Sie die Modelle iterativ. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach leistungsstärkere Optionen zu nutzen. Kostengünstige Prompts: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design. Kontext-Caching: Um die Kosten für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching. Batchanfragen: Erwägen Sie gegebenenfalls Batchvorhersagen. Batchanfragen sind günstiger als Standardanfragen. |
| Cloud Run |
Ressourcenzuweisung: Wenn Sie einen Cloud Run-Dienst erstellen, können Sie die Größe des Arbeitsspeichers und die CPU angeben, die zugewiesen werden sollen. Beginnen Sie mit den standardmäßigen CPU- und Arbeitsspeicherzuweisungen. Beobachten Sie die Ressourcennutzung und die Kosten im Zeitverlauf und passen Sie die Zuweisung bei Bedarf an. Weitere Informationen finden Sie in der folgenden Dokumentation: Ratenoptimierung: Wenn Sie die CPU- und Arbeitsspeicheranforderungen vorhersagen können, können Sie mit Rabatten für zugesicherte Nutzung Geld sparen. |
| Alle Produkte in der Architektur | Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Kostenoptimierung erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden. |
Mit dem Google Cloud Preisrechner können Sie die Kosten für Ihre Google Cloud -Ressourcen schätzen.
Kostenoptimierungsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Kostenoptimierung.
Leistungsoptimierung
In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Entwerfen einer Topologie in Google Cloud beschrieben, die die Leistungsanforderungen Ihrer Arbeitslasten erfüllt.
| Komponente | Designüberlegungen und Empfehlungen |
|---|---|
| Agents |
Modellauswahl: Wenn Sie Modelle für Ihr agentisches KI-System auswählen, sollten Sie die Funktionen berücksichtigen, die für die Aufgaben erforderlich sind, die die Agents ausführen müssen. Prompt-Optimierung: Mit dem Vertex AI Prompt Optimizer können Sie die Leistung von Prompts schnell und in großem Umfang verbessern und optimieren, ohne dass manuelles Umschreiben erforderlich ist. Mit dem Optimierungstool können Sie Prompts effizient an verschiedene Modelle anpassen. |
| Vertex AI |
Modellauswahl: Das Modell, das Sie für Ihre KI-Anwendung auswählen, wirkt sich direkt auf Kosten und Leistung aus. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Verhältnis zwischen Leistung und Kosten bietet, testen Sie die Modelle iterativ. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach leistungsstärkere Optionen zu nutzen. Prompt-Engineering: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design. Kontext-Caching: Um die Latenz für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching. |
| Cloud Run |
Ressourcenzuweisung: Konfigurieren Sie den Arbeitsspeicher und die CPU, die dem Cloud Run-Dienst zugewiesen werden sollen, entsprechend Ihren Leistungsanforderungen. Weitere Informationen finden Sie in der folgenden Dokumentation: Weitere Informationen zur Leistungsoptimierung finden Sie unter Allgemeine Entwicklungstipps für Cloud Run. |
| Alle Produkte in der Architektur | Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Leistungsoptimierung erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden. |
Grundsätze und Empfehlungen zur Leistungsoptimierung, die speziell für KI- und ML-Arbeitslasten gelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Leistungsoptimierung.
Bereitstellung
Die automatisierte Bereitstellung für diese Referenzarchitektur ist nicht verfügbar. Die folgenden Codebeispiele können Ihnen beim Erstellen einer Architektur mit einem einzelnen Agenten helfen:
- Sie können eine ähnliche Architektur bereitstellen, indem Sie den Software Bug Assistant – ADK Python Sample Agent bereitstellen.
- Weitere Informationen zu Speicher und Status finden Sie unter Python Tutor – ADK State and Memory Example.
Codebeispiele für den Einstieg in die Verwendung des ADK zusammen mit MCP-Servern finden Sie unter MCP-Tools.
Beispiele für zusätzliche KI-Systeme mit einem einzelnen Agenten finden Sie in den folgenden Codebeispielen. Diese Codebeispiele sind voll funktionsfähige Ausgangspunkte für das Lernen und Experimentieren. Für einen optimalen Betrieb in Produktionsumgebungen müssen Sie den Code an Ihre spezifischen geschäftlichen und technischen Anforderungen anpassen.
- Personalisiertes Shopping: Personalisierte Produktempfehlungen für eine bestimmte Marke, einen bestimmten Händler oder einen bestimmten Online-Marktplatz bereitstellen.
- Vorfallmanagement: Validieren Sie das Endnutzertoken und die Identität pro Anfrage mithilfe der dynamischen Identitätsübertragung.
- Auftragsbearbeitung: Aufträge verarbeiten und speichern sowie E‑Mail-Bestätigungen mit einer bedingten manuellen Überprüfung für bestimmte Bestellmengen koordinieren.
- Data Engineering: Dataform-Pipelines entwickeln, Probleme mit Pipelines beheben und Data Engineering von komplexen SQL-Abfragen bis hin zu Datentransformationen und Datenabhängigkeiten verwalten.
- Dokumentabruf: Verwenden Sie RAG, um Dokumente abzufragen, die Sie in die Vertex AI-RAG-Engine hochladen, und Antworten mit Zitaten aus Dokumentation und Code zu erhalten.
Nächste Schritte
- Beispiel-Agents und ‑Tools in Agent Garden ansehen
- KI-Agenten mit dem ADK erstellen
- Agenten in Google Cloudbereitstellen.
- MCP-Server in Cloud Run hosten
- KI-Apps und ‑Agents in Cloud Run hosten
- RAG-Infrastruktur für generative KI-Anwendungen in Google Cloud implementieren
- Eine Übersicht über Architekturprinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Well-Architected Framework in der KI- und ML-Perspektive.
- Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.
Beitragende
- Kumar Dhanagopal | Cross-Product Solution Developer
- Megan O'Keefe | Developer Advocate
- Shir Meir Lador | Developer Relations Engineering Manager