KI-System mit einem einzelnen Agenten mit ADK und Cloud Run

Dieses Dokument enthält eine Referenzarchitektur, die Sie beim Entwerfen eines KI-Systems mit einem einzelnen Agenten auf Google Cloudunterstützt. Das Single-Agent-System in dieser Architektur wird mit dem Agent Development Kit (ADK) erstellt und in Cloud Run bereitgestellt. Sie können den Agent auch in Vertex AI Agent Engine oder Google Kubernetes Engine (GKE) bereitstellen. Die Architektur verwendet das Model Context Protocol (MCP), das es dem Agenten ermöglicht, auf Informationen aus mehreren Quellen zuzugreifen und diese zu verarbeiten, um kontextreiche Informationen zu liefern.

Dieses Dokument richtet sich an Architekten, Entwickler und Administratoren von KI-Anwendungen. In diesem Dokument werden grundlegende Kenntnisse der Konzepte von KI, maschinellem Lernen (ML) und Large Language Model (LLM) vorausgesetzt. Außerdem wird davon ausgegangen, dass Sie grundlegende Kenntnisse zu KI-Agents und ‑Modellen haben. Es enthält keine spezifischen Anleitungen zum Entwerfen und Programmieren von KI-Agenten.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele, mit denen Sie lernen können, wie Sie KI-Systeme mit einem einzelnen Agent erstellen und bereitstellen.

Architektur

Das folgende Diagramm zeigt eine Architektur für ein KI-System mit einem einzelnen Agent, das in Cloud Run bereitgestellt wird:

Eine Architektur mit einem einzelnen Agenten, die in Cloud Run bereitgestellt wird.

Architekturkomponenten

Die Beispielarchitektur besteht aus den folgenden Komponenten:

Komponente Beschreibung
Frontend Nutzer interagieren mit dem Agent über ein Frontend, z. B. eine Chat-Oberfläche, die als serverloser Cloud Run-Dienst ausgeführt wird.
Agent Der Agent empfängt Nutzeranfragen, interpretiert die Nutzerintention, wählt die entsprechenden Tools aus und fasst dann Informationen zusammen, um Anfragen zu beantworten.
Agent-Laufzeit Der Agent wird mit dem ADK erstellt und als serverloser Cloud Run-Dienst bereitgestellt. Sie können den Agent auch in Vertex AI Agent Engine oder als containerisierte App in GKE bereitstellen. Informationen zum Auswählen einer Agent-Laufzeit finden Sie unter Komponenten für die Architektur von agentischer KI auswählen.
ADK Das ADK bietet Tools und ein Framework zum Entwickeln, Testen und Bereitstellen von Agenten. Das ADK abstrahiert die Komplexität der Agentenerstellung und ermöglicht es KI-Entwicklern, sich auf die Logik und die Funktionen des Agenten zu konzentrieren. Wenn Sie Agenten mit dem ADK entwickeln, können Sie sie so konfigurieren, dass sie auf integrierte Tools wie die Google Suche zugreifen und diese verwenden.
KI-Modell und Laufzeit des Modells Für die Bereitstellung von Inferenzen verwendet der Agent in dieser Beispielarchitektur das Gemini AI-Modell in Vertex AI.
MCP-Toolbox Die MCP Toolbox für Datenbanken bietet datenbankspezifische Tools für den Agenten. Sie kann Komplexitäten wie Connection Pooling und Authentifizierung bewältigen.
MCP-Clients, ‑Server und ‑Tools MCP erleichtert den Zugriff auf Tools, indem die Interaktion zwischen Agenten und Tools standardisiert wird. Für jedes Agent-Tool-Paar sendet ein MCP-Client Anfragen an einen MCP-Server, über den der Agent auf ein Tool wie ein Dateisystem oder eine API zugreift. Externe Tools wie das StackOverflow LangChain-Tool und das Google Suche-Tool können beispielsweise Daten und Fundierung liefern.
Beobachtbarkeit Der Agent wird mit Google Cloud Observability für Logging, Monitoring und Tracing überwacht.

Agentischer Ablauf

Das Beispielsystem mit einem einzelnen Agenten in der vorherigen Architektur hat den folgenden Ablauf:

  1. Ein Nutzer gibt einen Prompt über ein Frontend ein, z. B. über eine Chatoberfläche, die als serverloser Cloud Run-Dienst ausgeführt wird.
  2. Das Frontend leitet den Prompt an den Agent weiter.
  3. Der Agent verwendet das KI-Modell, um den Prompt des Nutzers zu analysieren und eine Antwort zu generieren:
    • Das KI-Modell bestimmt, welche Tools verwendet werden, um Kontextinformationen zu erfassen oder eine Aufgabe auszuführen.
    • Der Agent führt Tool-Aufrufe aus und fügt die Antwort seinem Kontext hinzu.
    • Der Agent führt eine Fundierung und eine Zwischenvalidierung durch.

Verwendete Produkte

In dieser Referenzarchitektur werden die folgenden Google Cloud und Open-Source-Produkte und ‑Tools verwendet:

Anwendungsfälle

In diesem Abschnitt werden mögliche Anwendungsfälle für die in diesem Dokument beschriebene Architektur beschrieben.

Automatisierte Erstbeurteilung von Fehlerberichten

Sie können diese Referenzarchitektur anpassen, um die Triage für eingehende Fehlerberichte zu automatisieren: das Problem verstehen, nach Duplikaten suchen, relevanten technischen Kontext erfassen und dann einen Fehler im System erstellen. Ein KI-basierter Agent kann als intelligenter Assistent fungieren, der die erste Untersuchung durchführt. So können sich menschliche Experten auf komplexere Problemlösungen konzentrieren.

Für diesen Anwendungsfall bietet die Architektur die folgenden Vorteile:

  • Schnellere Bearbeitungszeiten: Der Agent automatisiert die erste Recherche und das Sammeln von Kontextinformationen. Dadurch kann die Zeit, die für die Zuweisung und Behebung von Fehler-Tickets benötigt wird, erheblich verkürzt werden.
  • Höhere Genauigkeit und Konsistenz: Der Agent kann systematisch in mehreren Datenquellen suchen (interne Datenbanken, Code-Repositories und das öffentliche Web). Diese Funktion ermöglicht eine umfassendere und konsistentere Analyse als die manuelle Triage.
  • Geringere manuelle Arbeitslast: Der Agent kann IT-Support- und Engineering-Teams sich wiederholende Triage-Aufgaben abnehmen, sodass sie sich auf Aufgaben mit höherem Mehrwert konzentrieren können.

Diese Architektur ist ideal für alle Organisationen, die Software entwickeln und die Effizienz und Effektivität ihres Prozesses zur Fehlerbehebung verbessern möchten. Weitere Informationen und Bereitstellungsoptionen finden Sie unter Software Bug Assistant – ADK Python Sample Agent und Tools Make an Agent: From Zero to Assistant with ADK.

Kundenservice

Sie können diese Referenzarchitektur anpassen, um Kunden ein nahtloses und personalisiertes Einkaufserlebnis zu bieten. Ein KI-basierter Kundenservicemitarbeiter kann Kundenservice leisten, Produkte empfehlen, Bestellungen verwalten und Termine vereinbaren. So können sich menschliche Kundenservicemitarbeiter auf andere Aufgaben konzentrieren.

Für diesen Anwendungsfall bietet die Architektur die folgenden Vorteile:

  • Upselling und Werbeaktionen: Der Kundenservice-Agent kann den Umsatz steigern, indem er Produkte, Dienstleistungen und Werbeaktionen vorschlägt. Die Vorschläge des Kundenservicemitarbeiters basieren auf der aktuellen Bestellung des Kunden und relevanten Angeboten, dem Bestellverlauf des Kunden und den Artikeln im Einkaufswagen.

  • Bestellverwaltung und Terminplanung: Der Agent kann die Effizienz steigern und die Reibung für Kunden verringern, indem er den Inhalt des Einkaufswagens eines Kunden verwaltet und die Selbstterminierung für Dienstleistungen ermöglicht.

  • Geringerer manueller Arbeitsaufwand: Der Agent bearbeitet allgemeine Anfragen, Bestellungen und Terminplanung, sodass sich menschliche Kundenservicemitarbeiter auf komplexere Kundenanliegen konzentrieren können.

Diese Architektur ist ideal für Einzelhandelsunternehmen, die das Kundenerlebnis verbessern, den Umsatz steigern und die Auftragsverwaltung und Terminplanung vereinfachen möchten. Weitere Informationen und Bereitstellungsoptionen finden Sie unter Cymbal Home & Garden Customer Service Agent.

Zeitachsenprognosen

Sie können diese Referenzarchitektur anpassen, um Ergebnisse wie Bedarfsprognosen, Vorhersagen von Verkehrsmustern oder Analysen und Vorhersagen von Maschinenausfällen zu treffen. Ein KI-basierter Agent kann Echtzeitdaten, historische Trends und anstehende Ereignisse analysieren. Der Agent kann diese Analysen verwenden, um Ergebnisse für einen bestimmten Zeitraum vorherzusagen. Diese Prognosen können Ihnen bei der Planung helfen und den Zeitaufwand für menschliche Datenanalysten verringern.

Organisationen können in vielen Szenarien von diesem Anwendungsfall profitieren, z. B. in den folgenden:

  • Bestandsverwaltung: Durch die Verwendung von fortschrittlicher Analytik in Kombination mit historischen Verkaufsdaten und Markttrends kann der Agent Ihnen helfen, Nachbestellungen zu planen, damit Sie sich auf Spitzen oder Rückgänge der Kundennachfrage vorbereiten können.
  • Reiserouten: Der Agent kann dazu beitragen, Zeit zu sparen und Reisekosten für Liefer- und Dienstleister zu senken, indem er Echtzeit- und historische Verkehrsmuster sowie Ereignisse wie Baustellen oder Straßensperrungen analysiert.
  • Ausfälle vermeiden: Der Agent kann Ihnen helfen, potenzielle Dienstunterbrechungen zu vermeiden, indem er die Grundursache für frühere Ausfälle ermittelt. Außerdem können Sie damit zukünftige potenzielle Fehlerzustände vorhersagen, um ein Problem zu beheben, bevor es zu einem Problem wird.

Diese Architektur ist ideal für Organisationen, die sich an sich ändernde Muster auf Grundlage etablierter Trends anpassen müssen. Die Lösung ist auch ideal für Unternehmen, deren Kunden von proaktiven Informationen profitieren können, die ihnen bei der Planung für die Zukunft helfen. Weitere Informationen und Bereitstellungsoptionen finden Sie unter Time Series Forecasting Agent with Google's ADK and MCP Toolbox.

Dokumentabruf

Sie können diese Referenzarchitektur anpassen, um die Vertex AI RAG Engine zu verwenden und einen Agent zu erstellen, der den Abruf von Kontextdaten verwaltet. Ein Dokumentabruf-Agent kann relevante Daten aus einer kuratierten Gruppe von Dokumenten abrufen, um sachliche Antworten mit Quellenangaben zu liefern.

Mit einem Agent zum Abrufen von Dokumenten können Sie dafür sorgen, dass Kunden und interne Nutzer informierte und kontextbezogene Antworten auf ihre Anfragen erhalten. Diese Implementierung kann dazu beitragen, Fehler und Ungenauigkeiten zu reduzieren, da die Antworten auf den von Ihnen bestätigten Informationen basieren.

Eine Architektur zum Abrufen von Dokumenten ist ideal für Wissensdatenbanken zu Richtlinien und Prozessen, technischer Infrastruktur, Produktfunktionen und anderer faktenbasierter Dokumentation. Informationen zum Entwickeln eines Agents zum Abrufen von Dokumenten, der auf Retrieval-Augmented Generation (RAG) basiert, finden Sie unter Agent zum Abrufen von Dokumenten.

Designalternativen

In diesem Abschnitt werden alternative Designansätze vorgestellt, die Sie für die Bereitstellung Ihres KI-Agents in Google Cloudin Betracht ziehen können.

Agent-Laufzeit

In der in diesem Dokument beschriebenen Architektur werden der Agent und seine Tools in Cloud Run bereitgestellt. Alternativ können Sie auch GKE oder Vertex AI Agent Engine als Laufzeit verwenden. Informationen zur Auswahl einer Agent-Laufzeit finden Sie unter Agent-Laufzeit im Abschnitt „Komponenten für die KI-Architektur mit Agenten auswählen“.

Laufzeit des KI-Modells

In der in diesem Dokument beschriebenen Architektur ist die KI-Modell-Laufzeit Vertex AI. Sie können auch Cloud Run oder GKE als alternative Laufzeit verwenden. Informationen zum Auswählen einer Modelllaufzeit finden Sie unter Modelllaufzeit im Abschnitt „Komponenten für die Architektur von agentischer KI auswählen“.

Designaspekte

Dieser Abschnitt enthält eine Anleitung zur Verwendung dieser Referenzarchitektur, um eine Architektur zu entwickeln, die Ihren spezifischen Anforderungen an Sicherheit, Zuverlässigkeit, Kosten, operative Effizienz und Leistung entspricht.

Systemdesign

Dieser Abschnitt enthält eine Anleitung zur Auswahl von Google Cloud Regionen für Ihre Bereitstellung und zur Auswahl geeigneter Google Cloud Produkte und Tools.

Auswahl der Region

Berücksichtigen Sie bei der Auswahl von Google Cloud Regionen für Ihre KI-Anwendungen die folgenden Faktoren:

Mit den folgenden Tools können Sie geeignete Google Cloud Standorte für Ihre Anwendungen auswählen:

  • Google Cloud Region Picker: Ein interaktives webbasiertes Tool zur Auswahl der optimalen Google CloudRegion für Ihre Anwendungen und Daten basierend auf Faktoren wie CO2-Bilanz, Kosten und Latenz.
  • Cloud Location Finder API: Eine öffentliche API, mit der Sie programmatisch Bereitstellungsorte in Google Cloud, Google Distributed Cloud und anderen Cloud-Anbietern finden können.

Agent-Design

In diesem Abschnitt finden Sie allgemeine Empfehlungen für das Design von KI-Agents. Eine detaillierte Anleitung zum Schreiben von Agent-Code und ‑Logik würde den Rahmen dieses Dokuments sprengen.

Designschwerpunkt Empfehlungen
Agent-Definition und -Design
  • Definieren Sie das Geschäftsziel des Agentic AI-Systems und die Aufgabe, die jeder Agent ausführt, klar.
  • Wählen Sie ein Agent-Designmuster aus, das Ihren Anforderungen am besten entspricht.
  • Mit dem ADK können Sie Ihre Agent-Architektur effizient erstellen, bereitstellen und verwalten.
Interaktionen mit KI-Agenten
  • Die für den Menschen bestimmten Agents in der Architektur müssen natürliche Sprachinteraktionen unterstützen.
  • Jeder Agent muss seine Aktionen und seinen Status klar an seine abhängigen Clients kommunizieren.
  • Entwerfen Sie die Agents so, dass sie mehrdeutige Anfragen und nuancierte Interaktionen erkennen und verarbeiten können.
Kontext, Tools und Daten
  • Achten Sie darauf, dass die Agents genügend Kontext haben, um Interaktionen mit mehreren Schritten und Sitzungsparameter zu erfassen.
  • Beschreiben Sie klar den Zweck, die Argumente und die Verwendung der Tools, die die Kundenservicemitarbeiter verwenden können.
  • Sorgen Sie dafür, dass die Antworten der Agents auf zuverlässigen Datenquellen basieren, um Halluzinationen zu reduzieren.
  • Implementieren Sie eine Logik für Situationen, in denen keine Übereinstimmung gefunden wird, z. B. wenn ein Prompt nicht relevant ist.

Arbeitsspeicher und Sitzungsspeicher

Die in diesem Dokument gezeigte Beispielarchitektur umfasst keinen Arbeitsspeicher oder Sitzungsspeicher. In einer Produktionsumgebung können Sie die Antworten verbessern und personalisieren, indem Sie Status und Speicher in Ihren Agent integrieren.

  • Sitzung: Eine Sitzung ist der Unterhaltungsstrang zwischen einem Nutzer und dem Agent, von der ersten Interaktion bis zum Ende des Dialogs.
  • Status: Der Status umfasst die Daten, die der Agent in einer bestimmten Sitzung verwendet und erhebt. Zu den erfassten Statusdaten gehören der Verlauf der Nachrichten, die der Nutzer und der Agent ausgetauscht haben, die Ergebnisse von Tool-Aufrufen und andere Variablen, die der Agent benötigt, um den Kontext der Unterhaltung zu verstehen.

Mit dem Session-Objekt und den state-Attributen kann das ADK Sitzungen im Kurzzeitspeicher verfolgen. Das ADK unterstützt auch Langzeitgedächtnis über Sitzungen mit demselben Nutzer hinweg, einschließlich über Memory Bank. Zum Speichern des Sitzungsstatus können Sie auch Dienste wie Memorystore for Redis verwenden.

Informationen zu den Optionen für den Agentspeicher finden Sie unter Komponenten für die Architektur von KI-Agents auswählen.

Sicherheit

In diesem Abschnitt werden Designüberlegungen und Empfehlungen beschrieben, mit denen Sie eine Topologie in Google Cloud entwerfen können, die die Sicherheitsanforderungen Ihrer Arbeitslast erfüllt.

Komponente Designüberlegungen und Empfehlungen
Agents

KI-Agents bergen bestimmte einzigartige und kritische Sicherheitsrisiken, die mit herkömmlichen, deterministischen Sicherheitsverfahren möglicherweise nicht ausreichend gemindert werden können. Google empfiehlt einen Ansatz, der die Stärken deterministischer Sicherheitskontrollen mit dynamischen, auf Schlussfolgerungen basierenden Schutzmaßnahmen kombiniert. Dieser Ansatz basiert auf drei Grundprinzipien: menschliche Aufsicht, sorgfältig definierte Agentenautonomie und Beobachtbarkeit. Im Folgenden finden Sie konkrete Empfehlungen, die mit diesen Grundsätzen übereinstimmen.

Aufsicht durch Menschen: Ein agentisches KI-System kann manchmal fehlschlagen oder nicht wie erwartet funktionieren. Das Modell kann beispielsweise ungenaue Inhalte generieren oder ein Agent kann unangemessene Tools auswählen. In geschäftskritischen agentischen KI-Systemen sollten Sie einen Human-in-the-Loop-Ablauf einbauen, damit menschliche Aufsichtspersonen Agents überwachen, außer Kraft setzen und pausieren können. So können menschliche Nutzer beispielsweise die Ausgabe von Agents überprüfen, genehmigen oder ablehnen und weitere Anleitungen geben, um Fehler zu korrigieren oder strategische Entscheidungen zu treffen. Dieser Ansatz kombiniert die Effizienz von agentischen KI-Systemen mit dem kritischen Denken und der Fachkompetenz menschlicher Nutzer.

Zugriffssteuerung für Agents: Konfigurieren Sie Agent-Berechtigungen mithilfe von IAM-Steuerelementen (Identity and Access Management). Gewähren Sie jedem Agent nur die Berechtigungen, die er für die Ausführung seiner Aufgaben und die Kommunikation mit Tools und anderen Agents benötigt. Dieser Ansatz trägt dazu bei, die potenziellen Auswirkungen einer Sicherheitsverletzung zu minimieren, da ein manipulierter Agent nur eingeschränkten Zugriff auf andere Teile des Systems hätte. Weitere Informationen finden Sie unter Identität und Berechtigungen für Ihren Agent einrichten und Zugriff für bereitgestellte Agents verwalten.

Monitoring: Überwachen Sie das Verhalten von Agenten mithilfe umfassender Trace-Funktionen, die Ihnen Einblick in jede Aktion eines Agenten geben, einschließlich des Begründungsprozesses, der Toolauswahl und der Ausführungspfade. Weitere Informationen finden Sie unter Logging eines Agenten in Vertex AI Agent Engine und Logging im ADK.

Weitere Informationen zum Schutz von KI-Agents finden Sie unter Sicherheit für KI-Agents.

Vertex AI

Geteilte Verantwortung: Sicherheit ist eine geteilte Verantwortung. Vertex AI sichert die zugrunde liegende Infrastruktur und bietet Tools und Sicherheitskontrollen, mit denen Sie Ihre Daten, Ihren Code und Ihre Modelle schützen können. Sie sind dafür verantwortlich, Ihre Dienste richtig zu konfigurieren, Zugriffssteuerungen zu verwalten und Ihre Anwendungen zu schützen. Weitere Informationen finden Sie unter Geteilte Verantwortung von Vertex AI.

Sicherheitskontrollen: Vertex AI unterstützt Google Cloud Sicherheitskontrollen, mit denen Sie Ihre Anforderungen an Datenstandort, vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK), Netzwerksicherheit mit VPC Service Controls und Access Transparency erfüllen können. Weitere Informationen finden Sie in der folgenden Dokumentation:

Sicherheit: KI-Modelle können schädliche Antworten generieren, manchmal als Reaktion auf schädliche Prompts.

  • Um die Sicherheit zu erhöhen und potenziellen Missbrauch des agentenbasierten KI-Systems zu minimieren, können Sie Inhaltsfilter konfigurieren, die als Barrieren für schädliche Eingaben und Antworten dienen. Weitere Informationen finden Sie unter Sicherheits- und Inhaltsfilter.
  • Mit Model Armor können Sie Inferenzanfragen und ‑antworten auf Bedrohungen wie Prompt Injection und schädliche Inhalte prüfen und bereinigen. Mit Model Armor können Sie schädliche Eingaben verhindern, die Sicherheit von Inhalten überprüfen, sensible Daten schützen, die Compliance aufrechterhalten und Sicherheitsrichtlinien einheitlich durchsetzen.

Modellzugriff: Sie können Organisationsrichtlinien einrichten, um den Typ und die Versionen von KI-Modellen zu beschränken, die in einem Google Cloud -Projekt verwendet werden können. Weitere Informationen finden Sie unter Zugriff auf Model Garden-Modelle steuern.

Datenschutz: Mit der Cloud Data Loss Prevention API können Sie sensible Daten in den Prompts und Antworten sowie in den Logdaten erkennen und de-identifizieren. Weitere Informationen finden Sie in diesem Video: Protecting sensitive data in AI apps.

MCP Wenn Sie Ihre Agents für die Verwendung von MCP konfigurieren, müssen Sie darauf achten, dass der Zugriff auf externe Daten und Tools autorisiert ist. Außerdem sollten Sie Datenschutzmaßnahmen wie die Verschlüsselung implementieren, Filter anwenden, um vertrauliche Daten zu schützen, und Agent-Interaktionen überwachen. Weitere Informationen finden Sie unter MCP und Sicherheit.
A2A

Transportsicherheit: Das A2A-Protokoll schreibt HTTPS für die gesamte A2A-Kommunikation in Produktionsumgebungen vor und empfiehlt Transport Layer Security (TLS)-Versionen 1.2 oder höher.

Authentifizierung: Das A2A-Protokoll delegiert die Authentifizierung an Standard-Webmechanismen wie HTTP-Header und an Standards wie OAuth2 und OpenID Connect. Jeder Agent gibt die Authentifizierungsanforderungen auf seiner Agent-Karte an. Weitere Informationen finden Sie unter A2A-Authentifizierung.

Cloud Run

Sicherheit für eingehenden Traffic (für den Frontend-Dienst): Um den Zugriff auf die Anwendung zu steuern, deaktivieren Sie die standardmäßige run.app-URL des Cloud Run-Dienstes für das Frontend und richten Sie einen regionalen externen Application Load Balancer ein. Der Load-Balancer führt nicht nur das Load-Balancing für eingehenden Traffic zur Anwendung durch, sondern verwaltet auch SSL-Zertifikate. Für zusätzlichen Schutz können Sie Google Cloud Armor-Sicherheitsrichtlinien verwenden, um Anfragen zu filtern, DDoS-Schutz zu bieten und die Raten für den Dienst zu begrenzen.

Nutzerauthentifizierung:

  • Nutzer in Ihrer Organisation: Verwenden Sie Identity-Aware Proxy (IAP), um den Zugriff interner Nutzer auf den Cloud Run-Frontend-Dienst zu authentifizieren. Versucht ein Nutzer, auf eine mit IAP gesicherte Ressource zuzugreifen, führt IAP Authentifizierungs- und Autorisierungsprüfungen aus.
  • Nutzer außerhalb Ihrer Organisation: Verwenden Sie Identity Platform oder Firebase Authentication, um den Zugriff externer Nutzer auf den Frontend-Dienst zu authentifizieren. Wenn Sie den Zugriff externer Nutzer verwalten möchten, konfigurieren Sie Ihre Anwendung so, dass sie einen Anmeldevorgang verarbeitet und authentifizierte API-Aufrufe an den Cloud Run-Dienst sendet.

Weitere Informationen finden Sie unter Nutzer authentifizieren.

Sicherheit von Container-Images: Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, können Sie die Binärautorisierung verwenden. Um Sicherheitsrisiken in den Container-Images zu erkennen und zu minimieren, können Sie mit der Artefaktanalyse automatisch Scans auf Sicherheitslücken durchführen. Weitere Informationen finden Sie unter Übersicht über das Scannen von Containern.

Datenstandort: Cloud Run unterstützt Sie dabei, die Anforderungen an den Datenstandort zu erfüllen. Ihre Cloud Run-Funktionen werden in der ausgewählten Region ausgeführt.

Weitere Informationen zur Containersicherheit finden Sie unter Allgemeine Entwicklungstipps für Cloud Run.

Alle Produkte in der Architektur

Datenverschlüsselung: Standardmäßig verschlüsselt Google Cloudinaktive Daten mit Google-owned and Google-managed encryption keys. Zum Schutz der Daten Ihrer Agents mit Verschlüsselungsschlüsseln, die Sie kontrollieren, können Sie CMEKs verwenden, die Sie in Cloud KMS erstellen und verwalten. Informationen zu Google Cloud -Diensten, die mit Cloud KMS kompatibel sind, finden Sie unter Kompatible Dienste.

Risiko einer Daten-Exfiltration minimieren: Um das Risiko einer Daten-Exfiltration zu verringern, erstellen Sie einen VPC Service Controls-Perimeter für die Infrastruktur. VPC Service Controls unterstützt alle Google Cloud -Dienste, die in dieser Referenzarchitektur verwendet werden.

Zugriffssteuerung: Wenn Sie Berechtigungen für die Ressourcen in Ihrer Topologie konfigurieren, halten Sie sich an das Prinzip der geringsten Berechtigung.

Sicherheit der Cloud-Umgebung: Mit den Tools im Security Command Center können Sie Sicherheitslücken erkennen, Bedrohungen identifizieren und abwehren, einen Sicherheitsstatus definieren und bereitstellen sowie Daten für die weitere Analyse exportieren.

Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, erhalten Sie mit Active Assist Empfehlungen zur weiteren Optimierung der Sicherheit. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Weitere Sicherheitsempfehlungen

Zuverlässigkeit

In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Erstellen und Betreiben einer zuverlässigen Infrastruktur für Ihre Bereitstellung in Google Cloudbeschrieben.

Komponente Designüberlegungen und Empfehlungen
Agent

Fehler simulieren: Bevor Sie das System mit agentenbasierter KI in der Produktion bereitstellen, sollten Sie es durch Simulation einer Produktionsumgebung validieren. Probleme und unerwartetes Verhalten erkennen und beheben

Horizontal skalieren: Um Hochverfügbarkeit und Fehlertoleranz zu gewährleisten, sollten Sie mehrere Instanzen Ihrer Agent-Anwendung hinter einem Load-Balancer ausführen. Dieser Ansatz kann auch dazu beitragen, Latenz und Zeitüberschreitungen zu reduzieren, indem Anfragen auf mehrere Instanzen verteilt werden. Bei einigen Agent-Laufzeiten wird das Load-Balancing automatisch für Sie übernommen, z. B. bei Autoscaling von Instanzen in Cloud Run-Diensten.

Wiederherstellung nach Ausfällen: Damit der Agent Neustarts problemlos verarbeiten und den Kontext beibehalten kann, sollten Sie den Status von der Laufzeit entkoppeln. Verwenden Sie für die Implementierung einer solchen zustandslosen Agent-Anwendung einen externen Datenspeicher wie eine Datenbank oder einen verteilten Cache. Sie können beispielsweise Memory Bank, Memorystore for Redis oder einen Datenbankdienst wie Cloud SQL verwenden.

Fehlerbehandlung: Implementieren Sie Protokollierungs-, Ausnahmebehandlungs- und Wiederholungsmechanismen, um Fehler zu diagnostizieren und zu beheben.

Vertex AI

Kontingentverwaltung: Vertex AI unterstützt dynamische gemeinsame Kontingente (Dynamic Shared Quota, DSQ) für Gemini-Modelle. Mit DSQ lassen sich Pay-as-you-go-Anfragen flexibel verwalten. Außerdem müssen Sie das Kontingent nicht mehr manuell verwalten oder Kontingenterhöhungen anfordern. DSQ weist die verfügbaren Ressourcen für ein bestimmtes Modell und eine bestimmte Region dynamisch auf aktive Kunden auf. Bei DSQ gibt es keine vordefinierten Kontingentlimits für einzelne Kunden.

Kapazitätsplanung: Wenn die Anzahl der Anfragen an das Modell die zugewiesene Kapazität überschreitet, wird der Fehlercode 429 zurückgegeben. Für geschäftskritische Arbeitslasten, die einen konstant hohen Durchsatz erfordern, können Sie den Durchsatz mit Provisioned Throughput reservieren.

Verfügbarkeit von Modellendpunkten: Wenn Daten in mehreren Regionen oder Ländern freigegeben werden können, können Sie einen globalen Endpunkt für das Modell verwenden.

Cloud Run

Robustheit bei Infrastrukturausfällen: Cloud Run ist ein regionaler Dienst. Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert und der Traffic wird automatisch auf die Zonen verteilt. Wenn ein Zonenausfall auftritt, wird Cloud Run weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, wird der Dienst so lange ausgeführt, bis Google den Ausfall behoben hat.

Horizontale Skalierung: Cloud Run-Dienste übernehmen das Autoscaling von Instanzen für Sie. Autoscaling trägt dazu bei, dass Instanzen alle eingehenden Anfragen, Ereignisse und die CPU-Auslastung verarbeiten können, die für eine hohe Verfügbarkeit erforderlich sind.

Alle Produkte in der Architektur

Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, erhalten Sie mit Active Assist Empfehlungen zur weiteren Optimierung der Sicherheit. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Zuverlässigkeitsprinzipien und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Zuverlässigkeit.

Vorgänge

In diesem Abschnitt werden die Faktoren beschrieben, die Sie bei der Verwendung dieser Referenzarchitektur zum Entwerfen einer Google Cloud Topologie berücksichtigen sollten, die Sie effizient betreiben können.

Komponente Designüberlegungen und Empfehlungen
Agent

Debugging und Analyse: Implementieren Sie strukturiertes Logging in Ihrer Agent-Anwendung. Mithilfe von Logging und Tracing können Sie wichtige Informationen in einem strukturierten Format erfassen, z. B. welche Tools aufgerufen wurden, die Ein- und Ausgaben des Agents und die Latenz jedes Schritts.

Vertex AI

Überwachung mit Logs: Standardmäßig werden Agent-Logs, die in die Streams stdout und stderr geschrieben werden, an Cloud Logging weitergeleitet. Für erweitertes Logging können Sie den Python-Logger in Logging einbinden. Wenn Sie die volle Kontrolle über das Logging und strukturierte Logs benötigen, verwenden Sie den Logging-Client. Weitere Informationen finden Sie unter Agent protokollieren und Im ADK anmelden.

Kontinuierliche Bewertung: Führen Sie regelmäßig eine qualitative Bewertung der Ausgabe der Agents und des Pfads oder der Schritte durch, die die Agents zur Erstellung der Ausgabe ausgeführt haben. Zur Implementierung der Agentenbewertung können Sie den Gen AI Evaluation Service oder die von ADK unterstützten Bewertungsmethoden verwenden.

Cloud Run

Zustand und Leistung: Überwachen Sie Ihre Cloud Run-Dienste mit Google Cloud Observability. Richten Sie Benachrichtigungen in Cloud Monitoring ein, um über potenzielle Probleme wie eine Zunahme der Fehlerraten, hohe Latenz oder eine ungewöhnliche Ressourcennutzung informiert zu werden.

Datenbanken

Zustand und Leistung: Sie können Ihre Datenbank mit Google Cloud Observability überwachen. Richten Sie Benachrichtigungen in Monitoring ein, um über potenzielle Probleme wie eine erhöhte Fehlerrate, eine hohe Latenz oder eine ungewöhnliche Ressourcennutzung informiert zu werden.

MCP

Datenbanktools: Wenn Sie Datenbanktools für Ihre KI-Agents effizient verwalten und dafür sorgen möchten, dass die Agents Komplexitäten wie Connection Pooling und Authentifizierung sicher verarbeiten, verwenden Sie die MCP Toolbox für Datenbanken. Es bietet einen zentralen Ort zum Speichern und Aktualisieren von Datenbanktools. Sie können die Tools für mehrere Agents freigeben und aktualisieren, ohne die Agents neu bereitzustellen. Die Toolbox enthält eine Vielzahl von Tools für Google Cloud -Datenbanken wie AlloyDB for PostgreSQL und für Drittanbieterdatenbanken wie MongoDB.

Modelle für generative KI: Damit KI-Agents generative KI-Modelle von Google wie Imagen und Veo verwenden können, können Sie MCP-Server für Google Cloud APIs für generative Medien nutzen.

Google-Sicherheitsprodukte und ‑tools: Damit Ihre KI-Agents auf Google-Sicherheitsprodukte und ‑tools wie Google Security Operations, Google Threat Intelligence und Security Command Center zugreifen können, verwenden Sie MCP-Server für Google-Sicherheitsprodukte.

Alle Google Cloud Produkte in der Architektur

Tracing: Mit Trace werden kontinuierlich Trace-Daten erfasst und analysiert. Mit Trace-Daten können Sie Latenzprobleme in komplexen Agent-Workflows schnell erkennen und diagnostizieren. Sie können detaillierte Analysen mithilfe von Visualisierungen auf der Seite „Trace Explorer“ in der Google Cloud Console durchführen. Weitere Informationen finden Sie unter Agent-Ablauf nachvollziehen.

Prinzipien und Empfehlungen für operative Exzellenz, die speziell für KI- und ML-Arbeitslasten gelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Operative Exzellenz.

Kostenoptimierung

Dieser Abschnitt enthält Anleitungen zur Optimierung der Kosten für die Einrichtung und den Betrieb einer Google Cloud Topologie, die Sie mithilfe dieser Referenzarchitektur erstellen.

Komponente Designüberlegungen und Empfehlungen
Vertex AI

Kostenanalyse und ‑verwaltung: Um die Kosten für Vertex AI zu analysieren und zu verwalten, empfehlen wir, Baseline-Messwerte für Abfragen pro Sekunde (QPS) und Tokens pro Sekunde (TPS) zu erstellen. Behalten Sie diese Messwerte nach der Bereitstellung im Blick. Die Baseline hilft auch bei der Kapazitätsplanung. Anhand der Baseline können Sie beispielsweise ermitteln, wann Provisioned Throughput erforderlich ist.

Modellauswahl: Das Modell, das Sie für Ihre KI-Anwendung auswählen, wirkt sich direkt auf Kosten und Leistung aus. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Verhältnis zwischen Leistung und Kosten bietet, testen Sie die Modelle iterativ. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach leistungsstärkere Optionen zu nutzen.

Kostengünstige Prompts: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design.

Kontext-Caching: Um die Kosten für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching.

Batchanfragen: Erwägen Sie gegebenenfalls Batchvorhersagen. Batchanfragen sind günstiger als Standardanfragen.

Cloud Run

Ressourcenzuweisung: Wenn Sie einen Cloud Run-Dienst erstellen, können Sie die Größe des Arbeitsspeichers und die CPU angeben, die zugewiesen werden sollen. Beginnen Sie mit den standardmäßigen CPU- und Arbeitsspeicherzuweisungen. Beobachten Sie die Ressourcennutzung und die Kosten im Zeitverlauf und passen Sie die Zuweisung bei Bedarf an. Weitere Informationen finden Sie in der folgenden Dokumentation:

Ratenoptimierung: Wenn Sie die CPU- und Arbeitsspeicheranforderungen vorhersagen können, können Sie mit Rabatten für zugesicherte Nutzung Geld sparen.

Alle Produkte in der Architektur Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Kostenoptimierung erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Mit dem Google Cloud Preisrechner können Sie die Kosten für Ihre Google Cloud -Ressourcen schätzen.

Kostenoptimierungsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Kostenoptimierung.

Leistungsoptimierung

In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Entwerfen einer Topologie in Google Cloud beschrieben, die die Leistungsanforderungen Ihrer Arbeitslasten erfüllt.

Komponente Designüberlegungen und Empfehlungen
Agents

Modellauswahl: Wenn Sie Modelle für Ihr agentisches KI-System auswählen, sollten Sie die Funktionen berücksichtigen, die für die Aufgaben erforderlich sind, die die Agents ausführen müssen.

Prompt-Optimierung: Mit dem Vertex AI Prompt Optimizer können Sie die Leistung von Prompts schnell und in großem Umfang verbessern und optimieren, ohne dass manuelles Umschreiben erforderlich ist. Mit dem Optimierungstool können Sie Prompts effizient an verschiedene Modelle anpassen.

Vertex AI

Modellauswahl: Das Modell, das Sie für Ihre KI-Anwendung auswählen, wirkt sich direkt auf Kosten und Leistung aus. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Verhältnis zwischen Leistung und Kosten bietet, testen Sie die Modelle iterativ. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach leistungsstärkere Optionen zu nutzen.

Prompt-Engineering: Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts, die kurz und direkt sind und ausreichend Kontext liefern. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design.

Kontext-Caching: Um die Latenz für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching.

Cloud Run

Ressourcenzuweisung: Konfigurieren Sie den Arbeitsspeicher und die CPU, die dem Cloud Run-Dienst zugewiesen werden sollen, entsprechend Ihren Leistungsanforderungen. Weitere Informationen finden Sie in der folgenden Dokumentation:

Weitere Informationen zur Leistungsoptimierung finden Sie unter Allgemeine Entwicklungstipps für Cloud Run.

Alle Produkte in der Architektur Optimierung nach der Bereitstellung: Nachdem Sie Ihre Anwendung in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen zur weiteren Leistungsoptimierung erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen in Active Assist finden.

Grundsätze und Empfehlungen zur Leistungsoptimierung, die speziell für KI- und ML-Arbeitslasten gelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Leistungsoptimierung.

Bereitstellung

Die automatisierte Bereitstellung für diese Referenzarchitektur ist nicht verfügbar. Die folgenden Codebeispiele können Ihnen beim Erstellen einer Architektur mit einem einzelnen Agenten helfen:

Codebeispiele für den Einstieg in die Verwendung des ADK zusammen mit MCP-Servern finden Sie unter MCP-Tools.

Beispiele für zusätzliche KI-Systeme mit einem einzelnen Agenten finden Sie in den folgenden Codebeispielen. Diese Codebeispiele sind voll funktionsfähige Ausgangspunkte für das Lernen und Experimentieren. Für einen optimalen Betrieb in Produktionsumgebungen müssen Sie den Code an Ihre spezifischen geschäftlichen und technischen Anforderungen anpassen.

  • Personalisiertes Shopping: Personalisierte Produktempfehlungen für eine bestimmte Marke, einen bestimmten Händler oder einen bestimmten Online-Marktplatz bereitstellen.
  • Vorfallmanagement: Validieren Sie das Endnutzertoken und die Identität pro Anfrage mithilfe der dynamischen Identitätsübertragung.
  • Auftragsbearbeitung: Aufträge verarbeiten und speichern sowie E‑Mail-Bestätigungen mit einer bedingten manuellen Überprüfung für bestimmte Bestellmengen koordinieren.
  • Data Engineering: Dataform-Pipelines entwickeln, Probleme mit Pipelines beheben und Data Engineering von komplexen SQL-Abfragen bis hin zu Datentransformationen und Datenabhängigkeiten verwalten.
  • Dokumentabruf: Verwenden Sie RAG, um Dokumente abzufragen, die Sie in die Vertex AI-RAG-Engine hochladen, und Antworten mit Zitaten aus Dokumentation und Code zu erhalten.

Nächste Schritte

Beitragende