Diese Seite wurde von der Cloud Translation API übersetzt.

Agentenbasierte KI-Anwendung mit dem Agent Development Kit (ADK) und einem selbst gehosteten LLM in GKE bereitstellen

Autopilot Standard

In dieser Anleitung wird gezeigt, wie Sie containerisierte agentenbasierte KI-/ML-Anwendungen mit Google Kubernetes Engine (GKE) bereitstellen und verwalten. Durch die Kombination des Google Agent Development Kit (ADK) mit einem selbst gehosteten Large Language Model (LLM) wie Llama 3.1, das von vLLM bereitgestellt wird, können Sie KI-Agenten effizient und in großem Umfang operationalisieren und gleichzeitig die volle Kontrolle über den Modell-Stack behalten. In dieser Anleitung wird der gesamte Prozess durchlaufen, um einen Python-basierten Agenten von der Entwicklung bis zur Produktionsbereitstellung in einem GKE Autopilot-Cluster mit GPU-Beschleunigung zu bringen.

Diese Anleitung richtet sich an ML-Entwickler, Entwickler und Cloud-Architekten, die daran interessiert sind, Kubernetes-Container-Orchestrierungsfunktionen zum Bereitstellen von agentischen KI-/ML-Anwendungen zu nutzen. Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir in Google Cloud-Inhalten verweisen, finden Sie unter Häufig verwendete GKE Enterprise-Nutzerrollen und -Aufgaben.

Machen Sie sich vorher mit folgenden Punkten vertraut:

Hintergrund

In diesem Abschnitt werden die in dieser Anleitung verwendeten Schlüsseltechnologien beschrieben.

Agent Development Kit (ADK)

Das Agent Development Kit (ADK) ist ein flexibles und modulares Framework zum Entwickeln und Bereitstellen von KI-Agenten. Das ADK ist zwar für Gemini und das Google-Ökosystem optimiert, erfordert aber nicht, dass Sie ein bestimmtes Modell oder eine bestimmte Bereitstellung verwenden. Es ist für die Kompatibilität mit anderen Frameworks konzipiert. Das ADK wurde entwickelt, um die Entwicklung von Agenten an die Softwareentwicklung anzunähern und Entwicklern die Erstellung, Bereitstellung und Orchestrierung von Agentenarchitekturen zu erleichtern, die von einfachen Aufgaben bis hin zu komplexen Workflows reichen.

Weitere Informationen finden Sie in der ADK-Dokumentation.

Verwalteter Kubernetes-Dienst von GKE

Google Cloud bietet eine Reihe von Diensten, darunter GKE, der sich gut für die Bereitstellung und Verwaltung von KI-/ML-Arbeitslasten eignet. GKE ist ein verwalteter Kubernetes-Dienst, der die Bereitstellung, Skalierung und Verwaltung von Containeranwendungen vereinfacht. GKE bietet die erforderliche Infrastruktur, einschließlich skalierbarer Ressourcen, verteiltes Computing und effiziente Netzwerke, um die Rechenanforderungen von LLMs zu bewältigen.

Weitere Informationen zu wichtigen Kubernetes-Konzepten finden Sie unter Kubernetes lernen. Weitere Informationen zu GKE und dazu, wie Sie damit Kubernetes skalieren, automatisieren und verwalten können, finden Sie in der GKE-Übersicht.

vLLM

vLLM ist ein hoch optimiertes Open-Source-LLM-Bereitstellungs-Framework, das den Bereitstellungsdurchsatz auf GPUs über Funktionen wie die Folgenden beschleunigen kann:

Optimierte Transformer-Implementierung mit PagedAttention.
Kontinuierliche Batchverarbeitung zur Verbesserung des allgemeinen Bereitstellungsdurchsatzes.
Tensor-Parallelität und verteilte Bereitstellung auf mehreren GPUs.

Weitere Informationen finden Sie in der vLLM-Dokumentation.

Ziele

In dieser Anleitung wird Folgendes beschrieben:

Richten Sie Ihre Google Cloud Umgebung ein.
Stellen Sie einen GPU-fähigen GKE-Cluster bereit.
Ein Llama 3.1-Modell mit dem vLLM-Inferenzserver bereitstellen.
Erstellen Sie ein Container-Image für Ihren ADK-basierten Agent.
Stellen Sie den Agent im GKE-Cluster bereit und verbinden Sie ihn mit dem selbst gehosteten LLM.
Testen Sie den bereitgestellten Agent.

Architektur

In dieser Anleitung wird eine skalierbare Architektur für die Bereitstellung von Anwendungen mit KI-Agenten in GKE vorgestellt. Die ADK-Agent-Anwendung wird in einem Standard-CPU-Knotenpool und das selbst gehostete LLM (Llama 3.1 auf vLLM) in einem GPU-fähigen Knotenpool ausgeführt. Beide befinden sich im selben GKE-Cluster. Bei dieser Architektur wird die Anwendungslogik des KI-Agenten von der LLM-Inferenz-Arbeitslast getrennt, sodass jede Komponente unabhängig skaliert und verwaltet werden kann.

Die Architektur hat zwei Kernkomponenten, die jeweils in einem eigenen GKE-Deployment enthalten sind:

ADK-Agent-Anwendung: Die benutzerdefinierte Geschäftslogik und die Tools Ihres Agents (z. B. get_weather) befinden sich in einem Container-Image. Das Image wird in einem Standard-CPU-Knotenpool ausgeführt und kommuniziert über einen internen Kubernetes-Dienst mit dem LLM.
Selbst gehostetes LLM (Llama 3.1 auf vLLM): Das Modell Llama 3.1 wird auf einem dedizierten vLLM-Server in einem GPU-fähigen Knotenpool ausgeführt. Bei dieser Bereitstellung wird ein öffentliches Container-Image (vllm/vllm-openai:v0.8.5) verwendet, das so konfiguriert ist, dass das angegebene Modell von Hugging Face heruntergeladen und bereitgestellt wird, wenn der Container gestartet wird. Der Agent kommuniziert mit diesem Server über eine REST API, die vom vllm-llama3-service-Kubernetes-Dienst bereitgestellt wird.

Sowohl der ADK-Agent als auch die vLLM-Bereitstellungen werden im selben GKE-Cluster ausgeführt. Diese Colocation in einem einzelnen Cluster vereinfacht die Vernetzung, Verwaltung und Bereitstellung und ermöglicht gleichzeitig die Zuweisung spezialisierter Hardware für Komponenten der Anwendung.

Kosten

In dieser Anleitung werden die folgenden kostenpflichtigen Komponenten von Google Cloudverwendet:

Sehen Sie sich die Preise für die einzelnen Dienste an, um potenzielle Kosten nachzuvollziehen.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin, roles/cloudbuild.builds.editor, roles/resourcemanager.projectIamAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  IAM aufrufen
2. Wählen Sie das Projekt aus.
3. Klicken Sie auf Zugriffsrechte erteilen.
4. Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Das ist in der Regel die E‑Mail-Adresse eines Google-Kontos.
5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
6. Klicken Sie auf Weitere Rolle hinzufügen, wenn Sie weitere Rollen zuweisen möchten.
7. Klicken Sie auf Speichern.
8. Leseberechtigungs-Token von Hugging Face abrufen, um das Llama-Modell herunterzuladen. Außerdem müssen Sie Zugriff auf das Llama 3.1-Modell anfordern.

Agentenbasierte KI-Anwendung mit dem Agent Development Kit (ADK) und einem selbst gehosteten LLM in GKE bereitstellen

Hintergrund

Agent Development Kit (ADK)

Verwalteter Kubernetes-Dienst von GKE

vLLM

Ziele

Architektur

Kosten

Hinweise

Check for the roles

Grant the roles

Umgebung vorbereiten

Beispielprojekt klonen

Google Cloud -Ressourcen erstellen und konfigurieren

gcloud

Autopilot

Standard

Terraform

`kubectl` für die Kommunikation mit Ihrem Cluster konfigurieren

Agent-Image erstellen

Modell bereitstellen

Agent-Anwendung bereitstellen

Bereitgestellten Agent testen

Bereinigen

Bereitgestellte Ressourcen löschen

gcloud

Terraform

Nächste Schritte

Agentenbasierte KI-Anwendung mit dem Agent Development Kit (ADK) und einem selbst gehosteten LLM in GKE bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hintergrund

Agent Development Kit (ADK)

Verwalteter Kubernetes-Dienst von GKE

vLLM

Ziele

Architektur

Kosten

Hinweise

Check for the roles

Grant the roles

Umgebung vorbereiten

Beispielprojekt klonen

Google Cloud -Ressourcen erstellen und konfigurieren

gcloud

Autopilot

Standard

Terraform

kubectl für die Kommunikation mit Ihrem Cluster konfigurieren

Agent-Image erstellen

Modell bereitstellen

Agent-Anwendung bereitstellen

Bereitgestellten Agent testen

Bereinigen

Bereitgestellte Ressourcen löschen

gcloud

Terraform

Nächste Schritte

Agentenbasierte KI-Anwendung mit dem Agent Development Kit (ADK) und einem selbst gehosteten LLM in GKE bereitstellen

`kubectl` für die Kommunikation mit Ihrem Cluster konfigurieren