Erste Schritte mit der Live API mit dem ADK

In dieser Anleitung erfahren Sie, wie Sie einen Agent erstellen und das ADK-Streaming (Agent Development Kit) verwenden, um Sprach- und Videokommunikation zu ermöglichen. Sie installieren das ADK, richten einen einfachen Agenten ein, der die Google Suche verwendet, und führen den Agenten mit dem adk web-Tool aus.

Hinweise

In dieser Anleitung wird davon ausgegangen, dass Sie Erfahrung mit der Verwendung eines Terminals in Windows-, macOS- oder Linux-Umgebungen haben.

Umgebung einrichten und ADK installieren

In diesem Abschnitt erfahren Sie, wie Sie Ihre lokale Umgebung vorbereiten.

Erstellen und aktivieren Sie eine virtuelle Umgebung. Die Verwendung einer virtuellen Umgebung wird empfohlen.

# Create the environment
python -m venv .venv

# Activate the environment in each new terminal
# For macOS or Linux:
source .venv/bin/activate
# For Windows CMD:
.venv\Scripts\activate.bat
# For Windows PowerShell:
.venv\Scripts\Activate.ps1

Installieren Sie das ADK.
```
pip install google-adk
```

Projektstruktur erstellen

Erstellen Sie die erforderlichen Verzeichnisse und Dateien für Ihren Agent.

Erstellen Sie die folgende Ordnerstruktur mit leeren Dateien:

Fügen Sie der app/google_search_agent/agent.py-Datei den folgenden Code hinzu. In dieser Datei wird die Logik Ihres Agenten definiert. Sie müssen ein root_agent definieren. Aktualisieren Sie im folgenden Code das Feld model mit einem unterstützten Modellnamen.

from google.adk.agents import Agent
from google.adk.tools import google_search  # Import the tool

root_agent = Agent(
  # A unique name for the agent.
  name="basic_search_agent",
  # The Large Language Model (LLM) that agent will use.
  # Please fill in the latest model id that supports live from
  # https://google.github.io/adk-docs/get-started/streaming/quickstart-streaming/#supported-models
  model="...",  # for example: model="gemini-live-2.5-flash-preview-native-audio-09-2025"
  # A short description of the agent's purpose.
  description="Agent to answer questions using Google Search.",
  # Instructions to set the agent's behavior.
  instruction="You are an expert researcher. You always stick to the facts.",
  # Add google_search tool to perform grounding with Google search.
  tools=[google_search]
)

Fügen Sie folgenden Code in die app/google_search_agent/__init__.py-Datei ein.
```
from . import agent
```

Plattform einrichten

Damit der Agent ausgeführt werden kann, müssen Sie ihn für die Verwendung von Google Cloud Vertex AI konfigurieren.

Öffnen Sie die Datei .env im Verzeichnis app/.
Fügen Sie der Datei den folgenden Inhalt hinzu. Ersetzen Sie PROJECT_ID durch Ihre Google Cloud Projekt-ID und LOCATION durch Ihren Google Cloud Standort.
```
GOOGLE_CLOUD_PROJECT=PROJECT_ID
GOOGLE_CLOUD_LOCATION=LOCATION
GOOGLE_GENAI_USE_VERTEXAI=True
```

Agenten über die Entwicklungs-UI ausführen

Starten Sie die Entwicklungsoberfläche, um mit Ihrem Agent zu interagieren.

Ändern Sie Ihr aktuelles Verzeichnis in app.
```
cd app
```
Legen Sie die Umgebungsvariable SSL_CERT_FILE fest. Dieser Schritt ist für Sprach- und Videotests erforderlich.
macOS/Linux
```
export SSL_CERT_FILE=$(python -m certifi)
    
```
Windows
```
$env:SSL_CERT_FILE = (python -m certifi)
    
```
Führen Sie die Entwicklungsoberfläche aus.
```
adk web
```
Hinweis :Wenn Sie Windows verwenden und auf NotImplementedError stoßen, führen Sie stattdessen adk web --no-reload aus.
Öffnen Sie die im Terminal angegebene URL, die normalerweise http://localhost:8000 oder http://127.0.0.1:8000 lautet.
Wählen Sie google_search_agent aus.

Das folgende Diagramm zeigt, wie Nutzereingaben an den Agenten weitergeleitet werden, wie der Agent das Google Suche-Tool verwendet und wie der Agent eine Antwort zurückgibt:

Mit dem Agent interagieren

Nachdem Sie die Entwickler-UI gestartet haben, können Sie über Text, Sprache oder Video mit Ihrem Agenten interagieren.

Texteingabe verwenden

Geben Sie die folgenden Prompts in die Benutzeroberfläche ein, um die textbasierten Antworten des Agents zu testen. Der Agent verwendet das Tool google_search, um die neuesten Informationen zu erhalten, mit denen er diese Fragen beantworten kann.

Wie ist das Wetter in New York?
Wie spät ist es in New York?
Wie ist das Wetter in Paris?
Wie spät ist es in Paris?

Sprach- und Videoeingabe verwenden

Wenn Sie die Spracheingabe verwenden möchten, laden Sie den Webbrowser neu und klicken Sie auf die Mikrofontaste. Stellen Sie eine Frage und hören Sie die Antwort in Echtzeit.

Wenn Sie die Videoeingabe verwenden möchten, laden Sie den Webbrowser neu und klicken Sie auf die Schaltfläche für die Kamera. Stelle eine Frage wie „Was siehst du?“ und der Agent beschreibt, was er anhand des Video-Inputs sieht.

Entwicklungsoberfläche beenden

Drücken Sie im Terminal, in dem das Tool ausgeführt wird, Ctrl+C, um das Tool adk web zu beenden.

Nächste Schritte

Weitere Informationen zur Entwicklung von Live-APIs mit dem ADK finden Sie in der ADK-Dokumentation.
Demo für bidirektionales Streaming
Erste Schritte mit dem Gen AI SDK
Erste Schritte mit WebSockets
Informationen zum Konfigurieren von Sprache und Stimme
Informationen zum Konfigurieren von Gemini-Funktionen
Best Practices für die Gemini Live API