Erste Schritte mit der Gemini Live API mit dem ADK

In dieser Anleitung erfahren Sie, wie Sie einen Agenten erstellen und das Agent Development Kit (ADK) Streaming verwenden, um Sprach- und Videokommunikation zu ermöglichen. Sie installieren das ADK, richten einen einfachen Agenten ein, der die Google-Suche verwendet, und führen den Agenten mit dem adk web Tool aus.

Hinweis

In dieser Anleitung wird davon ausgegangen, dass Sie mit der Verwendung eines Terminals in Windows-, macOS- oder Linux-Umgebungen vertraut sind.

Umgebung einrichten und ADK installieren

In diesem Abschnitt erfahren Sie, wie Sie Ihre lokale Umgebung vorbereiten.

  1. Erstellen und aktivieren Sie eine virtuelle Umgebung. Die Verwendung einer virtuellen Umgebung wird empfohlen.

    # Create the environment
    python -m venv .venv
    
    # Activate the environment in each new terminal
    # For macOS or Linux:
    source .venv/bin/activate
    # For Windows CMD:
    .venv\Scripts\activate.bat
    # For Windows PowerShell:
    .venv\Scripts\Activate.ps1
    
  2. Installieren Sie das ADK.

    pip install google-adk
    

Projektstruktur erstellen

Erstellen Sie die erforderlichen Verzeichnisse und Dateien für Ihren Agenten.

  1. Erstellen Sie die folgende Ordnerstruktur mit leeren Dateien:

    Diagramm der Projektstruktur: Der Ordner „adk-streaming“ enthält den Ordner „app“, der die Datei „.env“ und den Ordner „google_search_agent“ enthält. Dieser Ordner enthält die Dateien „__init__.py“ und „agent.py“.

  2. Fügen Sie der Datei app/google_search_agent/agent.py den folgenden Code hinzu. In dieser Datei ist die Logik Ihres Agenten definiert. Sie müssen einen root_agent definieren. Aktualisieren Sie im folgenden Code das Feld model mit einem unterstützten Modellnamen.

    from google.adk.agents import Agent
    from google.adk.tools import google_search  # Import the tool
    
    root_agent = Agent(
      # A unique name for the agent.
      name="basic_search_agent",
      # The Large Language Model (LLM) that agent will use.
      # Please fill in the latest model id that supports live from
      # https://google.github.io/adk-docs/get-started/streaming/quickstart-streaming/#supported-models
      model="...",  # for example: model="gemini-live-2.5-flash-native-audio"
      # A short description of the agent's purpose.
      description="Agent to answer questions using Google Search.",
      # Instructions to set the agent's behavior.
      instruction="You are an expert researcher. You always stick to the facts.",
      # Add google_search tool to perform grounding with Google search.
      tools=[google_search]
    )
    
  3. Fügen Sie der Datei app/google_search_agent/__init__.py den folgenden Code hinzu:

    from . import agent
    

Plattform einrichten

Konfigurieren Sie den Agenten so, dass er die Google Cloud Gemini Enterprise Agent Platform verwendet, um ihn auszuführen.

  1. Öffnen Sie die Datei .env im Verzeichnis app/.

  2. Fügen Sie der Datei den folgenden Inhalt hinzu. Ersetzen Sie PROJECT_ID durch Ihre Google Cloud Projekt-ID und ersetzen Sie LOCATION durch Ihren Google Cloud Standort.

    GOOGLE_CLOUD_PROJECT=PROJECT_ID
    GOOGLE_CLOUD_LOCATION=LOCATION
    GOOGLE_GENAI_USE_ENTERPRISE=True
    

Agenten mit der Entwicklungsoberfläche ausführen

Starten Sie die Entwicklungsoberfläche, um mit Ihrem Agenten zu interagieren.

  1. Ändern Sie das aktuelle Verzeichnis in app.

    cd app
    
  2. Legen Sie die Umgebungsvariable SSL_CERT_FILE fest. Dieser Schritt ist für Sprach- und Videotests erforderlich.

    macOS/Linux

    export SSL_CERT_FILE=$(python -m certifi)
        

    Windows

    $env:SSL_CERT_FILE = (python -m certifi)
        
  3. Führen Sie die Entwicklungsoberfläche aus.

    adk web
    
  4. Öffnen Sie die im Terminal angegebene URL, in der Regel http://localhost:8000 oder http://127.0.0.1:8000.

  5. Wählen Sie google_search_agent aus.

Das folgende Diagramm zeigt, wie die Nutzereingabe an den Agenten weitergeleitet wird, wie der Agent das Google-Suchtool verwendet und wie der Agent eine Antwort zurückgibt:

Diagramm, das zeigt, wie die Nutzereingabe an den Agenten gesendet wird, der Agent das Google-Suchtool verwendet, um Informationen abzurufen, und der Agent eine Antwort an den Nutzer zurückgibt.

Mit dem Agenten interagieren

Nachdem Sie die Entwicklungsoberfläche gestartet haben, können Sie über Text, Sprache oder Video mit Ihrem Agenten interagieren.

Texteingabe verwenden

Geben Sie die folgenden Prompts in die Benutzeroberfläche ein, um die textbasierten Antworten des Agenten zu testen. Der Agent verwendet das Tool google_search, um die neuesten Informationen zu erhalten, um diese Fragen zu beantworten.

  • Wie ist das Wetter in New York?
  • Wie viel Uhr ist es in New York?
  • Wie ist das Wetter in Paris?
  • Wie viel Uhr ist es in Paris?

Sprach- und Videoeingabe verwenden

Wenn Sie die Spracheingabe verwenden möchten, laden Sie den Webbrowser neu und klicken Sie auf die Schaltfläche „Mikrofon“. Stellen Sie eine Frage und Sie hören die Antwort in Echtzeit.

Wenn Sie die Videoeingabe verwenden möchten, laden Sie den Webbrowser neu und klicken Sie auf die Schaltfläche „Kamera“. Stellen Sie eine Frage wie „Was sehen Sie?“ und der Agent beschreibt, was er in der Videoeingabe sieht.

Entwicklungsoberfläche beenden

Drücken Sie Ctrl+C im Terminal, in dem das Tool adk web ausgeführt wird, um es zu beenden.

Nächste Schritte