Premiers pas avec l'API Live à l'aide de l'ADK

Ce tutoriel vous explique comment créer un agent et utiliser le kit de développement d'agent (ADK) Streaming pour activer la communication vocale et vidéo. Vous installez l'ADK, configurez un agent de base qui utilise la recherche Google et exécutez l'agent avec l'outil adk web.

Avant de commencer

Ce guide suppose que vous avez de l'expérience dans l'utilisation d'un terminal dans les environnements Windows, macOS ou Linux.

Configurer votre environnement et installer l'ADK

Cette section explique comment préparer votre environnement local.

  1. Créez et activez un environnement virtuel. L'utilisation d'un environnement virtuel est une pratique recommandée.

    # Create the environment
    python -m venv .venv
    
    # Activate the environment in each new terminal
    # For macOS or Linux:
    source .venv/bin/activate
    # For Windows CMD:
    .venv\Scripts\activate.bat
    # For Windows PowerShell:
    .venv\Scripts\Activate.ps1
    
  2. Installez l'ADK.

    pip install google-adk
    

Créer la structure du projet

Créez les répertoires et les fichiers nécessaires pour votre agent.

  1. Créez la structure de dossiers suivante avec des fichiers vides :

    Diagramme de la structure du projet : le dossier "adk-streaming" contient le dossier "app", qui contient le fichier ".env" et le dossier "google_search_agent", qui contient les fichiers "__init__.py" et "agent.py".

  2. Ajoutez le code suivant au fichier app/google_search_agent/agent.py. Ce fichier définit la logique de votre agent. Vous devez définir un root_agent.

    from google.adk.agents import Agent
    from google.adk.tools import google_search  # Import the tool
    
    root_agent = Agent(
      # A unique name for the agent.
      name="basic_search_agent",
      # The Large Language Model (LLM) that agent will use.
      # Please fill in the latest model id that supports live from
      # https://google.github.io/adk-docs/get-started/streaming/quickstart-streaming/#supported-models
      model="...",  # for example: model="gemini-live-2.5-flash-preview-native-audio-09-2025"
      # A short description of the agent's purpose.
      description="Agent to answer questions using Google Search.",
      # Instructions to set the agent's behavior.
      instruction="You are an expert researcher. You always stick to the facts.",
      # Add google_search tool to perform grounding with Google search.
      tools=[google_search]
    )
    
  3. Ajoutez le code suivant au fichier app/google_search_agent/__init__.py :

    from . import agent
    

Configurer la plate-forme

Pour exécuter l'agent, configurez-le pour qu'il utilise Google Cloud Vertex AI.

  1. Ouvrez le fichier .env situé dans le répertoire app/.

  2. Ajoutez le contenu suivant au fichier. Remplacez PROJECT_ID par l'ID de votre projet Google Cloud et LOCATION par votre emplacement Google Cloud .

    GOOGLE_CLOUD_PROJECT=PROJECT_ID
    GOOGLE_CLOUD_LOCATION=LOCATION
    GOOGLE_GENAI_USE_VERTEXAI=True
    

Exécuter l'agent avec l'UI de développement

Lancez l'interface utilisateur de développement pour interagir avec votre agent.

  1. Remplacez votre répertoire actuel par app.

    cd app
    
  2. Définissez la variable d'environnement SSL_CERT_FILE. Cette étape est obligatoire pour les tests audio et vidéo.

    macOS/Linux

    export SSL_CERT_FILE=$(python -m certifi)
        

    Windows

    $env:SSL_CERT_FILE = (python -m certifi)
        
  3. Exécutez l'UI de développement.

    adk web
    
  4. Ouvrez l'URL fournie dans le terminal, qui est généralement http://localhost:8000 ou http://127.0.0.1:8000.

  5. Sélectionnez google_search_agent.

Le schéma suivant montre comment l'entrée utilisateur est transmise à l'agent, comment l'agent utilise l'outil Recherche Google et comment il renvoie une réponse :

Diagramme montrant l'entrée utilisateur envoyée à l'agent, l'agent utilisant l'outil Recherche Google pour obtenir des informations et l'agent renvoyant une réponse à l'utilisateur.

Interagir avec l'agent

Une fois l'UI de développement lancée, vous pouvez interagir avec votre agent à l'aide de texte, de commandes vocales ou de vidéos.

Utiliser la saisie de texte

Saisissez les requêtes suivantes dans l'UI pour tester les réponses textuelles de l'agent. L'agent utilise l'outil google_search pour obtenir les dernières informations et répondre à ces questions.

  • Quel temps fait-il à New York ?
  • Quelle heure est-il à New York ?
  • Quel temps fait-il à Paris ?
  • Quelle heure est-il à Paris ?

Utiliser la saisie vocale et vidéo

Pour utiliser la saisie vocale, rechargez le navigateur Web et cliquez sur le bouton du micro. Posez une question et écoutez la réponse en temps réel.

Pour utiliser l'entrée vidéo, rechargez le navigateur Web et cliquez sur le bouton de la caméra. Posez une question du type "Que vois-tu ?", et l'agent décrit ce qu'il voit à partir de l'entrée vidéo.

Arrêter l'UI de développement

Pour arrêter l'outil adk web, appuyez sur Ctrl+C dans le terminal où il est exécuté.

Étapes suivantes