Premiers pas avec l'API Live à l'aide de l'ADK

Ce tutoriel vous explique comment créer un agent et utiliser le kit de développement d'agent (ADK) Streaming pour activer la communication vocale et vidéo. Vous installez l'ADK, configurez un agent de base qui utilise la recherche Google et exécutez l'agent avec l'outil adk web.

Avant de commencer

Ce guide suppose que vous avez déjà utilisé un terminal dans des environnements Windows, macOS ou Linux.

Configurer votre environnement et installer l'ADK

Cette section vous explique comment préparer votre environnement local.

Créez et activez un environnement virtuel. L'utilisation d'un environnement virtuel est une pratique recommandée.

# Create the environment
python -m venv .venv

# Activate the environment in each new terminal
# For macOS or Linux:
source .venv/bin/activate
# For Windows CMD:
.venv\Scripts\activate.bat
# For Windows PowerShell:
.venv\Scripts\Activate.ps1

Installez l'ADK.
```
pip install google-adk
```

Créer la structure du projet

Créez les répertoires et les fichiers nécessaires pour votre agent.

Créez la structure de dossiers suivante avec des fichiers vides :

Ajoutez le code suivant au fichier app/google_search_agent/agent.py. Ce fichier définit la logique de votre agent. Vous devez définir un root_agent. Dans le code suivant, mettez à jour le champ model avec le nom d'un modèle compatible.

from google.adk.agents import Agent
from google.adk.tools import google_search  # Import the tool

root_agent = Agent(
  # A unique name for the agent.
  name="basic_search_agent",
  # The Large Language Model (LLM) that agent will use.
  # Please fill in the latest model id that supports live from
  # https://google.github.io/adk-docs/get-started/streaming/quickstart-streaming/#supported-models
  model="...",  # for example: model="gemini-live-2.5-flash-preview-native-audio-09-2025"
  # A short description of the agent's purpose.
  description="Agent to answer questions using Google Search.",
  # Instructions to set the agent's behavior.
  instruction="You are an expert researcher. You always stick to the facts.",
  # Add google_search tool to perform grounding with Google search.
  tools=[google_search]
)

Ajoutez le code suivant au fichier app/google_search_agent/__init__.py :
```
from . import agent
```

Configurer la plate-forme

Pour exécuter l'agent, configurez-le pour qu'il utilise Google Cloud Vertex AI.

Ouvrez le fichier .env situé dans le répertoire app/.
Ajoutez le contenu suivant au fichier. Remplacez PROJECT_ID par l'ID de votre projet Google Cloud et LOCATION par votre emplacement Google Cloud .
```
GOOGLE_CLOUD_PROJECT=PROJECT_ID
GOOGLE_CLOUD_LOCATION=LOCATION
GOOGLE_GENAI_USE_VERTEXAI=True
```

Exécuter l'agent avec l'UI de développement

Lancez l'interface utilisateur de développement pour interagir avec votre agent.

Remplacez votre répertoire actuel par app.
```
cd app
```
Définissez la variable d'environnement SSL_CERT_FILE. Cette étape est obligatoire pour les tests audio et vidéo.
macOS/Linux
```
export SSL_CERT_FILE=$(python -m certifi)
    
```
Windows
```
$env:SSL_CERT_FILE = (python -m certifi)
    
```
Exécutez l'UI de développement.
```
adk web
```
Remarque : Si vous utilisez Windows et que vous rencontrez une erreur NotImplementedError, exécutez plutôt adk web --no-reload.
Ouvrez l'URL fournie dans le terminal, qui est généralement http://localhost:8000 ou http://127.0.0.1:8000.
Sélectionnez google_search_agent.

Le schéma suivant montre comment l'entrée utilisateur est transmise à l'agent, comment l'agent utilise l'outil Recherche Google et comment il renvoie une réponse :

Interagir avec l'agent

Une fois l'UI de développement lancée, vous pouvez interagir avec votre agent à l'aide de texte, de la voix ou d'une vidéo.

Utiliser la saisie de texte

Saisissez les requêtes suivantes dans l'UI pour tester les réponses textuelles de l'agent. L'agent utilise l'outil google_search pour obtenir les dernières informations et répondre à ces questions.

Quel temps fait-il à New York ?
Quelle heure est-il à New York ?
Quel temps fait-il à Paris ?
Quelle heure est-il à Paris ?

Utiliser la saisie vocale et vidéo

Pour utiliser la saisie vocale, rechargez le navigateur Web et cliquez sur le bouton du micro. Posez une question et obtenez la réponse en temps réel.

Pour utiliser l'entrée vidéo, rechargez le navigateur Web et cliquez sur le bouton de la caméra. Posez une question du type "Que vois-tu ?", et l'agent décrit ce qu'il voit à partir de l'entrée vidéo.

Arrêter l'UI de développement

Pour arrêter l'outil adk web, appuyez sur Ctrl+C dans le terminal où il est exécuté.

Étapes suivantes

Pour en savoir plus sur le développement d'API Live à l'aide de l'ADK, consultez la documentation de l'ADK.
Consultez la démonstration de streaming bidirectionnel.
Faites vos premiers pas avec le SDK Gen AI.
Premiers pas avec WebSockets
Découvrez comment configurer la langue et la voix.
Découvrez comment configurer les fonctionnalités Gemini.
Découvrez les bonnes pratiques concernant l'API Gemini Live.