Comienza a usar la API de Live con el ADK

En este instructivo, se muestra cómo crear un agente y usar el kit de desarrollo de agentes (ADK) Streaming para habilitar la comunicación por voz y video. Instalarás el ADK, configurarás un agente básico que use la Búsqueda de Google y ejecutarás el agente con la herramienta adk web.

Antes de comenzar

En esta guía, se supone que tienes experiencia en el uso de una terminal en entornos de Windows, macOS o Linux.

Configura tu entorno y, luego, instala el ADK

En esta sección, se muestra cómo preparar tu entorno local.

Crea y activa un entorno virtual. Se recomienda usar un entorno virtual.

# Create the environment
python -m venv .venv

# Activate the environment in each new terminal
# For macOS or Linux:
source .venv/bin/activate
# For Windows CMD:
.venv\Scripts\activate.bat
# For Windows PowerShell:
.venv\Scripts\Activate.ps1

Instala el ADK.
```
pip install google-adk
```

Crea la estructura del proyecto

Crea los directorios y archivos necesarios para tu agente.

Crea la siguiente estructura de carpetas con archivos vacíos:

Agrega el siguiente código al archivo app/google_search_agent/agent.py. Este archivo define la lógica de tu agente. Debes definir un root_agent. En el siguiente código, actualiza el campo model con el nombre de un modelo compatible.

from google.adk.agents import Agent
from google.adk.tools import google_search  # Import the tool

root_agent = Agent(
  # A unique name for the agent.
  name="basic_search_agent",
  # The Large Language Model (LLM) that agent will use.
  # Please fill in the latest model id that supports live from
  # https://google.github.io/adk-docs/get-started/streaming/quickstart-streaming/#supported-models
  model="...",  # for example: model="gemini-live-2.5-flash-preview-native-audio-09-2025"
  # A short description of the agent's purpose.
  description="Agent to answer questions using Google Search.",
  # Instructions to set the agent's behavior.
  instruction="You are an expert researcher. You always stick to the facts.",
  # Add google_search tool to perform grounding with Google search.
  tools=[google_search]
)

Agrega el siguiente código al archivo app/google_search_agent/__init__.py:
```
from . import agent
```

Configura la plataforma

Para ejecutar el agente, configúralo para que use Google Cloud Vertex AI.

Abre el archivo .env ubicado en el directorio app/.
Agrega el siguiente contenido al archivo. Reemplaza PROJECT_ID por el ID del proyecto de Google Cloud y LOCATION por la ubicación de Google Cloud .
```
GOOGLE_CLOUD_PROJECT=PROJECT_ID
GOOGLE_CLOUD_LOCATION=LOCATION
GOOGLE_GENAI_USE_VERTEXAI=True
```

Ejecuta el agente con la IU de desarrollo

Inicia la interfaz de usuario de desarrollo para interactuar con tu agente.

Cambia tu directorio actual a app.
```
cd app
```
Configura la variable de entorno SSL_CERT_FILE. Este paso es obligatorio para las pruebas de voz y video.
macOS/Linux
```
export SSL_CERT_FILE=$(python -m certifi)
    
```
Windows
```
$env:SSL_CERT_FILE = (python -m certifi)
    
```
Ejecuta la IU de desarrollo.
```
adk web
```
Nota: Si usas Windows y encuentras un NotImplementedError, ejecuta adk web --no-reload en su lugar.
Abre la URL que se proporciona en la terminal, que suele ser http://localhost:8000 o http://127.0.0.1:8000.
Selecciona google_search_agent.

En el siguiente diagrama, se muestra cómo el ingreso del usuario fluye hacia el agente, cómo el agente usa la herramienta de Búsqueda de Google y cómo el agente devuelve una respuesta:

Interactúa con el agente

Después de iniciar la IU para desarrolladores, puedes interactuar con tu agente usando texto, voz o video.

Cómo usar la entrada de texto

Ingresa las siguientes instrucciones en la IU para probar las respuestas basadas en texto del agente. El agente usa la herramienta google_search para obtener la información más reciente y responder estas preguntas.

¿Cómo está el tiempo en Nueva York?
¿Qué hora es en Nueva York?
¿Cómo está el tiempo en París?
¿Qué hora es en París?

Usar entrada de voz y video

Para usar la entrada de voz, vuelve a cargar el navegador web y haz clic en el botón de micrófono. Haz una pregunta y escucha la respuesta en tiempo real.

Para usar la entrada de video, vuelve a cargar el navegador web y haz clic en el botón de la cámara. Haz una pregunta como "¿Qué ves?", y el agente describirá lo que ve en la entrada de video.

Detén la IU de desarrollo

Para detener la herramienta adk web, presiona Ctrl+C en la terminal en la que se ejecuta.

¿Qué sigue?

Para obtener más información sobre el desarrollo de la API en vivo con el ADK, consulta la documentación del ADK.
Consulta la demostración de transmisión bidireccional.
Comienza a usar el SDK de IA generativa.
Comienza a usar WebSockets.
Obtén más información para configurar el idioma y la voz.
Obtén más información para configurar las capacidades de Gemini.
Obtén información sobre las prácticas recomendadas de la API de Gemini Live.