Empezar a usar la API Live con ADK

En este tutorial se explica cómo crear un agente y usar el streaming del Agent Development Kit (ADK) para habilitar la comunicación por voz y vídeo. Instalas el ADK, configuras un agente básico que usa la Búsqueda de Google y ejecutas el agente con la herramienta adk web.

Antes de empezar

En esta guía se presupone que tienes experiencia con el uso de un terminal en entornos Windows, macOS o Linux.

Configurar el entorno e instalar el ADK

En esta sección se explica cómo preparar tu entorno local.

  1. Crea y activa un entorno virtual. Se recomienda usar un entorno virtual.

    # Create the environment
    python -m venv .venv
    
    # Activate the environment in each new terminal
    # For macOS or Linux:
    source .venv/bin/activate
    # For Windows CMD:
    .venv\Scripts\activate.bat
    # For Windows PowerShell:
    .venv\Scripts\Activate.ps1
    
  2. Instala el ADK.

    pip install google-adk
    

Crear la estructura del proyecto

Crea los directorios y archivos necesarios para tu agente.

  1. Crea la siguiente estructura de carpetas con archivos vacíos:

    Diagrama de la estructura del proyecto: la carpeta adk-streaming contiene la carpeta app, que contiene el archivo .env y la carpeta google_search_agent, que contiene los archivos __init__.py y agent.py.

  2. Añade el siguiente código al archivo app/google_search_agent/agent.py. Este archivo define la lógica de tu agente. Debes definir un root_agent.

    from google.adk.agents import Agent
    from google.adk.tools import google_search  # Import the tool
    
    root_agent = Agent(
      # A unique name for the agent.
      name="basic_search_agent",
      # The Large Language Model (LLM) that agent will use.
      # Please fill in the latest model id that supports live from
      # https://google.github.io/adk-docs/get-started/streaming/quickstart-streaming/#supported-models
      model="...",  # for example: model="gemini-live-2.5-flash-preview-native-audio-09-2025"
      # A short description of the agent's purpose.
      description="Agent to answer questions using Google Search.",
      # Instructions to set the agent's behavior.
      instruction="You are an expert researcher. You always stick to the facts.",
      # Add google_search tool to perform grounding with Google search.
      tools=[google_search]
    )
    
  3. Añade el siguiente código al archivo app/google_search_agent/__init__.py:

    from . import agent
    

Configurar la plataforma

Para ejecutar el agente, configúralo para que use Google Cloud Vertex AI.

  1. Abre el archivo .env ubicado en el directorio app/.

  2. Añade el siguiente contenido al archivo. Sustituye PROJECT_ID por el ID de tu proyecto y LOCATION por tu ubicación. Google Cloud Google Cloud

    GOOGLE_CLOUD_PROJECT=PROJECT_ID
    GOOGLE_CLOUD_LOCATION=LOCATION
    GOOGLE_GENAI_USE_VERTEXAI=True
    

Ejecutar el agente con la interfaz de desarrollo

Inicia la interfaz de usuario de desarrollo para interactuar con tu agente.

  1. Cambia el directorio actual a app.

    cd app
    
  2. Define la variable de entorno SSL_CERT_FILE. Este paso es obligatorio para las pruebas de voz y vídeo.

    macOS/Linux

    export SSL_CERT_FILE=$(python -m certifi)
        

    Windows

    $env:SSL_CERT_FILE = (python -m certifi)
        
  3. Ejecuta la interfaz de usuario de desarrollo.

    adk web
    
  4. Abre la URL proporcionada en la terminal, que suele ser http://localhost:8000 o http://127.0.0.1:8000.

  5. Selecciona google_search_agent.

En el siguiente diagrama se muestra cómo se envía la entrada del usuario al agente, cómo usa el agente la herramienta de búsqueda de Google y cómo devuelve una respuesta:

Diagrama que muestra cómo se envía la entrada del usuario al agente, cómo el agente usa la herramienta de Búsqueda de Google para obtener información y cómo el agente devuelve una respuesta al usuario.

Interactuar con el agente

Después de iniciar la interfaz de usuario para desarrolladores, puedes interactuar con tu agente mediante texto, voz o vídeo.

Usar la entrada de texto

Introduce las siguientes peticiones en la interfaz de usuario para probar las respuestas basadas en texto del agente. El agente usa la herramienta google_search para obtener la información más reciente y responder a estas preguntas.

  • ¿Qué tiempo hace en Nueva York?
  • ¿Qué hora es en Nueva York?
  • ¿Qué tiempo hace en París?
  • ¿Qué hora es en París?

Usar la entrada de voz y vídeo

Para usar la entrada de voz, vuelve a cargar el navegador web y haz clic en el botón del micrófono. Haz una pregunta y escucha la respuesta en tiempo real.

Para usar la entrada de vídeo, vuelve a cargar el navegador web y haz clic en el botón de la cámara. Haz una pregunta, como "¿Qué ves?", y el agente describirá lo que ve a partir de la entrada de vídeo.

Detener la interfaz de desarrollo

Para detener la herramienta adk web, pulsa Ctrl+C en la terminal en la que se esté ejecutando.

Siguientes pasos