Evalúa a tus agentes

Esta función te permite evaluar agentes de IA. Puedes usar el servicio de evaluación de IA generativa para medir y mejorar el rendimiento, la seguridad y la calidad de tus agentes.

Tipos de evaluación

Tipo de evaluación Caso de uso Frecuencia
Evaluación rápida Probar la nueva lógica del agente o los cambios en el modelo Frecuente (desarrollo)
Evaluación del caso de prueba Pruebas de regresión en un conjunto de datos específico. Programado (CI/CD)
Supervisión en línea Realiza un seguimiento de la calidad de la implementación de un agente de producción. Continuous (producción)

Flujo de trabajo de evaluación

Puedes evaluar tus agentes con la consola deGoogle Cloud o el SDK de Agent Platform.

Consola deGoogle Cloud

Para ejecutar una evaluación básica de la implementación de un agente, haz lo siguiente:

  1. En la Google Cloud consola, navega a la página Agent Platform > Agents.
  2. En el menú de navegación de la izquierda, selecciona Deployments y, luego, tu agente.

    Ir a Implementaciones

  3. Selecciona la pestaña Panel y, luego, la subsección Evaluación.
  4. Haz clic en Nueva evaluación.
  5. Sigue las instrucciones para definir tus casos de prueba y seleccionar métricas.
  6. Haz clic en Ejecutar evaluación.

Para obtener guías más detalladas, consulta Cómo ejecutar evaluaciones sin conexión o Evaluación continua con supervisores en línea.

SDK de Agent Platform

El flujo de trabajo de mejora de agentes se basa en el Ciclo de Calidad, un ciclo continuo de evaluación, análisis y optimización. Evalúas el rendimiento de tu agente, analizas los resultados para identificar grupos de errores y, luego, optimizas tus instrucciones o tu configuración para abordar esos problemas. Este proceso iterativo te ayuda a detectar y resolver de forma proactiva las brechas de rendimiento.

Antes de comenzar

  1. Instala el SDK de Agent Platform con las extensiones requeridas:

    pip install google-cloud-aiplatform[adk,evaluation]
  2. Inicializa el cliente del SDK de Agent Platform:

    import vertexai
    from vertexai import Client
    
    client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

    Aquí:

    • YOUR_PROJECT_ID: Es el ID del proyecto de Google Cloud .
    • YOUR_LOCATION: Tu región de Cloud, por ejemplo, us-central1.

1. Define casos de evaluación (simulación del usuario)

En lugar de crear casos de prueba de forma manual, usa la simulación de usuarios para generar planes de conversación sintéticos de varios turnos basados en las instrucciones de tu agente.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Para obtener más información, consulta la referencia del SDK de Agent Platform.

2. Ejecuta inferencias

Ejecuta los casos de evaluación en tu agente para capturar Registros.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Calcular métricas (evaluadores automáticos)

Usa evaluadores automáticos de varias turnos para calificar los registros capturados. Estos evaluadores analizan el historial de conversación completo para verificar el cumplimiento de las instrucciones y el uso de las herramientas.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Realiza el análisis (clústeres de fallas)

El sistema agrupa automáticamente las evaluaciones fallidas en grupos de pérdidas para identificar los problemas clave del agente.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Optimiza el agente

Por último, usa el servicio Optimizer para refinar de forma programática las instrucciones del sistema o las descripciones de las herramientas de tu agente en función de los datos de errores.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

¿Qué sigue?