Esta función te permite evaluar agentes de IA. Puedes usar el servicio de evaluación de IA generativa para medir y mejorar el rendimiento, la seguridad y la calidad de tus agentes.
Tipos de evaluación
| Tipo de evaluación | Caso de uso | Frecuencia |
|---|---|---|
| Evaluación rápida | Probar la nueva lógica del agente o los cambios en el modelo | Frecuente (desarrollo) |
| Evaluación del caso de prueba | Pruebas de regresión en un conjunto de datos específico. | Programado (CI/CD) |
| Supervisión en línea | Realiza un seguimiento de la calidad de la implementación de un agente de producción. | Continuous (producción) |
Flujo de trabajo de evaluación
Puedes evaluar tus agentes con la consola deGoogle Cloud o el SDK de Agent Platform.
Consola deGoogle Cloud
Para ejecutar una evaluación básica de la implementación de un agente, haz lo siguiente:
- En la Google Cloud consola, navega a la página Agent Platform > Agents.
- En el menú de navegación de la izquierda, selecciona Deployments y, luego, tu agente.
- Selecciona la pestaña Panel y, luego, la subsección Evaluación.
- Haz clic en Nueva evaluación.
- Sigue las instrucciones para definir tus casos de prueba y seleccionar métricas.
- Haz clic en Ejecutar evaluación.
Para obtener guías más detalladas, consulta Cómo ejecutar evaluaciones sin conexión o Evaluación continua con supervisores en línea.
SDK de Agent Platform
El flujo de trabajo de mejora de agentes se basa en el Ciclo de Calidad, un ciclo continuo de evaluación, análisis y optimización. Evalúas el rendimiento de tu agente, analizas los resultados para identificar grupos de errores y, luego, optimizas tus instrucciones o tu configuración para abordar esos problemas. Este proceso iterativo te ayuda a detectar y resolver de forma proactiva las brechas de rendimiento.
Antes de comenzar
Instala el SDK de Agent Platform con las extensiones requeridas:
pip install google-cloud-aiplatform[adk,evaluation]
Inicializa el cliente del SDK de Agent Platform:
import vertexai from vertexai import Client client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Aquí:
YOUR_PROJECT_ID: Es el ID del proyecto de Google Cloud .YOUR_LOCATION: Tu región de Cloud, por ejemplo,us-central1.
1. Define casos de evaluación (simulación del usuario)
En lugar de crear casos de prueba de forma manual, usa la simulación de usuarios para generar planes de conversación sintéticos de varios turnos basados en las instrucciones de tu agente.
# Generate scenarios from agent info eval_dataset = client.evals.generate_conversation_scenarios( agent_info=my_agent_info, config={ "count": 5, "generation_instruction": "Generate scenarios where a user asks for a refund.", }, )
Para obtener más información, consulta la referencia del SDK de Agent Platform.
2. Ejecuta inferencias
Ejecuta los casos de evaluación en tu agente para capturar Registros.
# Generate behavior traces using a multi-turn user simulator traces = client.evals.run_inference( agent=my_agent, src=eval_dataset, config={"user_simulator_config": {"max_turn": 5}} )
3. Calcular métricas (evaluadores automáticos)
Usa evaluadores automáticos de varias turnos para calificar los registros capturados. Estos evaluadores analizan el historial de conversación completo para verificar el cumplimiento de las instrucciones y el uso de las herramientas.
# Evaluate the traces using multi-turn metrics eval_result = client.evals.evaluate( traces=traces, metrics=[ "MULTI_TURN_TASK_SUCCESS", "MULTI_TURN_TOOL_USE_QUALITY" ] )
4. Realiza el análisis (clústeres de fallas)
El sistema agrupa automáticamente las evaluaciones fallidas en grupos de pérdidas para identificar los problemas clave del agente.
# Identify the top failure patterns in the results loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Optimiza el agente
Por último, usa el servicio Optimizer para refinar de forma programática las instrucciones del sistema o las descripciones de las herramientas de tu agente en función de los datos de errores.
# Automatically refine the system prompt to fix identified issues optimize_result = client.optimizer.optimize( targets=["system_prompt"], benchmark=eval_result, tests=eval_dataset )
¿Qué sigue?
- Ejecuta evaluaciones sin conexión
- Cómo ver los resultados de la evaluación
- Más información sobre el servicio de evaluación de IA generativa