Ejecuta evaluaciones sin conexión

La evaluación sin conexión te permite medir el rendimiento, la seguridad y la calidad de tus agentes analizando los datos históricos capturados durante el desarrollo o la producción. Puedes evaluar Registros individuales (rutas de ejecución únicas) o Sesiones completas (historiales de conversaciones de varios turnos) en función de un conjunto de métricas predefinidas o personalizadas.

Comparación entre seguimientos y sesiones

  • Registro: Es un registro inmutable y fáctico del comportamiento del agente, incluidas las entradas del modelo, las respuestas y las llamadas a herramientas. Un registro representa una sola ruta de ejecución.
  • Sesión: Abarca toda la interacción de varios turnos entre un usuario y un agente. Usa las sesiones para evaluar la retención del contexto y el flujo de la conversación a lo largo del tiempo.

Antes de comenzar

Para asegurarte de tener los datos y el entorno necesarios para la evaluación sin conexión, completa los siguientes pasos:

  • Asegúrate de tener un entorno de ejecución del agente en funcionamiento implementado con Cloud Trace habilitado.
  • Configura un bucket de Cloud Storage para almacenar los resultados de la evaluación. Solo debes proporcionar esta ruta una vez, ya que se completará previamente para ejecuciones futuras.
  • Si planeas usar el SDK de Agent Platform para la evaluación, inicializa el cliente como se describe en Cómo evaluar tus agentes.

Requisitos de telemetría

La evaluación sin conexión requiere que tu agente exporte indicadores específicos de OpenTelemetry para proporcionar el contexto necesario para la evaluación. Estos requisitos son idénticos a los de los Monitores en línea:

  1. Intervalo de invocación del agente: Debe incluir los siguientes atributos:

    • gen_ai.agent.name: Es el identificador del agente.
    • gen_ai.agent.description: Es una breve descripción del propósito del agente.
    • gen_ai.conversation.id: Es un identificador único para la sesión de conversación específica.
  2. Eventos de inferencia: El evento gen_ai.client.inference.operation.details debe capturar lo siguiente:

    • gen_ai.input.messages: Son las instrucciones enviadas al agente.
    • gen_ai.output.messages: Son las respuestas que genera el agente.
    • gen_ai.system_instructions: Son las instrucciones subyacentes del sistema.
    • gen_ai.tool.definitions: Son metadatos sobre las herramientas disponibles para el agente.

Si usas el Kit de desarrollo de agentes, debes habilitar estas capacidades de telemetría configurando las siguientes variables de entorno:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Grabación de contenido multimedia en Cloud Storage

Si tu agente usa datos multimodales, como imágenes o documentos grandes, te recomendamos que registres las entradas y salidas en un bucket de Cloud Storage en lugar de incorporarlas directamente en los intervalos de seguimiento. Configura las siguientes variables de entorno para habilitar esta opción:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Para obtener más información, consulta Recopila instrucciones y respuestas multimodales.

Crea una evaluación a partir del registro

  1. En la consola de Google Cloud , navega a la página Agent Platform > Agents > Evaluation.

    Ir a Evaluación

  2. Haz clic en Nueva evaluación.

  3. Selecciona la pestaña Registros o Sesiones según tu objetivo de evaluación.

  4. Usa el ícono de filtro y el selector de tiempo para filtrar los datos (por ejemplo, por Versión o "Últimas 2 semanas") y selecciona los IDs específicos que deseas evaluar.

  5. Haz clic en Continuar.

  6. (Opcional) En el campo Nombre de la evaluación, ingresa un nombre para la evaluación o usa el valor predeterminado completado previamente.

  7. En el campo Ruta de acceso a los datos privados de salida, ingresa el URI de tu bucket de Cloud Storage. Después del primer uso, esta ruta se completa previamente para ejecuciones futuras.

  8. De forma predeterminada, se agregan las cuatro métricas principales. Puedes agregar o quitar métricas según sea necesario.

  9. Haz clic en Evaluar agente.

Cómo evaluar un solo registro o sesión

Puedes activar evaluaciones directamente mientras inspeccionas rutas de ejecución individuales:

  1. En la Google Cloud consola, navega a la página Agent Platform > Agents.
  2. En el menú de navegación de la izquierda, selecciona Implementaciones.
  3. Selecciona el agente.

    Ir a Implementaciones

  4. Selecciona la pestaña Registros.
  5. Haz clic en Vista de sesión o Vista de seguimiento para inspeccionar la ruta de ejecución.
  6. Selecciona una fila específica de la tabla para abrir el panel de detalles.
  7. Selecciona la pestaña Evaluación.
  8. Si el registro o la sesión no se evaluaron, haz clic en Evaluar para ejecutar una evaluación ad hoc.

Visualiza los resultados de la evaluación

Una vez que se complete la evaluación, podrás analizar los resultados para identificar las brechas de rendimiento y los problemas sistémicos:

  • Consulta los resultados de una ejecución: En la consola de Google Cloud , ve a la página Agent Platform > Agents > Evaluation y selecciona la pestaña Evaluations. Haz clic en el nombre de una evaluación para ver el informe detallado.

    Ir a Evaluación

  • Desglosar los registros: En un informe de resultados, haz clic en cualquier fila para navegar directamente al registro asociado y, luego, inspecciona el razonamiento (explicaciones) detrás de las puntuaciones.

Para obtener más información, consulta Analiza los resultados de la evaluación.