Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Evaluación continua con supervisores en línea

La supervisión en línea te permite evaluar continuamente la calidad de tus agentes en producción. Este enfoque proactivo te ayuda a identificar la variación de calidad, una disminución observable en el rendimiento del agente a lo largo del tiempo, causada por cambios en el comportamiento del usuario o datos externos. Si configuras monitores en línea, puedes calificar de forma asíncrona los seguimientos en vivo con métricas predefinidas y personalizadas, lo que garantiza que tu agente siga siendo confiable y esté alineado con tus estándares de rendimiento.

Antes de comenzar

Para habilitar la supervisión en línea de tus agentes, asegúrate de que se cumplan los siguientes requisitos:

Implementa tu agente como se describe en Implementa un agente.
Asegúrate de que Cloud Trace esté habilitado para tu proyecto.
(Opcional) Si planeas crear monitores de forma programática, consulta la página Evalúa tus agentes para obtener instrucciones de inicialización del SDK de Agent Platform.

Requisitos de telemetría

La supervisión en línea requiere que tu agente exporte indicadores específicos de OpenTelemetry para proporcionar el contexto necesario para la evaluación:

Intervalo de invocación del agente: Debe incluir los siguientes atributos:
- gen_ai.agent.name: Es el identificador del agente.
- gen_ai.agent.description: Es una breve descripción del propósito del agente.
- gen_ai.conversation.id: Es un identificador único para la sesión de conversación específica.
Eventos de inferencia: El evento gen_ai.client.inference.operation.details debe capturar lo siguiente:
- gen_ai.input.messages: Son las instrucciones enviadas al agente.
- gen_ai.output.messages: Son las respuestas generadas por el agente.
- gen_ai.system_instructions: Son las instrucciones del sistema subyacentes.
- gen_ai.tool.definitions: Son metadatos sobre las herramientas disponibles para el agente.

Si usas el kit de desarrollo de agentes, debes habilitar estas capacidades de telemetría configurando las siguientes variables de entorno:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Grabación de contenido multimedia en Cloud Storage

Si tu agente usa datos multimodales, como imágenes o documentos grandes, te recomendamos que grabes las entradas y salidas en un bucket de Cloud Storage en lugar de incorporarlas directamente en los intervalos de seguimiento. Configura las siguientes variables de entorno para habilitar esta opción:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Para obtener más información, consulta Recopila instrucciones y respuestas multimodales.

Cómo funcionan los monitores en línea

Los monitores en línea se ejecutan en un bucle de evaluación programado, por lo general, cada 10 minutos. El bucle sigue estos pasos:

Consulta: Muestrea datos de Cloud Trace y Cloud Logging según tus filtros.
Evalúa: Ejecuta las métricas configuradas con el servicio de evaluación de Gemini Enterprise Agent Platform.
Informa: Vuelve a escribir los resultados en Cloud Logging y exporta las puntuaciones numéricas a Cloud Monitoring.

Crea un monitor en línea

En la Google Cloud consola, navega a la página Agent Platform > Agentes > Evaluación.
Ir a Evaluación
Selecciona la pestaña Monitores en línea y haz clic en Monitor nuevo.
Especifica los seguimientos de filtro:
- Motor del agente: Selecciona el agente que deseas supervisar en el menú desplegable.
- Criterios de filtro: Elige si deseas evaluar Todos los seguimientos del agente o aplicar Criterios de filtro específicos.
Define los criterios de filtro (si usas seguimientos filtrados):
- Inspección inicial: Selecciona un período (por ejemplo, Último día) para obtener una vista previa de los seguimientos de producción que coinciden con tu filtro.
- Filtros: Ingresa criterios para segmentar el tráfico específico. Puedes filtrar por propiedades como Duration (por ejemplo, Duration > 2) o Token usage.
Configura las métricas: Agrega las métricas que deseas supervisar de forma continua, como Seguridad.
Establece el muestreo:
- Porcentaje de muestreo: Define qué porcentaje de tu tráfico en vivo se debe evaluar.
- Cantidad máxima de muestras por ejecución: Establece un límite para administrar los costos de evaluación.
Haz clic en Crear.

Administra monitores

Una vez que creas un monitor, puedes administrarlo desde la lista Monitores en línea:

Alternar estado: Haz clic en Más opciones y selecciona Habilitar o Inhabilitar para pausar la evaluación sin borrar la configuración.
Pausar y reanudar: Usa Más opciones para detener la evaluación de forma temporal.
Duplicar: Crea un monitor nuevo con la configuración precompletada de uno existente.
Ver seguimientos: Haz clic en el vínculo Ver seguimientos en la columna Seguimientos muestreados de un monitor para navegar directamente a los seguimientos filtrados en la pestaña Seguimientos del agente.

Visualiza los resultados en el panel de observabilidad

Para ver tus métricas de evaluación junto con otros indicadores de rendimiento, haz lo siguiente:

En la Google Cloud consola, navega a la página Agent Platform > Agentes.
En el menú de navegación de la izquierda, selecciona Implementaciones.
Selecciona el agente.
Ir a Implementaciones
En la vista Panel , selecciona la subsección Evaluación para ver gráficos de series temporales de las métricas configuradas, como la calidad de la respuesta, la seguridad y las tasas de alucinación.

Visualiza los resultados de seguimientos individuales

También puedes inspeccionar los resultados de la evaluación de conversaciones específicas directamente en la vista de seguimientos:

En la Google Cloud consola, navega a la pestaña Seguimientos del agente.
Selecciona una sesión o un seguimiento de la tabla para abrir el panel de detalles.
Selecciona la pestaña Evaluación para ver las puntuaciones y los fundamentos de esa interacción específica.

Soluciona problemas de monitores en línea

Si tu monitor en línea está activo, pero no aparecen resultados en tu panel, haz lo siguiente:

Verifica la telemetría: Asegúrate de que tu agente exporte correctamente los eventos y los intervalos de OpenTelemetry requeridos. Verifica Cloud Trace para ver si los seguimientos en vivo contienen los atributos gen_ai..
Verifica los filtros: Revisa los criterios de filtro de tu monitor. Usa la función Inspección inicial para confirmar que tus filtros coincidan con tu tráfico de producción.
Verifica los registros internos: Los monitores en línea escriben información de diagnóstico en Cloud Logging. Si falla una evaluación, se produce un registro de errores. Puedes encontrar estos registros en el Explorador de registros buscando el ID del monitor o seguimientos y agentes específicos:
```
resource.labels.online_evaluator="projects/YOUR_PROJECT_ID/locations/YOUR_REGION/onlineEvaluators/YOUR_MONITOR_ID"
# Or search by trace or agent
labels.trace="YOUR_TRACE_ID"
labels.reasoning_engine_id="YOUR_AGENT_ID"
```