Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Evaluación continua con supervisores en línea

La supervisión en línea te permite evaluar continuamente la calidad de tus agentes en producción. Este enfoque proactivo te ayuda a identificar la desviación de la calidad, una disminución observable en el rendimiento del agente con el tiempo, causada por cambios en el comportamiento del usuario o en los datos externos. Si configuras Monitores en línea, puedes calificar de forma asíncrona los registros en vivo con métricas predefinidas y personalizadas, lo que garantiza que tu agente siga siendo confiable y se alinee con tus estándares de rendimiento.

Antes de comenzar

Para habilitar la supervisión en línea de tus agentes, asegúrate de que se cumplan los siguientes requisitos:

Implementa tu agente como se describe en Implementa un agente.
Asegúrate de que Cloud Trace esté habilitado para tu proyecto.
(Opcional) Si planeas crear monitores de forma programática, consulta la página Evalúa tus agentes para obtener instrucciones de inicialización del SDK de Agent Platform.

Requisitos de la telemetría

La supervisión en línea requiere que tu agente exporte indicadores específicos de OpenTelemetry para proporcionar el contexto necesario para la evaluación:

Intervalo de invocación del agente: Debe incluir los siguientes atributos:
- gen_ai.agent.name: Es el identificador del agente.
- gen_ai.agent.description: Es una breve descripción del propósito del agente.
- gen_ai.conversation.id: Es un identificador único para la sesión de conversación específica.
Eventos de inferencia: El evento gen_ai.client.inference.operation.details debe capturar lo siguiente:
- gen_ai.input.messages: Son las instrucciones enviadas al agente.
- gen_ai.output.messages: Son las respuestas que genera el agente.
- gen_ai.system_instructions: Son las instrucciones subyacentes del sistema.
- gen_ai.tool.definitions: Son metadatos sobre las herramientas disponibles para el agente.

Si usas el Kit de desarrollo de agentes, debes habilitar estas capacidades de telemetría configurando las siguientes variables de entorno:

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Grabación de contenido multimedia en Cloud Storage

Si tu agente usa datos multimodales, como imágenes o documentos grandes, te recomendamos que registres las entradas y salidas en un bucket de Cloud Storage en lugar de incorporarlas directamente en los intervalos de seguimiento. Configura las siguientes variables de entorno para habilitar esta opción:

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

Para obtener más información, consulta Recopila instrucciones y respuestas multimodales.

Cómo funcionan los monitores en línea

Los monitores en línea se ejecutan en un bucle de evaluación programado, generalmente cada 10 minutos. El bucle sigue estos pasos:

Consulta: Muestra datos de Cloud Trace y Cloud Logging según tus filtros.
Evaluar: Ejecuta las métricas configuradas con el servicio de evaluación de Gemini Enterprise Agent Platform.
Informe: Escribe los resultados en Cloud Logging y exporta las puntuaciones numéricas a Cloud Monitoring.

Crea un monitor en línea

En la consola de Google Cloud , navega a la página Agent Platform > Agents > Evaluation.
Ir a Evaluación
Selecciona la pestaña Monitores en línea y haz clic en Monitor nuevo.
Cómo especificar el filtro de registros:
- Agent engine: Selecciona el agente que deseas supervisar en el menú desplegable.
- Criterios de filtro: Elige si deseas evaluar Todos los registros del agente o aplicar Criterios de filtro específicos.
Define Filter Criteria (si usas registros filtrados):
- Inspección inicial: Selecciona un período (por ejemplo, Último día) para obtener una vista previa de los registros de producción que coinciden con tu filtro.
- Filtros: Ingresa criterios para segmentar el tráfico específico. Puedes filtrar por propiedades como Duration (por ejemplo, Duration > 2) o Token usage.
Configura las métricas: Agrega las métricas que deseas hacer un seguimiento continuo, como Seguridad.
Configura el muestreo:
- Porcentaje de muestreo: Define qué porcentaje de tu tráfico en vivo se debe evaluar.
- Cantidad máxima de muestras por ejecución: Establece un límite para administrar los costos de evaluación.
Haz clic en Crear.

Administra monitores

Una vez que crees un monitor, podrás administrarlo desde la lista Supervisores en línea:

Botón de activación del estado: Haz clic en Más opciones y selecciona Habilitar o Inhabilitar para detener la evaluación sin borrar la configuración.
Pausar y reanudar: Usa Más opciones para detener la evaluación temporalmente.
Duplicar: Crea un monitor nuevo con la configuración completada previamente de uno existente.
Ver registros: Haz clic en el vínculo Ver registros en la columna Registros muestreados de un monitor para navegar directamente a los registros filtrados en la pestaña Registros del agente.

Visualiza los resultados en el panel de observabilidad

Para ver tus métricas de evaluación junto con otros indicadores de rendimiento, sigue estos pasos:

En la consola de Google Cloud , navega a la página Agent Platform > Agents.
En el menú de navegación de la izquierda, selecciona Implementaciones.
Selecciona el agente.
Ir a Implementaciones
En la vista Panel, selecciona la subsección Evaluación para ver gráficos de series temporales de las métricas configuradas, como la calidad de la respuesta, la seguridad y las tasas de alucinación.

Cómo ver los resultados de seguimientos individuales

También puedes inspeccionar los resultados de la evaluación de conversaciones específicas directamente en la vista de registros:

En la consola de Google Cloud , navega a la pestaña Registros del agente.
Selecciona una sesión o un registro de la tabla para abrir el panel de detalles.
Selecciona la pestaña Evaluación para ver las puntuaciones y las explicaciones de esa interacción específica.

Soluciona problemas de los monitores en línea

Si tu Monitoreo en línea está activo, pero no aparecen resultados en el panel, haz lo siguiente:

Verifica la telemetría: Asegúrate de que tu agente exporte correctamente los intervalos y eventos de OpenTelemetry requeridos. Verifica Cloud Trace para ver si los seguimientos activos contienen los atributos gen_ai..
Verifica los filtros: Revisa los criterios de filtro de tu monitor. Usa la función Initial Inspection para confirmar que tus filtros coincidan con tu tráfico de producción.
Verifica los registros internos: Los supervisores en línea escriben información de diagnóstico en Cloud Logging. Si falla una evaluación, se genera un registro de errores. Puedes encontrar estos registros en el Explorador de registros buscando el ID de tu supervisor o seguimientos y agentes específicos:
```
resource.labels.online_evaluator="projects/YOUR_PROJECT_ID/locations/YOUR_REGION/onlineEvaluators/YOUR_MONITOR_ID"
# Or search by trace or agent
labels.trace="YOUR_TRACE_ID"
labels.reasoning_engine_id="YOUR_AGENT_ID"
```