En esta página, se describe cómo ver e interpretar los resultados de la evaluación del modelo después de ejecutarla con el servicio de evaluación de Gen AI.
Visualiza los resultados de la evaluación
El servicio de evaluación de Gen AI te permite visualizar los resultados de la evaluación directamente en tu entorno de desarrollo, como un notebook de Colab o Jupyter. El método .show(), disponible en los objetos EvaluationDataset y EvaluationResult, renderiza un informe HTML interactivo para el análisis.
Visualiza las rúbricas generadas en tu conjunto de datos
Si ejecutas client.evals.generate_rubrics(), el objeto EvaluationDataset resultante contiene una columna rubric_groups. Puedes visualizar este conjunto de datos para inspeccionar las rúbricas generadas para cada instrucción antes de ejecutar la evaluación.
# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
src=prompts_df,
rubric_group_name="general_quality_rubrics",
predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)
# Display the dataset with the generated rubrics
data_with_rubrics.show()
Se muestra una tabla interactiva con cada instrucción y las rúbricas asociadas generadas para ella, anidadas dentro de la columna rubric_groups:

Visualizar los resultados de las inferencias
Después de generar respuestas con run_inference(), puedes llamar a .show() en el objeto EvaluationDataset resultante para inspeccionar los resultados del modelo junto con tus instrucciones y referencias originales. Esto es útil para una verificación rápida de la calidad antes de ejecutar una evaluación completa:
# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
model='gpt-4o',
src=prompt_df
)
# Now, visualize the inference results
gpt_response.show()
Se muestra una tabla con cada instrucción, su referencia correspondiente (si se proporciona) y la respuesta recién generada:

Para la inferencia del agente, también se muestran las entradas de la sesión (si se proporcionan) y los eventos intermedios (si se generan).
Visualiza los informes de evaluación
Cuando llamas a .show() en un objeto EvaluationResult o EvaluationRun, un informe muestra las siguientes secciones:
Métricas de resumen: Una vista agregada de todas las métricas, que muestra la puntuación media y la desviación estándar en todo el conjunto de datos.
Resultados detallados: Un desglose caso por caso que te permite inspeccionar la instrucción, la referencia, la respuesta candidata y la puntuación y la explicación específicas de cada métrica. Para la evaluación del agente, los resultados detallados también incluyen seguimientos que muestran las interacciones del agente. Para obtener más información sobre los seguimientos, consulta Cómo realizar el seguimiento de un agente.
Información del agente (solo para la evaluación del agente): Información que describe el agente evaluado, como las instrucciones del desarrollador, la descripción del agente y las definiciones de herramientas.
Informe de evaluación de un solo candidato
Para la evaluación de un solo modelo, el informe detalla las puntuaciones de cada métrica:
# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[
types.RubricMetric.TEXT_QUALITY,
types.RubricMetric.FLUENCY,
types.Metric(name='rouge_1'),
]
)
# Visualize the detailed evaluation report
eval_result.show()

Para todos los informes, puedes expandir una sección Ver JSON sin procesar para inspeccionar los datos de cualquier formato estructurado, como el formato de Gemini o de la API de Chat Completion de OpenAI.
Informe de evaluación basado en rúbricas adaptables con veredictos
Cuando se usan métricas basadas en rúbricas adaptables, los resultados incluyen los veredictos de aprobación o reprobación y el razonamiento de cada rúbrica aplicada a la respuesta.
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)
eval_result.show()
La visualización muestra cada rúbrica, su veredicto (aprobado o reprobado) y el razonamiento, anidados dentro de los resultados de las métricas para cada caso. Para cada veredicto de rúbrica específico, puedes expandir una tarjeta para mostrar la carga útil de JSON sin procesar. Esta carga útil de JSON incluye detalles adicionales, como la descripción completa de la rúbrica, el tipo de rúbrica, la importancia y el razonamiento detallado detrás del veredicto.

Informe de comparación de varios candidatos
El formato del informe se adapta según si evalúas un solo candidato o comparas varios. Para una evaluación de varios candidatos, el informe proporciona una vista en paralelo y, además, incluye cálculos de la tasa de victorias o empates en la tabla de resumen.
# Example of comparing two models
inference_result_1 = client.evals.run_inference(
model="gemini-2.0-flash",
src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
model="gemini-2.5-flash",
src=prompts_df,
)
comparison_result = client.evals.evaluate(
dataset=[inference_result_1, inference_result_2],
metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)
comparison_result.show()
