Nesta página, descrevemos como conferir e interpretar os resultados da avaliação do modelo depois de realizá-la usando o serviço de avaliação de IA generativa.
Visualizar os resultados da avaliação
O serviço de avaliação de IA generativa permite visualizar os resultados da avaliação diretamente no ambiente de desenvolvimento, como um notebook do Colab ou do Jupyter. O método .show(), disponível nos objetos EvaluationDataset e EvaluationResult, renderiza um relatório HTML interativo para análise.
Visualizar as instruções geradas no conjunto de dados
Se você executar client.evals.generate_rubrics(), o objeto EvaluationDataset resultante vai conter uma coluna rubric_groups. É possível visualizar esse conjunto de dados para inspecionar as instruções geradas para cada comando antes de executar a avaliação.
# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
src=prompts_df,
rubric_group_name="general_quality_rubrics",
predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)
# Display the dataset with the generated rubrics
data_with_rubrics.show()
Uma tabela interativa é exibida com cada comando e as instruções associadas geradas para ele, aninhadas na coluna rubric_groups:

Visualizar os resultados da inferência
Depois de gerar respostas com run_inference(), você pode chamar .show() no objeto EvaluationDataset resultante para inspecionar as saídas do modelo junto com os comandos e referências originais. Isso é útil para uma verificação rápida de qualidade antes de executar uma avaliação completa:
# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
model='gpt-4o',
src=prompt_df
)
# Now, visualize the inference results
gpt_response.show()
Uma tabela é exibida com cada comando, a referência correspondente (se fornecida) e a resposta recém-gerada:

Para a inferência do agente, as entradas da sessão (se fornecidas) e os eventos intermediários (se gerados) também são exibidos.
Visualizar relatórios de avaliação
Quando você chama .show() em um objeto EvaluationResult ou EvaluationRun, um relatório mostra as seguintes seções:
Métricas de resumo: uma visualização agregada de todas as métricas, mostrando a pontuação média e o desvio padrão em todo o conjunto de dados.
Resultados detalhados: um detalhamento caso a caso, permitindo inspecionar o comando, a referência, a resposta do candidato e a pontuação e explicação específicas de cada métrica. Para a avaliação do agente, os resultados detalhados também incluem rastros que mostram as interações do agente. Para mais informações sobre rastros, consulte Rastrear um agente.
Informações do agente (somente para avaliação do agente): informações que descrevem o agente avaliado, como instruções do desenvolvedor, descrição do agente e definições de ferramentas.
Relatório de avaliação de um único candidato
Para uma única avaliação de modelo, o relatório detalha as pontuações de cada métrica:
# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[
types.RubricMetric.TEXT_QUALITY,
types.RubricMetric.FLUENCY,
types.Metric(name='rouge_1'),
]
)
# Visualize the detailed evaluation report
eval_result.show()

Para todos os relatórios, é possível expandir uma seção Visualizar JSON bruto para inspecionar os dados de qualquer formato estruturado, como o formato da API Gemini ou da API Chat Completion do OpenAI.
Relatório de avaliação adaptável com base em instruções e vereditos
Ao usar métricas adaptáveis com base em instruções, os resultados incluem os vereditos de aprovação ou reprovação e o raciocínio de cada instrução aplicada à resposta.
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)
eval_result.show()
A visualização mostra cada instrução, o veredito (aprovação ou reprovação) e o raciocínio, aninhados nos resultados da métrica para cada caso. Para cada veredito de rubrica específico, é possível expandir um card para mostrar o payload JSON bruto. Esse payload JSON inclui outros detalhes, como a descrição completa da rubrica, o tipo, a importância e o raciocínio detalhado por trás do veredito.

Relatório de comparação de vários candidatos
O formato do relatório se adapta dependendo se você está avaliando um único candidato ou comparando vários. Para uma avaliação de vários candidatos, o relatório oferece uma visualização lado a lado e inclui cálculos de taxa de vitória ou empate na tabela de resumo.
# Example of comparing two models
inference_result_1 = client.evals.run_inference(
model="gemini-2.0-flash",
src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
model="gemini-2.5-flash",
src=prompts_df,
)
comparison_result = client.evals.evaluate(
dataset=[inference_result_1, inference_result_2],
metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)
comparison_result.show()
