Visualizzare e interpretare i risultati della valutazione

Questa pagina descrive come visualizzare e interpretare i risultati della valutazione del modello dopo aver eseguito la valutazione del modello utilizzando Gen AI evaluation service.

Visualizza i risultati di una valutazione

Gen AI evaluation service ti consente di visualizzare i risultati della valutazione direttamente nel tuo ambiente di sviluppo, ad esempio un notebook Colab o Jupyter. Il metodo .show(), disponibile sia sugli oggetti EvaluationDataset che EvaluationResult, esegue il rendering di un report HTML interattivo per l'analisi.

Visualizzare le griglie di valutazione generate nel set di dati

Se esegui client.evals.generate_rubrics(), l'oggetto EvaluationDataset risultante contiene una colonna rubric_groups. Puoi visualizzare questo set di dati per esaminare le griglie di valutazione generate per ogni prompt prima di eseguire la valutazione.

# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
    src=prompts_df,
    rubric_group_name="general_quality_rubrics",
    predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)

# Display the dataset with the generated rubrics
data_with_rubrics.show()

Viene visualizzata una tabella interattiva con ogni prompt e le griglie di valutazione associate generate per il prompt, nidificate nella colonna rubric_groups:

Visualizzare le rubriche generate nel set di dati

Visualizza i risultati dell'inferenza

Dopo aver generato le risposte con run_inference(), puoi chiamare .show() sull'oggetto EvaluationDataset risultante per esaminare gli output del modello insieme ai prompt e ai riferimenti originali. Questa operazione è utile per un rapido controllo della qualità prima di eseguire una valutazione completa:

# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
    model='gpt-4o',
    src=prompt_df
)

# Now, visualize the inference results
gpt_response.show()

Viene visualizzata una tabella con ogni prompt, il riferimento corrispondente (se fornito) e la risposta appena generata:

Visualizzare i risultati dell'inferenza

Per l'inferenza dell'agente, vengono visualizzati anche gli input della sessione (se forniti) e gli eventi intermedi (se generati).

Visualizza i report di valutazione

Quando chiami .show() su un oggetto EvaluationResult o EvaluationRun, un report mostra le seguenti sezioni:

  • Metriche di riepilogo: una visualizzazione aggregata di tutte le metriche, che mostra il punteggio medio e la deviazione standard nell'intero set di dati.

  • Risultati dettagliati: una suddivisione caso per caso che consente di esaminare il prompt, il riferimento, la risposta del candidato e il punteggio e la spiegazione specifici per ogni metrica. Per la valutazione dell'agente, i risultati dettagliati includono anche le tracce che mostrano le interazioni dell'agente. Per ulteriori informazioni sulle tracce, vedi Traccia un agente.

  • Informazioni sull'agente (solo per la valutazione dell'agente): informazioni che descrivono l'agente valutato, come le istruzioni per gli sviluppatori, la descrizione dell'agente e le definizioni degli strumenti.

Report di valutazione di un singolo candidato

Per la valutazione di un singolo modello, il report descrive in dettaglio i punteggi per ogni metrica:

# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[
        types.RubricMetric.TEXT_QUALITY,
        types.RubricMetric.FLUENCY,
        types.Metric(name='rouge_1'),
    ]
)

# Visualize the detailed evaluation report
eval_result.show()

Report sulla valutazione

Per tutti i report, puoi espandere una sezione Visualizza JSON non elaborato per esaminare i dati per qualsiasi formato strutturato, ad esempio Gemini o il formato dell'API Chat Completion di OpenAI.

Report di valutazione basato su griglie di valutazione adattive con verdetti

Quando utilizzi metriche basate su griglie di valutazione adattive, i risultati includono i verdetti di superamento o non superamento e il ragionamento per ogni griglia di valutazione applicata alla risposta.

eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)

eval_result.show()

La visualizzazione mostra ogni griglia di valutazione, il relativo verdetto (Superato o Non superato) e il ragionamento, nidificati nei risultati delle metriche per ogni caso. Per ogni verdetto specifico della griglia di valutazione, puoi espandere una scheda per visualizzare il payload JSON non elaborato. Questo payload JSON include dettagli aggiuntivi come la descrizione completa della griglia di valutazione, il tipo di griglia di valutazione, l'importanza e il ragionamento dettagliato alla base del verdetto.

Report di valutazione basato su griglie adattive con verdetti

Report di confronto tra più candidati

Il formato del report si adatta a seconda che tu stia valutando un singolo candidato o confrontando più candidati. Per una valutazione di più candidati, il report fornisce una visualizzazione affiancata e include i calcoli della percentuale di vittorie o pareggi nella tabella di riepilogo.

# Example of comparing two models
inference_result_1 = client.evals.run_inference(
    model="gemini-2.0-flash",
    src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
   model="gemini-2.5-flash",
    src=prompts_df,
)

comparison_result = client.evals.evaluate(
    dataset=[inference_result_1, inference_result_2],
    metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)

comparison_result.show()

Report Confronto tra più candidati