Visualizzare e interpretare i risultati della valutazione

Questa pagina descrive come visualizzare e interpretare i risultati della valutazione del modello dopo aver eseguito la valutazione.

Visualizza i risultati di una valutazione

Dopo aver definito l'attività di valutazione, eseguila per ottenere i risultati, come segue:

from vertexai.evaluation import EvalTask

eval_result = EvalTask(
    dataset=DATASET,
    metrics=[METRIC_1, METRIC_2, METRIC_3],
    experiment=EXPERIMENT_NAME,
).evaluate(
    model=MODEL,
    experiment_run=EXPERIMENT_RUN_NAME,
)

La classe EvalResult rappresenta il risultato di un'esecuzione della valutazione con i seguenti attributi:

summary_metrics: un dizionario di metriche di valutazione aggregate per un'esecuzione della valutazione.
metrics_table: una tabella pandas.DataFrame contenente input, risposte, spiegazioni e risultati delle metriche del set di dati di valutazione per riga.
metadata: il nome dell'esperimento e il nome dell'esecuzione dell'esperimento per l'esecuzione della valutazione.

La classe EvalResult è definita come segue:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
      metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
        responses, explanations, and metric results per row.
      metadata: The experiment name and experiment run name for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Con l'utilizzo delle funzioni helper, i risultati della valutazione possono essere visualizzati nel notebook di Colab come segue:

Tabelle per le metriche riepilogative e basate sulle righe

Visualizza i risultati della valutazione

Puoi tracciare le metriche di riepilogo in un grafico a radar o a barre per la visualizzazione e il confronto tra i risultati di diverse esecuzioni della valutazione. Questa visualizzazione può essere utile per valutare diversi modelli e diversi modelli di prompt.

Nell'esempio seguente, visualizziamo quattro metriche (coerenza, fluidità, rispetto delle istruzioni e qualità complessiva del testo) per le risposte generate utilizzando quattro diversi modelli di prompt. Dal grafico a radar e a barre, possiamo dedurre che il modello di prompt n. 2 supera costantemente gli altri modelli in tutte e quattro le metriche. Ciò è particolarmente evidente nei punteggi significativamente più alti per il rispetto delle istruzioni e la qualità del testo. In base a questa analisi, il modello di prompt n. 2 sembra essere la scelta più efficace tra le quattro opzioni.

Grafico radar che mostra i punteggi di coerenza, rispetto delle istruzioni, qualità del testo e fluidità per tutti i modelli di prompt

Grafico a barre che mostra la media di coerenza, rispetto delle istruzioni, qualità del testo e fluidità per tutti i modelli di prompt

Comprendi i risultati delle metriche

Le tabelle seguenti elencano vari componenti dei risultati a livello di istanza e aggregati inclusi rispettivamente in metrics_table e summary_metrics per PointwiseMetric, PairwiseMetric e le metriche basate su calcolo:

`PointwiseMetric`

Risultati a livello di istanza

Colonna	Descrizione
risposta	La risposta generata per il prompt dal modello.
punteggio	La valutazione attribuita alla risposta in base ai criteri e alla rubrica di valutazione. Il punteggio può essere binario (0 e 1), in scala Likert (da 1 a 5 o da -2 a 2) o in virgola mobile (da 0, 0 a 1,0).
spiegazione	Il motivo del punteggio del modello di valutazione. Utilizziamo il ragionamento chain-of-thought per guidare il modello di valutazione a spiegare la logica alla base di ogni verdetto. È stato dimostrato che forzare il modello di valutazione a ragionare migliora l'accuratezza della valutazione.

Risultati aggregati

Colonna	Descrizione
punteggio medio	Punteggio medio per tutte le istanze.
deviazione standard	Deviazione standard per tutti i punteggi.

`PairwiseMetric`

Risultati a livello di istanza

Colonna	Descrizione
risposta	La risposta generata per il prompt dal modello candidato.
baseline_model_response	La risposta generata per il prompt dal modello di riferimento.
pairwise_choice	Il modello con la risposta migliore. I valori possibili sono CANDIDATE, BASELINE o TIE.
spiegazione	Il motivo della scelta del modello di valutazione.

Risultati aggregati

Colonna	Descrizione
candidate_model_win_rate	Proporzione di volte in cui il modello di valutazione ha deciso che il modello candidato aveva la risposta migliore rispetto al totale delle risposte. L'intervallo va da 0 a 1.
baseline_model_win_rate	Proporzione di volte in cui il modello di valutazione ha deciso che il modello di riferimento aveva la risposta migliore rispetto al totale delle risposte. L'intervallo va da 0 a 1.

Metriche basate su calcolo

Risultati a livello di istanza

Colonna	Descrizione
risposta	La risposta del modello in fase di valutazione.
riferimento	La risposta di riferimento.
punteggio	Il punteggio viene calcolato per ogni coppia di risposte e riferimenti.

Risultati aggregati

Colonna	Descrizione
punteggio medio	Punteggio medio per tutte le istanze.
deviazione standard	Deviazione standard per tutti i punteggi.

Esempi

Gli esempi in questa sezione mostrano come leggere e comprendere i risultati della valutazione.

Esempio 1: valutazione basata su punti

L'esempio seguente mostra un'istanza di valutazione basata su punti per TEXT_QUALITY. Il punteggio della valutazione basata su punti della metrica TEXT_QUALITY è 4 (su una scala da 1 a 5), il che significa che la risposta è buona. Inoltre, la spiegazione nel risultato della valutazione mostra perché il modello di valutazione ritiene che la previsione meriti il punteggio 4 e non un punteggio superiore o inferiore.

Set di dati

prompt: "Riassumi il seguente testo in modo che possa essere compreso da un bambino di cinque anni: Social Media Platform Faces Backlash Over Content Moderation Policies\nA prominent social media platform finds itself embroiled in controversy as users and content creators express discontent over its content moderation policies. Allegations of biased censorship, inconsistent enforcement, and suppression of certain viewpoints have sparked outrage among users who claim that the platform is stifling free speech. On the other hand, the platform asserts that its policies are designed to maintain a safe and inclusive online environment. This controversy raises broader questions about the role of social media in shaping public discourse and the responsibilities of platforms in curating online content."
response: "People are upset with a website because they think it's not being fair with what people can post. Some people say the website is stopping them from saying what they want. But the website says it's trying to keep everyone safe. This makes people wonder if websites should control what people can say online."

Risultato

score: 4,
explanation: The summary in the response follows the instruction to summarize the context in a way that a five-year old can understand. It is grounded in the context and provides important details in its summarization. However, the language used in the response is a bit verbose.

Esempio 2: valutazione basata su coppie

Questo esempio è una valutazione di confronto basata su coppie su PAIRWISE_QUESTION_ANSWERING_QUALITY. Il risultato pairwise_choice mostra che il modello di valutazione preferisce la risposta del candidato "La Francia è un paese situato nell'Europa occidentale" rispetto alla risposta di riferimento "La Francia è un paese" per rispondere alla domanda nel prompt. Analogamente ai risultati basati su punti, viene fornita anche una spiegazione per illustrare perché la risposta del candidato è migliore della risposta di riferimento (in questo caso, la risposta del candidato è più utile).

Set di dati

prompt: "Can you answer where France is based on the following paragraph? France is a country located in Western Europe. It's bordered by Belgium, Luxembourg, Germany, Switzerland, Italy, Monaco, Spain, and Andorra. France's coastline stretches along the English Channel, the North Sea, the Atlantic Ocean, and the Mediterranean Sea. Known for its rich history, iconic landmarks like the Eiffel Tower, and delicious cuisine, France is a major cultural and economic power in Europe and throughout the world."
response: "France is a country located in Western Europe.",
baseline_model_response: "France is a country.",

Risultato

pairwise_choice: CANDIDATE,
explanation: BASELINE response is grounded but does not fully answer the question. CANDIDATE response, however, is correct and provides helpful details on the location of France.

Passaggi successivi

Prova un notebook di esempio di valutazione.
Scopri di più sulla valutazione dell'AI generativa.

Visualizzare e interpretare i risultati della valutazione Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Visualizza i risultati di una valutazione

Visualizza i risultati della valutazione

Comprendi i risultati delle metriche

PointwiseMetric

Risultati a livello di istanza

Risultati aggregati

PairwiseMetric

Risultati a livello di istanza

Risultati aggregati

Metriche basate su calcolo

Risultati a livello di istanza

Risultati aggregati

Esempi

Esempio 1: valutazione basata su punti

Set di dati

Risultato

Esempio 2: valutazione basata su coppie

Set di dati

Risultato

Passaggi successivi

Visualizzare e interpretare i risultati della valutazione

`PointwiseMetric`

`PairwiseMetric`