La documentazione di Vertex AI non viene più aggiornata

I servizi di Vertex AI ora fanno parte di Gemini Enterprise Agent Platform. Per informazioni aggiornate, consulta la documentazione di Agent Platform.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visualizzare e interpretare i risultati della valutazione

Questa pagina descrive come visualizzare e interpretare i risultati della valutazione del modello dopo averla eseguita.

Visualizza i risultati di una valutazione

Dopo aver definito l'attività di valutazione, eseguila per ottenere i risultati della valutazione, come segue:

from vertexai.evaluation import EvalTask

eval_result = EvalTask(
    dataset=DATASET,
    metrics=[METRIC_1, METRIC_2, METRIC_3],
    experiment=EXPERIMENT_NAME,
).evaluate(
    model=MODEL,
    experiment_run=EXPERIMENT_RUN_NAME,
)

La classe EvalResult rappresenta il risultato di un'esecuzione di valutazione con i seguenti attributi:

summary_metrics: un dizionario di metriche di valutazione aggregate per un'esecuzione della valutazione.
metrics_table: una tabella pandas.DataFrame contenente input, risposte, spiegazioni e risultati delle metriche del set di dati di valutazione per riga.
metadata: il nome dell'esperimento e il nome dell'esecuzione dell'esperimento per l'esecuzione della valutazione.

La classe EvalResult è definita come segue:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
      metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
        responses, explanations, and metric results per row.
      metadata: the experiment name and experiment run name for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Con l'uso delle funzioni helper, i risultati della valutazione possono essere visualizzati nel notebook Colab come segue:

Tabelle per le metriche riepilogative e basate sulle righe

Visualizzare i risultati della valutazione

Puoi tracciare le metriche riepilogative in un grafico radar o a barre per visualizzare e confrontare i risultati di diverse esecuzioni di valutazione. Questa visualizzazione può essere utile per valutare diversi modelli e diversi modelli di prompt.

Nel seguente esempio, visualizziamo quattro metriche (coerenza, fluidità, rispetto delle istruzioni e qualità complessiva del testo) per le risposte generate utilizzando quattro diversi modelli di prompt. Dal radar e dal grafico a barre possiamo dedurre che il modello di prompt n. 2 supera costantemente gli altri modelli in tutte e quattro le metriche. Ciò è particolarmente evidente nei punteggi significativamente più alti per il rispetto delle istruzioni e la qualità del testo. In base a questa analisi, il modello di prompt n. 2 sembra essere la scelta più efficace tra le quattro opzioni.

Grafico radar che mostra i punteggi di coerenza, rispetto delle istruzioni, qualità del testo e fluidità per tutti i modelli di prompt

Grafico a barre che mostra la media di coerenza, rispetto delle istruzioni, qualità del testo e fluidità per tutti i modelli di prompt

Comprendere i risultati delle metriche

Le tabelle seguenti elencano vari componenti dei risultati a livello di istanza e aggregati inclusi rispettivamente in metrics_table e summary_metrics per PointwiseMetric, PairwiseMetric e le metriche basate sul calcolo:

`PointwiseMetric`

Risultati a livello di istanza

Colonna	Descrizione
risposta	La risposta generata per il prompt dal modello.
punteggio	Il punteggio attribuito alla risposta in base ai criteri e alla griglia di valutazione. Il punteggio può essere binario (0 e 1), in scala Likert (da 1 a 5 o da -2 a 2) o mobile (da 0, 0 a 1,0).
spiegazione	Il motivo del punteggio assegnato dal modello di valutazione. Utilizziamo il ragionamento a catena per guidare il modello giudice a spiegare la logica alla base di ogni verdetto. Forzare il modello di valutazione a ragionare ha dimostrato di migliorare l'accuratezza della valutazione.

Risultati aggregati

Colonna	Descrizione
punteggio medio	Punteggio medio per tutte le istanze.
deviazione standard	Deviazione standard per tutti i punteggi.

`PairwiseMetric`

Risultati a livello di istanza

Colonna	Descrizione
risposta	La risposta generata per il prompt dal modello candidato.
baseline_model_response	La risposta generata per il prompt dal modello di base.
pairwise_choice	Il modello con la risposta migliore. I valori possibili sono CANDIDATE, BASELINE o TIE.
spiegazione	Il motivo della scelta del modello di giudice.

Risultati aggregati

Colonna	Descrizione
candidate_model_win_rate	Rapporto tra il numero di volte in cui il modello giudice ha deciso che il modello candidato forniva la risposta migliore e il numero totale di risposte. Valore compreso tra 0 e 1.
baseline_model_win_rate	Rapporto tra il tempo in cui il modello giudice ha deciso che il modello di base forniva la risposta migliore e il numero totale di risposte. Valore compreso tra 0 e 1.

Metriche basate su calcolo

Risultati a livello di istanza

Colonna	Descrizione
risposta	La risposta del modello in fase di valutazione.
riferimento	La risposta di riferimento.
punteggio	Il punteggio viene calcolato per ogni coppia di risposte e riferimenti.

Risultati aggregati

Colonna	Descrizione
punteggio medio	Punteggio medio per tutte le istanze.
deviazione standard	Deviazione standard per tutti i punteggi.

Esempi

Gli esempi in questa sezione mostrano come leggere e comprendere i risultati della valutazione.

Esempio 1: valutazione basata su punti

Nel primo esempio, considera di valutare un'istanza di valutazione basata su punti per TEXT_QUALITY. Il punteggio della valutazione puntuale della metrica TEXT_QUALITY è 4 (su una scala da 1 a 5), il che significa che la risposta è buona. Inoltre, la spiegazione nel risultato della valutazione mostra perché il modello di valutazione ritiene che la previsione meriti il punteggio 4 e non un punteggio superiore o inferiore.

Set di dati

prompt: "Riassumi il seguente testo in modo che possa essere compreso da un bambino di cinque anni: Social Media Platform Faces Backlash Over Content Moderation Policies\nA prominent social media platform finds itself embroiled in controversy as users and content creators express discontent over its content moderation policies. Le accuse di censura parziale, applicazione incoerente e soppressione di determinati punti di vista hanno suscitato indignazione tra gli utenti che sostengono che la piattaforma stia soffocando la libertà di parola. D'altra parte, la piattaforma afferma che le sue norme sono progettate per mantenere un ambiente online sicuro e inclusivo. Questa controversia solleva questioni più ampie sul ruolo dei social media nel plasmare il discorso pubblico e sulle responsabilità delle piattaforme nella cura dei contenuti online".
response: "Le persone sono arrabbiate con un sito web perché pensano che non sia giusto ciò che possono pubblicare. Alcune persone affermano che il sito web impedisce loro di dire ciò che vogliono. Tuttavia, il sito web afferma di impegnarsi per la sicurezza di tutti. Questo fa sorgere il dubbio se i siti web debbano controllare ciò che le persone possono dire online".

Risultato

score: 4,
explanation: il riepilogo nella risposta segue l'istruzione di riassumere il contesto in modo che possa essere compreso da un bambino di cinque anni. Si basa sul contesto e fornisce dettagli importanti nel riepilogo. Tuttavia, la lingua utilizzata nella risposta è un po' prolissa.

Esempio 2: valutazione basata su coppie

Il secondo esempio è una valutazione del confronto a coppie su PAIRWISE_QUESTION_ANSWERING_QUALITY. Il risultato pairwise_choice mostra che la risposta candidata "La Francia è un paese situato nell'Europa occidentale" è preferita dal modello di valutazione rispetto alla risposta di base "La Francia è un paese" per rispondere alla domanda nel prompt. Analogamente ai risultati puntuali, viene fornita anche una spiegazione del motivo per cui la risposta del candidato è migliore della risposta di base (in questo caso, la risposta del candidato è più utile).

Set di dati

prompt: "Puoi rispondere alla domanda su dove si trova la Francia in base al seguente paragrafo? La Francia è un paese situato nell'Europa occidentale. Confina con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Spagna e Andorra. La costa francese si estende lungo il Canale della Manica, il Mare del Nord, l'Oceano Atlantico e il Mar Mediterraneo. Nota per la sua ricca storia, i suoi monumenti iconici come la Torre Eiffel e la sua deliziosa cucina, la Francia è una delle principali potenze culturali ed economiche in Europa e nel mondo."
response: "La Francia è un paese situato nell'Europa occidentale",
baseline_model_response: "La Francia è un paese.",

Risultato

pairwise_choice: CANDIDATE,
explanation: la risposta BASELINE è fondata, ma non risponde completamente alla domanda. La risposta di CANDIDATE, tuttavia, è corretta e fornisce dettagli utili sulla posizione della Francia.

Passaggi successivi

Prova un notebook di esempio per la valutazione.
Scopri di più sulla valutazione dell'AI generativa.

La documentazione di Vertex AI non viene più aggiornata

Visualizzare e interpretare i risultati della valutazione Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Visualizza i risultati di una valutazione

Visualizzare i risultati della valutazione

Comprendere i risultati delle metriche

PointwiseMetric

Risultati a livello di istanza

Risultati aggregati

PairwiseMetric

Risultati a livello di istanza

Risultati aggregati

Metriche basate su calcolo

Risultati a livello di istanza

Risultati aggregati

Esempi

Esempio 1: valutazione basata su punti

Set di dati

Risultato

Esempio 2: valutazione basata su coppie

Set di dati

Risultato

Passaggi successivi

Visualizzare e interpretare i risultati della valutazione

`PointwiseMetric`

`PairwiseMetric`