Il servizio di valutazione dell'AI generativa fornisce strumenti di livello enterprise per la valutazione oggettiva e basata sui dati dei modelli di AI generativa. Supporta e informa una serie di attività di sviluppo come le migrazioni di modelli, la modifica dei prompt e il perfezionamento.
Funzionalità di Gen AI evaluation service
La caratteristica distintiva di Gen AI evaluation service è la possibilità di utilizzare griglie di valutazione adattive, un insieme di test personalizzati superati o non superati per ogni singolo prompt. Le griglie di valutazione sono simili ai test delle unità nello sviluppo di software e mirano a migliorare le prestazioni del modello in una serie di attività.

Gen AI evaluation service supporta i seguenti metodi di valutazione comuni:
Rubriche adattive (consigliato): genera un insieme unico di rubriche superate o non superate per ogni singolo prompt nel set di dati.
Rubriche statiche: applica un insieme fisso di criteri di valutazione a tutti i prompt.
Metriche basate sul calcolo: utilizza algoritmi deterministici come
ROUGEoBLEUquando sono disponibili dati empirici reali.Funzioni personalizzate: definisci la tua logica di valutazione in Python per requisiti specializzati.
Generazione del set di dati di valutazione
Puoi creare un set di dati di valutazione nei seguenti modi:
Carica un file contenente istanze di prompt complete oppure fornisci un modello di prompt insieme a un file corrispondente di valori delle variabili per compilare i prompt completi.
Estrai campioni direttamente dai log di produzione per valutare l'utilizzo reale del tuo modello.
Utilizza la generazione di dati sintetici per generare un numero elevato di esempi coerenti per qualsiasi modello di prompt.
Interfacce supportate
Puoi definire ed eseguire le valutazioni utilizzando le seguenti interfacce:
Google Cloud Console: un'interfaccia utente web che fornisce un flusso di lavoro end-to-end guidato. Gestisci i tuoi set di dati, esegui valutazioni e approfondisci i report e le visualizzazioni interattivi. Consulta Eseguire la valutazione utilizzando la console.
SDK Python: esegui le valutazioni in modo programmatico e visualizza i confronti dei modelli affiancati direttamente nel tuo ambiente Colab o Jupyter. Consulta Eseguire la valutazione utilizzando il client GenAI nell'SDK Vertex AI
Casi d'uso
Il servizio di valutazione dell'AI generativa ti consente di vedere il rendimento di un modello in base alle tue attività specifiche e ai tuoi criteri unici, fornendo informazioni preziose che non possono essere derivate da classifiche pubbliche e benchmark generali. Ciò supporta attività di sviluppo critiche, tra cui:
Migrazioni di modelli: confronta le versioni dei modelli per comprendere le differenze comportamentali e perfezionare di conseguenza i prompt e le impostazioni.
Trovare il modello migliore: esegui confronti diretti tra i modelli di Google e di terze parti sui tuoi dati per stabilire una base di riferimento per il rendimento e identificare il modello più adatto al tuo caso d'uso.
Miglioramento dei prompt: utilizza i risultati della valutazione per guidare i tuoi sforzi di personalizzazione. L'esecuzione di una nuova valutazione crea un ciclo di feedback stretto, fornendo un feedback immediato e quantificabile sulle modifiche.
Ottimizzazione del modello: valuta la qualità di un modello ottimizzato applicando criteri di valutazione coerenti a ogni esecuzione.
Valutazione dell'agente: valuta le prestazioni di un agente utilizzando metriche specifiche dell'agente, come tracce dell'agente e qualità della risposta.
Flusso di lavoro di valutazione
Per completare una valutazione, in genere è necessario seguire i seguenti passaggi:
Crea un set di dati di valutazione: assembla un set di dati di istanze di prompt che riflettano il tuo caso d'uso specifico. Puoi includere risposte di riferimento (dati empirici reali) se prevedi di utilizzare metriche basate sul calcolo.
Definisci le metriche di valutazione: scegli le metriche che vuoi utilizzare per misurare il rendimento del modello.
Genera risposte del modello: seleziona uno o più modelli per generare risposte per il tuo set di dati. L'SDK supporta qualsiasi modello richiamabile tramite
LiteLLM, mentre la console supporta i modelli Google Gemini.Esegui la valutazione: esegui il job di valutazione, che valuta le risposte di ogni modello in base alle metriche selezionate.
Interpreta i risultati: esamina i punteggi aggregati e le singole risposte per analizzare il rendimento del modello.
Metriche di valutazione
Di seguito sono riportati i concetti di base relativi alle metriche di valutazione:
Rubriche: i criteri per valutare la risposta di un modello o un'applicazione LLM.
Metriche: un punteggio che misura l'output del modello rispetto ai criteri di valutazione.
Gen AI evaluation service offre le seguenti categorie di metriche:
Metriche basate su griglie di valutazione: incorporano LLM nei flussi di lavoro di valutazione per valutare la qualità delle risposte del modello. Le valutazioni basate su rubriche sono adatte a una varietà di attività, in particolare la qualità della scrittura, la sicurezza e il rispetto delle istruzioni, che spesso sono difficili da valutare con algoritmi deterministici.
Griglie di valutazione adattive (consigliate): le griglie di valutazione vengono generate dinamicamente per ogni prompt, come i test delle unità. Le risposte vengono valutate con un insieme univoco di test superati o non superati per ogni singolo prompt nel set di dati. Le griglie di valutazione mantengono la valutazione pertinente all'attività richiesta e mirano a fornire risultati oggettivi, spiegabili e coerenti.
Le rubriche adattive sono in genere il modo più rapido per iniziare a valutare, garantendo che ogni valutazione sia pertinente all'attività specifica in esame.
Rubriche statiche: le rubriche sono definite in modo esplicito e la stessa rubrica si applica a tutti i prompt. Le risposte vengono valutate con lo stesso insieme di valutatori numerici basati sul punteggio. Un singolo punteggio numerico (ad esempio da 1 a 5) per prompt. Utilizza rubriche statiche quando è richiesta una valutazione su una dimensione molto specifica o quando è richiesta la stessa rubrica esatta per tutti i prompt.
Metriche basate su calcolo: valuta le risposte con algoritmi deterministici, in genere utilizzando dati empirici reali. Un punteggio numerico (ad esempio 0,0-1,0) per prompt. Quando i dati empirici reali sono disponibili e possono essere abbinati a un metodo deterministico.
Metriche della funzione personalizzata (solo SDK): definisci la tua metrica tramite una funzione Python.
Esempio di griglie adattive
La procedura di valutazione per ogni prompt utilizza un sistema in due passaggi:
Generazione di rubriche: il servizio analizza innanzitutto il prompt e genera un elenco di test specifici e verificabili, ovvero le rubriche, che una buona risposta deve soddisfare.
Convalida della rubrica: dopo che il modello genera una risposta, il servizio valuta la risposta in base a ogni rubrica, fornendo un verdetto chiaro
PassoFaile una motivazione.
Il risultato finale è un tasso di superamento aggregato e una suddivisione dettagliata delle rubriche superate dal modello, che ti fornisce informazioni utili per diagnosticare i problemi e misurare i miglioramenti.
Passando da punteggi soggettivi di alto livello a risultati di test granulari e oggettivi, puoi adottare un ciclo di sviluppo basato sulla valutazione e integrare le best practice di ingegneria del software nel processo di creazione di applicazioni di AI generativa.
L'esempio seguente mostra rubriche adattive di esempio generate per un insieme di prompt:
Prompt utente: Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.
Per questo prompt, il passaggio di generazione della rubrica potrebbe produrre le seguenti rubriche:
Griglia 1: la risposta è un riepilogo dell'articolo fornito.
Rubrica 2: la risposta contiene esattamente quattro frasi.
Griglia 3: la risposta mantiene un tono ottimistico.
Il modello potrebbe produrre la seguente risposta: The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.
Durante la convalida della rubrica, Gen AI evaluation service valuta la risposta in base a ogni rubrica:
Griglia 1: la risposta è un riepilogo dell'articolo fornito.
Esito:
PassMotivo: la risposta riassume con precisione i punti principali.
Rubrica 2: la risposta contiene esattamente quattro frasi.
Esito:
PassMotivo: la risposta è composta da quattro frasi distinte
Griglia 3: la risposta mantiene un tono ottimistico.
Esito:
FailMotivo: l'ultima frase introduce un punto negativo, che sminuisce il tono ottimistico.
Il tasso di superamento finale per questa risposta è del 66,7%. Per confrontare due modelli, puoi valutare le loro risposte in base a questo stesso insieme di test generati e confrontare i tassi di superamento complessivi.
Iniziare a utilizzare le valutazioni
Puoi iniziare a utilizzare le valutazioni tramite la console.
In alternativa, il seguente codice mostra come completare una valutazione con il client GenAI nell'SDK Vertex AI:
from vertexai import Client
from vertexai import types
import pandas as pd
client = Client(project=PROJECT_ID, location=LOCATION)
# Create an evaluation dataset
prompts_df = pd.DataFrame({
"prompt": [
"Write a simple story about a dinosaur",
"Generate a poem about Vertex AI",
],
})
# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)
# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.RubricMetric.GENERAL_QUALITY]
)
# View the evaluation results
eval_result.show()
Gen AI evaluation service offre due interfacce SDK:
Client GenAI nell'SDK Vertex AI (consigliato) (anteprima)
from vertexai import clientIl client GenAI è l'interfaccia più recente e consigliata per la valutazione, a cui si accede tramite la classe client unificata. Supporta tutti i metodi di valutazione ed è progettato per i flussi di lavoro che includono il confronto dei modelli, la visualizzazione nel notebook e gli approfondimenti per la personalizzazione dei modelli.
Modulo di valutazione nell'SDK Vertex AI (GA)
from vertexai.evaluation import EvalTaskIl modulo di valutazione è l'interfaccia precedente, mantenuta per la compatibilità con le versioni precedenti dei flussi di lavoro esistenti, ma non più in fase di sviluppo attivo. Vi si accede tramite il corso
EvalTask. Questo metodo supporta le metriche standard basate su LLM-as-a-judge e sul calcolo, ma non supporta metodi di valutazione più recenti come le rubriche adattive.
Aree geografiche supportate
Per Gen AI evaluation service sono supportate le seguenti regioni:
Iowa (
us-central1)Virginia del Nord (
us-east4)Oregon (
us-west1)Las Vegas, Nevada (
us-west4)Belgio (
europe-west1)Paesi Bassi (
europe-west4)Parigi, Francia (
europe-west9)
Notebook disponibili
| Link ai notebook | Descrizione |
|---|---|
| Guida introduttiva: valutazione rapida dell'AI generativa | Fornisce un'introduzione al servizio di valutazione dell'AI generativa. |
| Valutare modelli di terze parti con Gen AI evaluation service | Mostra come utilizzare l'SDK Vertex Gen AI Evaluation per valutare vari tipi di modelli di terze parti, inclusi i modelli a cui si accede tramite API (come OpenAI, Anthropic), Model as a Service (MaaS) da Vertex Model Garden e gli endpoint Bring Your Own Model (BYOM). |
| Migrazione dei modelli con Gen AI evaluation service | Mostra come utilizzare l'SDK Vertex AI per Gen AI evaluation service per confrontare due modelli proprietari (ad esempio Gemini 2.0 Flash con Gemini 2.5 Flash). Viene evidenziato l'utilizzo di metriche predefinite basate su rubriche adattive e il modo in cui i risultati della valutazione possono guidare l'ottimizzazione dei prompt. Vengono trattate anche funzionalità chiave come la valutazione di più candidati, la visualizzazione nel notebook e la valutazione batch asincrona. |
| Valutare la qualità della sintesi di immagini dal testo con Gen AI evaluation service | Mostra come utilizzare l'SDK Vertex AI per Gen AI evaluation service per valutare la qualità delle immagini generate in base ai prompt di testo. Mostra l'utilizzo della metrica Gecko predefinita basata su rubrica adattiva. |
| Valutare la qualità della sintesi da testo a video con Gen AI evaluation service | Mostra come utilizzare l'SDK Vertex AI per Gen AI evaluation service per valutare la qualità dei video generati in base ai prompt di testo. Mostra l'utilizzo della metrica Gecko predefinita basata su rubrica adattiva. |