Dettagli per le metriche gestite basate su rubrica
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Questa pagina fornisce un elenco completo delle metriche gestite basate su rubriche offerte da Gen AI evaluation service, che puoi utilizzare nel client GenAI nell'SDK Vertex AI.
Gen AI evaluation service offre un elenco di metriche gestite basate su rubriche per il framework di valutazione basato su test:
Per le metriche con rubriche adattive, la maggior parte include sia il flusso di lavoro per la generazione della rubrica per ogni prompt sia la convalida della rubrica. Se necessario, puoi eseguirli separatamente. Per i dettagli, vedi Eseguire una valutazione.
Per le metriche con rubriche statiche, non vengono generate rubriche per prompt. Per i dettagli sugli output previsti, vedi Dettagli delle metriche.
Ogni metrica gestita basata su griglia ha un numero di versione. La metrica utilizza l'ultima versione per impostazione predefinita, ma puoi bloccarla su una versione specifica, se necessario:
Per le metriche offerte come Modelli di prompt delle metriche, puoi comunque accedere alle metriche puntuali tramite il client GenAI nell'SDK Vertex AI con lo stesso approccio. Le metriche pairwise non sono supportate dal client GenAI nell'SDK Vertex AI, ma consulta Eseguire una valutazione per confrontare due modelli nella stessa valutazione.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
Dettagli delle metriche gestite
Questa sezione elenca le metriche gestite con dettagli quali tipo, input richiesti e output previsto:
Una metrica completa di griglie di valutazione adattive che valuta la qualità complessiva della risposta di un modello. Genera e valuta automaticamente un'ampia gamma di criteri in base ai contenuti del prompt. Questo è il punto di partenza consigliato per la maggior parte delle valutazioni.
Come accedere nell'SDK
types.RubricMetric.GENERAL_QUALITY
Input
prompt
response
(Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
6 chiamate a Gemini 2.5 Flash
Qualità del testo
Ultima versione
text_quality_v1
Tipo
Rubriche adattive
Descrizione
Una metrica di griglie di valutazione adattive mirata che valuta in modo specifico la qualità linguistica della risposta. Valuta aspetti come la fluidità, la coerenza e la grammatica.
Come accedere nell'SDK
types.RubricMetric.TEXT_QUALITY
Input
prompt
response
(Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
6 chiamate a Gemini 2.5 Flash
Secondo istruzioni
Ultima versione
instruction_following_v1
Tipo
Rubriche adattive
Descrizione
Una metrica di rubrica adattiva mirata che misura il grado di aderenza della risposta ai vincoli e alle istruzioni specifici forniti nel prompt.
Come accedere nell'SDK
types.RubricMetric.INSTRUCTION_FOLLOWING
Input
prompt
response
(Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
score (tasso di superamento)
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
6 chiamate a Gemini 2.5 Flash
Grounding
Ultima versione
grounding_v1
Tipo
Griglie statiche
Descrizione
Una metrica basata sul punteggio che verifica l'accuratezza e la coerenza. Verifica che la risposta del modello sia basata sul contesto.
Come accedere nell'SDK
types.RubricMetric.GROUNDING
Input
prompt
response
context
Output
score
explanation
Il punteggio ha un intervallo di 0-1 e rappresenta il tasso di affermazioni etichettate come supported o no_rad (che non richiedono attribuzioni fattuali, come saluti, domande o dichiarazioni di non responsabilità) al prompt di input.
La spiegazione contiene raggruppamenti di frasi, etichette, ragionamenti ed estratti dal contesto.
Numero di chiamate LLM
1 chiamata a Gemini 2.5 Flash
Sicurezza
Ultima versione
safety_v1
Tipo
Griglie statiche
Descrizione
Una metrica basata sul punteggio che valuta se la risposta del modello ha violato una o più delle seguenti norme:
Dati demografici e PII
Incitamento all'odio
Contenuti pericolosi
Molestie
Contenuti sessualmente espliciti
Come accedere nell'SDK
types.RubricMetric.SAFETY
Input
prompt
response
Output
score
explanation
Per il punteggio, 0 non è sicuro e 1 è sicuro.
Il campo della spiegazione include le norme violate.
Numero di chiamate LLM
10 chiamate a Gemini 2.5 Flash
Qualità generale a più turni
Ultima versione
multi_turn_general_quality_v1
Tipo
Rubriche adattive
Descrizione
Una metrica di griglie di valutazione adattive che valuta la qualità complessiva della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Input
prompt con conversazioni a più turni
response
(Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
score
rubriche e relativi esiti
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
6 chiamate a Gemini 2.5 Flash
Qualità del testo in più passaggi
Ultima versione
multi_turn_text_quality_v1
Tipo
Rubriche adattive
Descrizione
Una metrica di griglie di valutazione adattive che valuta la qualità del testo della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK
types.RubricMetric.TEXT_QUALITY
Input
prompt con conversazioni a più turni
response
(Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
6 chiamate a Gemini 2.5 Flash
Corrispondenza della risposta finale dell'agente
Ultima versione
final_response_match_v2
Tipo
Griglie statiche
Descrizione
Una metrica che valuta la qualità della risposta finale di un agente AI confrontandola con una risposta di riferimento fornita (dati empirici reali).
Come accedere nell'SDK
types.RubricMetric.FINAL_RESPONSE_MATCH
Input
prompt
response
reference
Output
Punteggio
1: Risposta valida che corrisponde al riferimento.
0: Risposta non valida che non corrisponde al riferimento.
Spiegazione
Numero di chiamate LLM
5 chiamate a Gemini 2.5 Flash
Riferimento alla risposta finale dell'agente gratuito
Ultima versione
final_response_reference_free_v1
Tipo
Rubriche adattive
Descrizione
Una metrica di griglie di valutazione adattive che valuta la qualità della risposta finale di un agente AI senza richiedere una risposta di riferimento.
Devi fornire i criteri per questa metrica, in quanto non supporta i criteri generati automaticamente.
Come accedere nell'SDK
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Input
prompt
response
rubric_groups
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
5 chiamate a Gemini 2.5 Flash
Qualità della risposta finale dell'agente
Ultima versione
final_response_quality_v1
Tipo
Rubriche adattive
Descrizione
Una metrica completa di griglie di valutazione adattive che valuta la qualità complessiva della risposta di un agente. Genera automaticamente un'ampia gamma di criteri in base alla configurazione dell'agente (istruzioni e dichiarazioni per gli sviluppatori per gli strumenti disponibili per l'agente) e al prompt dell'utente, quindi valuta i criteri generati in base all'utilizzo degli strumenti negli eventi intermedi e nella risposta finale dell'agente.
Come accedere nell'SDK
types.RubricMetric.FINAL_RESPONSE_QUALITY
Input
prompt
response
developer_instruction
tool_declarations (può essere un elenco vuoto)
intermediate_events (contenente chiamate di funzioni e risposte, può essere un elenco vuoto)
(Facoltativo) rubric_groups (se hai già generato griglie, puoi fornirle direttamente per la valutazione)
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM
5 chiamate a Gemini 2.5 Flash e 1 chiamata a Gemini 2.5 Pro
Allucinazione dell'agente
Ultima versione
hallucination_v1
Tipo
Griglie statiche
Descrizione
Una metrica basata sul punteggio che verifica la veridicità e la coerenza delle risposte di testo segmentando la risposta in affermazioni atomiche. Verifica se ogni affermazione è fondata o meno in base all'utilizzo dello strumento negli eventi intermedi.
Può essere utilizzato anche per valutare eventuali risposte di testo intermedie impostando il flag evaluate_intermediate_nl_responses su true.
Come accedere nell'SDK
types.RubricMetric.HALLUCINATION
Input
response
developer_instruction
tool_declarations (può essere un elenco vuoto)
intermediate_events (contenente chiamate di funzioni e risposte, può essere un elenco vuoto)
evaluate_intermediate_nl_responses (il valore predefinito è False)
Output
score
explanation e verdicts corrispondente
Il punteggio ha un intervallo compreso tra 0 e 1 e rappresenta il tasso di richieste etichettate come supported o no_rad (che non richiedono attribuzioni fattuali, come saluti, domande o dichiarazioni di non responsabilità) rispetto al prompt di input. La spiegazione contiene una suddivisione strutturata di rivendicazione, etichetta, motivazione ed estratti che supportano il contesto.
Numero di chiamate LLM
2 chiamate a Gemini 2.5 Flash
Qualità dell'utilizzo degli strumenti dell'agente
Ultima versione
tool_use_quality_v1
Tipo
Rubriche adattive
Descrizione
Una metrica di rubrica adattiva mirata che valuta la selezione degli strumenti appropriati, l'utilizzo corretto dei parametri e il rispetto della sequenza di operazioni specificata.
Come accedere nell'SDK
types.RubricMetric.TOOL_USE_QUALITY
Input
prompt
developer_instruction
tool_declarations (può essere un elenco vuoto)
intermediate_events (contenente chiamate di funzioni e risposte, può essere un elenco vuoto)
(Facoltativo) rubric_groups (se hai già generato griglie, puoi fornirle direttamente per la valutazione)
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
5 chiamate a Gemini 2.5 Flash e 1 chiamata a Gemini 2.5 Pro
Qualità della funzionalità da testo a immagine di Gecko
Ultima versione
gecko_text2image_v1
Tipo
Rubriche adattive
Descrizione
La metrica da testo a immagine Gecko è un metodo adattivo basato su griglie di valutazione per valutare la qualità di un'immagine generata rispetto al prompt di testo corrispondente. Funziona generando prima una serie di domande dal prompt, che fungono da rubrica dettagliata e specifica per il prompt. Un modello risponde quindi a queste domande in base all'immagine generata.
Come accedere nell'SDK
types.RubricMetric.GECKO_TEXT2IMAGE
Input
prompt
response: devono essere dati di file con tipo MIME immagine
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM
2 chiamate a Gemini 2.5 Flash
Qualità della funzionalità da testo a video di Gecko
Ultima versione
gecko_text2video_v1
Tipo
Rubriche adattive
Descrizione
La metrica di sintesi vocale Gecko è un metodo adattivo basato su griglie di valutazione per valutare la qualità di un video generato rispetto al prompt di testo corrispondente. Funziona generando prima una serie di domande dal prompt, che fungono da rubrica dettagliata e specifica per il prompt. Un modello risponde quindi a queste domande in base al video generato.
Come accedere nell'SDK
types.RubricMetric.GECKO_TEXT2VIDEO
Input
prompt
response: devono essere dati di file con tipo MIME video
Output
score
rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-12-04 UTC."],[],[]]