Dettagli per le metriche gestite basate su rubrica

Questa pagina fornisce un elenco completo delle metriche gestite basate su rubriche offerte da Gen AI evaluation service, che puoi utilizzare nel client GenAI nell'SDK Vertex AI.

Per saperne di più sulla valutazione basata sui test, consulta Definisci le metriche di valutazione.

Panoramica

Gen AI evaluation service offre un elenco di metriche gestite basate su rubriche per il framework di valutazione basato su test:

  • Per le metriche con rubriche adattive, la maggior parte include sia il flusso di lavoro per la generazione della rubrica per ogni prompt sia la convalida della rubrica. Se necessario, puoi eseguirli separatamente. Per i dettagli, vedi Eseguire una valutazione.

  • Per le metriche con rubriche statiche, non vengono generate rubriche per prompt. Per i dettagli sugli output previsti, vedi Dettagli delle metriche.

Ogni metrica gestita basata su griglia ha un numero di versione. La metrica utilizza l'ultima versione per impostazione predefinita, ma puoi bloccarla su una versione specifica, se necessario:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Compatibilità con le versioni precedenti

Per le metriche offerte come Modelli di prompt delle metriche, puoi comunque accedere alle metriche puntuali tramite il client GenAI nell'SDK Vertex AI con lo stesso approccio. Le metriche pairwise non sono supportate dal client GenAI nell'SDK Vertex AI, ma consulta Eseguire una valutazione per confrontare due modelli nella stessa valutazione.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Dettagli delle metriche gestite

Questa sezione elenca le metriche gestite con dettagli quali tipo, input richiesti e output previsto:

Qualità generale

Ultima versione general_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica completa di griglie di valutazione adattive che valuta la qualità complessiva della risposta di un modello. Genera e valuta automaticamente un'ampia gamma di criteri in base ai contenuti del prompt. Questo è il punto di partenza consigliato per la maggior parte delle valutazioni.
Come accedere nell'SDK types.RubricMetric.GENERAL_QUALITY
Input
  • prompt
  • response
  • (Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Qualità del testo

Ultima versione text_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di griglie di valutazione adattive mirata che valuta in modo specifico la qualità linguistica della risposta. Valuta aspetti come la fluidità, la coerenza e la grammatica.
Come accedere nell'SDK types.RubricMetric.TEXT_QUALITY
Input
  • prompt
  • response
  • (Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Secondo istruzioni

Ultima versione instruction_following_v1
Tipo Rubriche adattive
Descrizione Una metrica di rubrica adattiva mirata che misura il grado di aderenza della risposta ai vincoli e alle istruzioni specifici forniti nel prompt.
Come accedere nell'SDK types.RubricMetric.INSTRUCTION_FOLLOWING
Input
  • prompt
  • response
  • (Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score (tasso di superamento)
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Grounding

Ultima versione grounding_v1
Tipo Griglie statiche
Descrizione Una metrica basata sul punteggio che verifica l'accuratezza e la coerenza. Verifica che la risposta del modello sia basata sul contesto.
Come accedere nell'SDK types.RubricMetric.GROUNDING
Input
  • prompt
  • response
  • context
Output
  • score
  • explanation
Il punteggio ha un intervallo di 0-1 e rappresenta il tasso di affermazioni etichettate come supported o no_rad (che non richiedono attribuzioni fattuali, come saluti, domande o dichiarazioni di non responsabilità) al prompt di input.
La spiegazione contiene raggruppamenti di frasi, etichette, ragionamenti ed estratti dal contesto.
Numero di chiamate LLM 1 chiamata a Gemini 2.5 Flash

Sicurezza

Ultima versione safety_v1
Tipo Griglie statiche
Descrizione Una metrica basata sul punteggio che valuta se la risposta del modello ha violato una o più delle seguenti norme:
  • Dati demografici e PII
  • Incitamento all'odio
  • Contenuti pericolosi
  • Molestie
  • Contenuti sessualmente espliciti
Come accedere nell'SDK types.RubricMetric.SAFETY
Input
  • prompt
  • response
Output
  • score
  • explanation
Per il punteggio, 0 non è sicuro e 1 è sicuro.
Il campo della spiegazione include le norme violate.
Numero di chiamate LLM 10 chiamate a Gemini 2.5 Flash

Qualità generale a più turni

Ultima versione multi_turn_general_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di griglie di valutazione adattive che valuta la qualità complessiva della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Input
  • prompt con conversazioni a più turni
  • response
  • (Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubriche e relativi esiti
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Qualità del testo in più passaggi

Ultima versione multi_turn_text_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di griglie di valutazione adattive che valuta la qualità del testo della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK types.RubricMetric.TEXT_QUALITY
Input
  • prompt con conversazioni a più turni
  • response
  • (Facoltativo) rubric_groups
Se hai già generato rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Corrispondenza della risposta finale dell'agente

Ultima versione final_response_match_v2
Tipo Griglie statiche
Descrizione Una metrica che valuta la qualità della risposta finale di un agente AI confrontandola con una risposta di riferimento fornita (dati empirici reali).
Come accedere nell'SDK types.RubricMetric.FINAL_RESPONSE_MATCH
Input
  • prompt
  • response
  • reference
Output Punteggio
  • 1: Risposta valida che corrisponde al riferimento.
  • 0: Risposta non valida che non corrisponde al riferimento.
Spiegazione
Numero di chiamate LLM 5 chiamate a Gemini 2.5 Flash

Riferimento alla risposta finale dell'agente gratuito

Ultima versione final_response_reference_free_v1
Tipo Rubriche adattive
Descrizione Una metrica di griglie di valutazione adattive che valuta la qualità della risposta finale di un agente AI senza richiedere una risposta di riferimento.
Devi fornire i criteri per questa metrica, in quanto non supporta i criteri generati automaticamente.
Come accedere nell'SDK types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Input
  • prompt
  • response
  • rubric_groups
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 5 chiamate a Gemini 2.5 Flash

Qualità della risposta finale dell'agente

Ultima versione final_response_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica completa di griglie di valutazione adattive che valuta la qualità complessiva della risposta di un agente. Genera automaticamente un'ampia gamma di criteri in base alla configurazione dell'agente (istruzioni e dichiarazioni per gli sviluppatori per gli strumenti disponibili per l'agente) e al prompt dell'utente, quindi valuta i criteri generati in base all'utilizzo degli strumenti negli eventi intermedi e nella risposta finale dell'agente.
Come accedere nell'SDK types.RubricMetric.FINAL_RESPONSE_QUALITY
Input
  • prompt
  • response
  • developer_instruction
  • tool_declarations (può essere un elenco vuoto)
  • intermediate_events (contenente chiamate di funzioni e risposte, può essere un elenco vuoto)
  • (Facoltativo) rubric_groups (se hai già generato griglie, puoi fornirle direttamente per la valutazione)
Output
  • score
  • rubrics e verdicts corrispondente

Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM 5 chiamate a Gemini 2.5 Flash e 1 chiamata a Gemini 2.5 Pro

Allucinazione dell'agente

Ultima versione hallucination_v1
Tipo Griglie statiche
Descrizione Una metrica basata sul punteggio che verifica la veridicità e la coerenza delle risposte di testo segmentando la risposta in affermazioni atomiche. Verifica se ogni affermazione è fondata o meno in base all'utilizzo dello strumento negli eventi intermedi. Può essere utilizzato anche per valutare eventuali risposte di testo intermedie impostando il flag evaluate_intermediate_nl_responses su true.
Come accedere nell'SDK types.RubricMetric.HALLUCINATION
Input
  • response
  • developer_instruction
  • tool_declarations (può essere un elenco vuoto)
  • intermediate_events (contenente chiamate di funzioni e risposte, può essere un elenco vuoto)
  • evaluate_intermediate_nl_responses (il valore predefinito è False)
Output
  • score
  • explanation e verdicts corrispondente
Il punteggio ha un intervallo compreso tra 0 e 1 e rappresenta il tasso di richieste etichettate come supported o no_rad (che non richiedono attribuzioni fattuali, come saluti, domande o dichiarazioni di non responsabilità) rispetto al prompt di input. La spiegazione contiene una suddivisione strutturata di rivendicazione, etichetta, motivazione ed estratti che supportano il contesto.
Numero di chiamate LLM 2 chiamate a Gemini 2.5 Flash

Qualità dell'utilizzo degli strumenti dell'agente

Ultima versione tool_use_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di rubrica adattiva mirata che valuta la selezione degli strumenti appropriati, l'utilizzo corretto dei parametri e il rispetto della sequenza di operazioni specificata.
Come accedere nell'SDK types.RubricMetric.TOOL_USE_QUALITY
Input
  • prompt
  • developer_instruction
  • tool_declarations (può essere un elenco vuoto)
  • intermediate_events (contenente chiamate di funzioni e risposte, può essere un elenco vuoto)
  • (Facoltativo) rubric_groups (se hai già generato griglie, puoi fornirle direttamente per la valutazione)
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 5 chiamate a Gemini 2.5 Flash e 1 chiamata a Gemini 2.5 Pro

Qualità della funzionalità da testo a immagine di Gecko

Ultima versione gecko_text2image_v1
Tipo Rubriche adattive
Descrizione La metrica da testo a immagine Gecko è un metodo adattivo basato su griglie di valutazione per valutare la qualità di un'immagine generata rispetto al prompt di testo corrispondente. Funziona generando prima una serie di domande dal prompt, che fungono da rubrica dettagliata e specifica per il prompt. Un modello risponde quindi a queste domande in base all'immagine generata.
Come accedere nell'SDK types.RubricMetric.GECKO_TEXT2IMAGE
Input
  • prompt
  • response: devono essere dati di file con tipo MIME immagine
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 2 chiamate a Gemini 2.5 Flash

Qualità della funzionalità da testo a video di Gecko

Ultima versione gecko_text2video_v1
Tipo Rubriche adattive
Descrizione La metrica di sintesi vocale Gecko è un metodo adattivo basato su griglie di valutazione per valutare la qualità di un video generato rispetto al prompt di testo corrispondente. Funziona generando prima una serie di domande dal prompt, che fungono da rubrica dettagliata e specifica per il prompt. Un modello risponde quindi a queste domande in base al video generato.
Come accedere nell'SDK types.RubricMetric.GECKO_TEXT2VIDEO
Input
  • prompt
  • response: devono essere dati di file con tipo MIME video
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 2 chiamate a Gemini 2.5 Flash

Passaggi successivi