Informations sur les métriques gérées basées sur des rubriques

Cette page fournit la liste complète des métriques gérées basées sur des rubriques proposées par Gen AI Evaluation Service, que vous pouvez utiliser dans le client GenAI du SDK Vertex AI.

Pour en savoir plus sur l'évaluation axée sur les tests, consultez Définir vos métriques d'évaluation.

Présentation

Le service d'évaluation de l'IA générative propose une liste de métriques gérées basées sur des rubriques pour le framework d'évaluation axé sur les tests :

Pour les métriques avec des rubriques adaptatives, la plupart d'entre elles incluent à la fois le workflow de génération de rubriques pour chaque requête et la validation des rubriques. Vous pouvez les exécuter séparément si nécessaire. Pour en savoir plus, consultez Exécuter une évaluation.
Pour les métriques avec des rubriques statiques, aucune rubrique par requête n'est générée. Pour en savoir plus sur les résultats attendus, consultez Détails des métriques.

Chaque métrique gérée basée sur un barème possède un numéro de version. La métrique utilise la dernière version par défaut, mais vous pouvez l'épingler à une version spécifique si nécessaire :

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Rétrocompatibilité

Pour les métriques proposées en tant que modèles de requêtes de métriques, vous pouvez toujours accéder aux métriques ponctuelles via le client GenAI dans le SDK Vertex AI en utilisant la même approche. Les métriques par paires ne sont pas compatibles avec le client GenAI dans le SDK Vertex AI. Toutefois, consultez Exécuter une évaluation pour comparer deux modèles dans la même évaluation.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Détails des métriques gérées

Cette section liste les métriques gérées et fournit des informations telles que leur type, les entrées requises et la sortie attendue :

Qualité générale
Qualité du texte
Suivi des instructions
Ancrage
Sécurité
Qualité générale multitour
Qualité du texte multitour
Correspondance de la réponse finale de l'agent
Référence gratuite pour la réponse finale de l'agent
Qualité de la réponse finale de l'agent
Hallucination de l'agent
Qualité de l'utilisation des outils par l'agent
Qualité de la conversion de texte en image de Gecko
Qualité de la fonctionnalité de synthèse vocale de Gecko

Qualité générale

Dernière version	`general_quality_v1`
Type	Rubriques adaptatives
Description	Métrique complète de rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle. Il génère et évalue automatiquement un large éventail de critères en fonction du contenu de la requête. Il s'agit du point de départ recommandé pour la plupart des évaluations.
Accéder au SDK	`types.RubricMetric.GENERAL_QUALITY`
Entrée	`prompt` `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Qualité du texte

Dernière version	`text_quality_v1`
Type	Rubriques adaptatives
Description	Métrique de rubriques adaptatives ciblée qui évalue spécifiquement la qualité linguistique de la réponse. Il évalue des aspects tels que la fluidité, la cohérence et la grammaire.
Accéder au SDK	`types.RubricMetric.TEXT_QUALITY`
Entrée	`prompt` `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Suivi des instructions

Dernière version	`instruction_following_v1`
Type	Rubriques adaptatives
Description	Il s'agit d'une métrique de rubriques adaptatives ciblée qui mesure dans quelle mesure la réponse respecte les contraintes et instructions spécifiques fournies dans la requête.
Accéder au SDK	`types.RubricMetric.INSTRUCTION_FOLLOWING`
Entrée	`prompt` `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` (taux de réussite) `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Surface de référence

Dernière version	`grounding_v1`
Type	Grilles statiques
Description	Métrique basée sur un score qui vérifie la factualité et la cohérence. Elle vérifie que la réponse du modèle est ancrée en fonction du contexte.
Accéder au SDK	`types.RubricMetric.GROUNDING`
Entrée	`prompt` `response` `context`
Résultat	`score` `explanation` Le score est compris entre `0-1` et représente le taux d'affirmations étiquetées comme `supported` ou `no_rad` (ne nécessitant pas d'attributions factuelles, comme les salutations, les questions ou les clauses de non-responsabilité) par rapport à la requête saisie. L'explication contient des regroupements de phrases, de libellés, de raisonnements et d'extraits du contexte.
Nombre d'appels LLM	1 appel à Gemini 2.5 Flash

Sécurité

Dernière version	`safety_v1`
Type	Grilles statiques
Description	Métrique basée sur un score qui évalue si la réponse du modèle a enfreint une ou plusieurs des règles suivantes : Données permettant d'identifier personnellement les utilisateurs et données démographiques Incitation à la haine Contenu dangereux Harcèlement Caractère sexuel explicite
Accéder au SDK	`types.RubricMetric.SAFETY`
Entrée	`prompt` `response`
Résultat	`score` `explanation` Pour le score, `0` est non sécurisé et `1` est sécurisé. Le champ "Explication" inclut les règles enfreintes.
Nombre d'appels LLM	10 appels à Gemini 2.5 Flash

Qualité générale multitour

Dernière version	`multi_turn_general_quality_v1`
Type	Rubriques adaptatives
Description	Métrique de rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
Entrée	`prompt` avec des conversations multitours `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` les rubriques et les verdicts correspondants. Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Qualité du texte multitour

Dernière version	`multi_turn_text_quality_v1`
Type	Rubriques adaptatives
Description	Métrique de rubriques adaptatives qui évalue la qualité du texte de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK	`types.RubricMetric.TEXT_QUALITY`
Entrée	`prompt` avec des conversations multitours `response` (Facultatif) `rubric_groups` Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	6 appels à Gemini 2.5 Flash

Correspondance de la réponse finale de l'agent

Dernière version	`final_response_match_v2`
Type	Grilles statiques
Description	Métrique qui évalue la qualité de la réponse finale d'un agent d'IA en la comparant à une réponse de référence fournie (vérité terrain).
Accéder au SDK	`types.RubricMetric.FINAL_RESPONSE_MATCH`
Entrée	`prompt` `response` `reference`
Résultat	Score 1 : Réponse valide qui correspond à la référence. 0 : réponse non valide qui ne correspond pas à la référence. Explication
Nombre d'appels LLM	5 appels à Gemini 2.5 Flash

Réponse finale de l'agent (référence gratuite)

Dernière version	`final_response_reference_free_v1`
Type	Rubriques adaptatives
Description	Métrique de rubriques adaptatives qui évalue la qualité de la réponse finale d'un agent d'IA sans avoir besoin d'une réponse de référence. Vous devez fournir des rubriques pour cette métrique, car elle n'est pas compatible avec les rubriques générées automatiquement.
Accéder au SDK	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
Entrée	`prompt` `response` `rubric_groups`
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	5 appels à Gemini 2.5 Flash

Qualité de la réponse finale de l'agent

Dernière version	`final_response_quality_v1`
Type	Rubriques adaptatives
Description	Métrique complète de rubriques adaptatives qui évalue la qualité globale de la réponse d'un agent. Il génère automatiquement un large éventail de critères en fonction de la configuration de l'agent (instructions du développeur et déclarations pour les outils disponibles pour l'agent) et de la requête de l'utilisateur. Il évalue ensuite les critères générés en fonction de l'utilisation des outils dans les événements intermédiaires et de la réponse finale de l'agent.
Accéder au SDK	`types.RubricMetric.FINAL_RESPONSE_QUALITY`
Entrée	`prompt` `response` `developer_instruction` `tool_declarations` (peut être une liste vide) `intermediate_events` (contenant les appels de fonction et les réponses, peut être une liste vide) (Facultatif) `rubric_groups` (Si vous avez déjà généré des grilles d'évaluation, vous pouvez les fournir directement pour l'évaluation.)
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	5 appels à Gemini 2.5 Flash et 1 appel à Gemini 2.5 Pro

Hallucination de l'agent

Dernière version	`hallucination_v1`
Type	Grilles d'évaluation statiques
Description	Métrique basée sur un score qui vérifie la factualité et la cohérence des réponses textuelles en les segmentant en affirmations atomiques. Il vérifie si chaque affirmation est fondée ou non en fonction de l'utilisation de l'outil dans les événements intermédiaires. Il peut également être utilisé pour évaluer les réponses textuelles intermédiaires en définissant le flag `evaluate_intermediate_nl_responses` sur "true".
Accéder au SDK	`types.RubricMetric.HALLUCINATION`
Entrée	`response` `developer_instruction` `tool_declarations` (peut être une liste vide) `intermediate_events` (contenant les appels de fonction et les réponses, peut être une liste vide) `evaluate_intermediate_nl_responses` (la valeur par défaut est "false")
Résultat	`score` `explanation` et `verdicts` correspondants Le score est compris entre 0 et 1. Il représente le taux d'affirmations étiquetées comme `supported` ou `no_rad` (ne nécessitant pas d'attributions factuelles, comme les salutations, les questions ou les clauses de non-responsabilité) par rapport à la requête saisie. L'explication contient une analyse structurée de l'affirmation, du libellé, du raisonnement et des extraits qui soutiennent le contexte.
Nombre d'appels LLM	2 appels à Gemini 2.5 Flash

Qualité de l'utilisation des outils de l'agent

Dernière version	`tool_use_quality_v1`
Type	Rubriques adaptatives
Description	Métrique de rubriques adaptatives ciblée qui évalue la sélection des outils appropriés, l'utilisation correcte des paramètres et le respect de la séquence d'opérations spécifiée.
Accéder au SDK	`types.RubricMetric.TOOL_USE_QUALITY`
Entrée	`prompt` `developer_instruction` `tool_declarations` (peut être une liste vide) `intermediate_events` (contenant les appels de fonction et les réponses, peut être une liste vide) (Facultatif) `rubric_groups` (Si vous avez déjà généré des grilles d'évaluation, vous pouvez les fournir directement pour l'évaluation.)
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	5 appels à Gemini 2.5 Flash et 1 appel à Gemini 2.5 Pro

Qualité de la conversion texte-vers-image de Gecko

Dernière version	`gecko_text2image_v1`
Type	Rubriques adaptatives
Description	La métrique Gecko texte-vers-image est une méthode adaptative basée sur des rubriques qui permet d'évaluer la qualité d'une image générée par rapport à la requête textuelle correspondante. Pour ce faire, il génère d'abord un ensemble de questions à partir de la requête, qui servent de grille d'évaluation détaillée et spécifique à la requête. Un modèle répond ensuite à ces questions en se basant sur l'image générée.
Accéder au SDK	`types.RubricMetric.GECKO_TEXT2IMAGE`
Entrée	`prompt` `response` : données de fichier avec le type MIME de l'image
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	2 appels à Gemini 2.5 Flash

Qualité de la fonctionnalité texte-vers-vidéo de Gecko

Dernière version	`gecko_text2video_v1`
Type	Rubriques adaptatives
Description	La métrique Gecko de conversion de texte en vidéo est une méthode adaptative basée sur des rubriques permettant d'évaluer la qualité d'une vidéo générée par rapport à la requête textuelle correspondante. Pour ce faire, il génère d'abord un ensemble de questions à partir de la requête, qui servent de grille d'évaluation détaillée et spécifique à la requête. Un modèle répond ensuite à ces questions en se basant sur la vidéo générée.
Accéder au SDK	`types.RubricMetric.GECKO_TEXT2VIDEO`
Entrée	`prompt` `response` : doit correspondre aux données du fichier avec le type MIME vidéo.
Résultat	`score` `rubrics` et `verdicts` correspondants Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM	2 appels à Gemini 2.5 Flash

Étapes suivantes

Préparez votre ensemble de données d'évaluation.