Informations sur les métriques gérées basées sur des rubriques
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page fournit la liste complète des métriques gérées basées sur des rubriques proposées par Gen AI Evaluation Service, que vous pouvez utiliser dans le client GenAI du SDK Vertex AI.
Le service d'évaluation de l'IA générative propose une liste de métriques gérées basées sur des rubriques pour le framework d'évaluation axé sur les tests :
Pour les métriques avec des rubriques adaptatives, la plupart d'entre elles incluent à la fois le workflow de génération de rubriques pour chaque requête et la validation des rubriques. Vous pouvez les exécuter séparément si nécessaire. Pour en savoir plus, consultez Exécuter une évaluation.
Pour les métriques avec des rubriques statiques, aucune rubrique par requête n'est générée. Pour en savoir plus sur les résultats attendus, consultez Détails des métriques.
Chaque métrique gérée basée sur un barème possède un numéro de version. La métrique utilise la dernière version par défaut, mais vous pouvez l'épingler à une version spécifique si nécessaire :
Pour les métriques proposées en tant que modèles de requêtes de métriques, vous pouvez toujours accéder aux métriques ponctuelles via le client GenAI dans le SDK Vertex AI en utilisant la même approche. Les métriques par paires ne sont pas compatibles avec le client GenAI dans le SDK Vertex AI. Toutefois, consultez Exécuter une évaluation pour comparer deux modèles dans la même évaluation.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
Détails des métriques gérées
Cette section liste les métriques gérées et fournit des informations telles que leur type, les entrées requises et la sortie attendue :
Métrique complète de rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle. Il génère et évalue automatiquement un large éventail de critères en fonction du contenu de la requête. Il s'agit du point de départ recommandé pour la plupart des évaluations.
Accéder au SDK
types.RubricMetric.GENERAL_QUALITY
Entrée
prompt
response
(Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
6 appels à Gemini 2.5 Flash
Qualité du texte
Dernière version
text_quality_v1
Type
Rubriques adaptatives
Description
Métrique de rubriques adaptatives ciblée qui évalue spécifiquement la qualité linguistique de la réponse. Il évalue des aspects tels que la fluidité, la cohérence et la grammaire.
Accéder au SDK
types.RubricMetric.TEXT_QUALITY
Entrée
prompt
response
(Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
6 appels à Gemini 2.5 Flash
Suivi des instructions
Dernière version
instruction_following_v1
Type
Rubriques adaptatives
Description
Il s'agit d'une métrique de rubriques adaptatives ciblée qui mesure dans quelle mesure la réponse respecte les contraintes et instructions spécifiques fournies dans la requête.
Accéder au SDK
types.RubricMetric.INSTRUCTION_FOLLOWING
Entrée
prompt
response
(Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
score (taux de réussite)
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
6 appels à Gemini 2.5 Flash
Surface de référence
Dernière version
grounding_v1
Type
Grilles statiques
Description
Métrique basée sur un score qui vérifie la factualité et la cohérence. Elle vérifie que la réponse du modèle est ancrée en fonction du contexte.
Accéder au SDK
types.RubricMetric.GROUNDING
Entrée
prompt
response
context
Résultat
score
explanation
Le score est compris entre 0-1 et représente le taux d'affirmations étiquetées comme supported ou no_rad (ne nécessitant pas d'attributions factuelles, comme les salutations, les questions ou les clauses de non-responsabilité) par rapport à la requête saisie.
L'explication contient des regroupements de phrases, de libellés, de raisonnements et d'extraits du contexte.
Nombre d'appels LLM
1 appel à Gemini 2.5 Flash
Sécurité
Dernière version
safety_v1
Type
Grilles statiques
Description
Métrique basée sur un score qui évalue si la réponse du modèle a enfreint une ou plusieurs des règles suivantes :
Données permettant d'identifier personnellement les utilisateurs et données démographiques
Incitation à la haine
Contenu dangereux
Harcèlement
Caractère sexuel explicite
Accéder au SDK
types.RubricMetric.SAFETY
Entrée
prompt
response
Résultat
score
explanation
Pour le score, 0 est non sécurisé et 1 est sécurisé.
Le champ "Explication" inclut les règles enfreintes.
Nombre d'appels LLM
10 appels à Gemini 2.5 Flash
Qualité générale multitour
Dernière version
multi_turn_general_quality_v1
Type
Rubriques adaptatives
Description
Métrique de rubriques adaptatives qui évalue la qualité globale de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Entrée
prompt avec des conversations multitours
response
(Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
score
les rubriques et les verdicts correspondants.
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
6 appels à Gemini 2.5 Flash
Qualité du texte multitour
Dernière version
multi_turn_text_quality_v1
Type
Rubriques adaptatives
Description
Métrique de rubriques adaptatives qui évalue la qualité du texte de la réponse d'un modèle dans le contexte d'un dialogue multitours.
Accéder au SDK
types.RubricMetric.TEXT_QUALITY
Entrée
prompt avec des conversations multitours
response
(Facultatif) rubric_groups
Si vous avez déjà généré des rubriques, vous pouvez les fournir directement pour l'évaluation.
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
6 appels à Gemini 2.5 Flash
Correspondance de la réponse finale de l'agent
Dernière version
final_response_match_v2
Type
Grilles statiques
Description
Métrique qui évalue la qualité de la réponse finale d'un agent d'IA en la comparant à une réponse de référence fournie (vérité terrain).
Accéder au SDK
types.RubricMetric.FINAL_RESPONSE_MATCH
Entrée
prompt
response
reference
Résultat
Score
1 : Réponse valide qui correspond à la référence.
0 : réponse non valide qui ne correspond pas à la référence.
Explication
Nombre d'appels LLM
5 appels à Gemini 2.5 Flash
Réponse finale de l'agent (référence gratuite)
Dernière version
final_response_reference_free_v1
Type
Rubriques adaptatives
Description
Métrique de rubriques adaptatives qui évalue la qualité de la réponse finale d'un agent d'IA sans avoir besoin d'une réponse de référence.
Vous devez fournir des rubriques pour cette métrique, car elle n'est pas compatible avec les rubriques générées automatiquement.
Accéder au SDK
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Entrée
prompt
response
rubric_groups
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
5 appels à Gemini 2.5 Flash
Qualité de la réponse finale de l'agent
Dernière version
final_response_quality_v1
Type
Rubriques adaptatives
Description
Métrique complète de rubriques adaptatives qui évalue la qualité globale de la réponse d'un agent. Il génère automatiquement un large éventail de critères en fonction de la configuration de l'agent (instructions du développeur et déclarations pour les outils disponibles pour l'agent) et de la requête de l'utilisateur. Il évalue ensuite les critères générés en fonction de l'utilisation des outils dans les événements intermédiaires et de la réponse finale de l'agent.
Accéder au SDK
types.RubricMetric.FINAL_RESPONSE_QUALITY
Entrée
prompt
response
developer_instruction
tool_declarations (peut être une liste vide)
intermediate_events (contenant les appels de fonction et les réponses, peut être une liste vide)
(Facultatif) rubric_groups (Si vous avez déjà généré des grilles d'évaluation, vous pouvez les fournir directement pour l'évaluation.)
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
5 appels à Gemini 2.5 Flash et 1 appel à Gemini 2.5 Pro
Hallucination de l'agent
Dernière version
hallucination_v1
Type
Grilles d'évaluation statiques
Description
Métrique basée sur un score qui vérifie la factualité et la cohérence des réponses textuelles en les segmentant en affirmations atomiques. Il vérifie si chaque affirmation est fondée ou non en fonction de l'utilisation de l'outil dans les événements intermédiaires.
Il peut également être utilisé pour évaluer les réponses textuelles intermédiaires en définissant le flag evaluate_intermediate_nl_responses sur "true".
Accéder au SDK
types.RubricMetric.HALLUCINATION
Entrée
response
developer_instruction
tool_declarations (peut être une liste vide)
intermediate_events (contenant les appels de fonction et les réponses, peut être une liste vide)
evaluate_intermediate_nl_responses (la valeur par défaut est "false")
Résultat
score
explanation et verdicts correspondants
Le score est compris entre 0 et 1. Il représente le taux d'affirmations étiquetées comme supported ou no_rad (ne nécessitant pas d'attributions factuelles, comme les salutations, les questions ou les clauses de non-responsabilité) par rapport à la requête saisie. L'explication contient une analyse structurée de l'affirmation, du libellé, du raisonnement et des extraits qui soutiennent le contexte.
Nombre d'appels LLM
2 appels à Gemini 2.5 Flash
Qualité de l'utilisation des outils de l'agent
Dernière version
tool_use_quality_v1
Type
Rubriques adaptatives
Description
Métrique de rubriques adaptatives ciblée qui évalue la sélection des outils appropriés, l'utilisation correcte des paramètres et le respect de la séquence d'opérations spécifiée.
Accéder au SDK
types.RubricMetric.TOOL_USE_QUALITY
Entrée
prompt
developer_instruction
tool_declarations (peut être une liste vide)
intermediate_events (contenant les appels de fonction et les réponses, peut être une liste vide)
(Facultatif) rubric_groups (Si vous avez déjà généré des grilles d'évaluation, vous pouvez les fournir directement pour l'évaluation.)
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
5 appels à Gemini 2.5 Flash et 1 appel à Gemini 2.5 Pro
Qualité de la conversion texte-vers-image de Gecko
Dernière version
gecko_text2image_v1
Type
Rubriques adaptatives
Description
La métrique Gecko texte-vers-image est une méthode adaptative basée sur des rubriques qui permet d'évaluer la qualité d'une image générée par rapport à la requête textuelle correspondante. Pour ce faire, il génère d'abord un ensemble de questions à partir de la requête, qui servent de grille d'évaluation détaillée et spécifique à la requête. Un modèle répond ensuite à ces questions en se basant sur l'image générée.
Accéder au SDK
types.RubricMetric.GECKO_TEXT2IMAGE
Entrée
prompt
response : données de fichier avec le type MIME de l'image
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Nombre d'appels LLM
2 appels à Gemini 2.5 Flash
Qualité de la fonctionnalité texte-vers-vidéo de Gecko
Dernière version
gecko_text2video_v1
Type
Rubriques adaptatives
Description
La métrique Gecko de conversion de texte en vidéo est une méthode adaptative basée sur des rubriques permettant d'évaluer la qualité d'une vidéo générée par rapport à la requête textuelle correspondante. Pour ce faire, il génère d'abord un ensemble de questions à partir de la requête, qui servent de grille d'évaluation détaillée et spécifique à la requête. Un modèle répond ensuite à ces questions en se basant sur la vidéo générée.
Accéder au SDK
types.RubricMetric.GECKO_TEXT2VIDEO
Entrée
prompt
response : doit correspondre aux données du fichier avec le type MIME vidéo.
Résultat
score
rubrics et verdicts correspondants
Le score représente le taux de réussite de la réponse en fonction des rubriques.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/12/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/12/04 (UTC)."],[],[]]