Gen AI Evaluation Service fournit des outils pensés pour les entreprises afin d'évaluer les modèles d'IA générative de manière objective et en s'appuyant sur les données. Il prend en charge et informe un certain nombre de tâches de développement, telles que les migrations de modèles, la modification des requêtes et l'ajustement.
Fonctionnalités de Gen AI Evaluation Service
La fonctionnalité déterminante de Gen AI Evaluation Service est la possibilité d'utiliser des rubriques adaptatives, un ensemble de tests personnalisés de réussite ou d'échec pour chaque requête individuelle. Les rubriques d'évaluation sont semblables aux tests unitaires dans le développement de logiciels et visent à améliorer les performances des modèles pour diverses tâches.

Gen AI Evaluation Service est compatible avec les méthodes d'évaluation courantes suivantes :
Rubriques adaptatives (recommandé) : génère un ensemble unique de rubriques de réussite ou d’échec pour chaque requête individuelle de votre ensemble de données.
Rubriques statiques : applique un ensemble fixe de critères de notation à toutes les requêtes.
Métriques basées sur le calcul : utilise des algorithmes déterministes tels que
ROUGEouBLEUlorsqu'une vérité terrain est disponible.Fonctions personnalisées : définit votre propre logique d'évaluation en Python pour des exigences spécialisées.
Génération d'ensembles de données d'évaluation
Vous pouvez créer un ensemble de données d'évaluation à l'aide des méthodes suivantes :
Importer un fichier contenant des instances de requêtes complètes ou fournir un modèle de requête avec un fichier de valeurs variables correspondant pour remplir les requêtes complètes.
Échantillonner directement à partir des journaux de production pour évaluer l'utilisation réelle de votre modèle.
Utiliser la génération de données synthétiques pour générer un grand nombre d'exemples cohérents pour n'importe quel modèle de requête.
Interfaces compatibles
Vous pouvez définir et exécuter vos évaluations à l'aide des interfaces suivantes :
Google Cloud Console : interface utilisateur Web qui fournit un workflow guidé de bout en bout. Gérez vos ensembles de données, exécutez des évaluations et explorez en détail les rapports et visualisations interactifs. Consultez Effectuer une évaluation à l'aide de la console.
SDK Python : exécutez des évaluations par programmation et affichez des comparaisons de modèles côte à côte directement dans votre environnement Colab ou Jupyter. Consultez Effectuer une évaluation à l'aide du client GenAI dans le SDK Agent Platform.
Cas d'utilisation
Gen AI Evaluation Service vous permet de voir les performances d'un modèle pour vos tâches spécifiques et par rapport à vos critères uniques, ce qui fournit des insights précieux qui ne peuvent pas être obtenus à partir de classements publics ni d'analyses comparatives générales. Cela prend en charge les tâches de développement critiques, y compris les suivantes :
Migrations de modèles : comparez les versions de modèles pour comprendre les différences de comportement et ajuster vos requêtes et paramètres en conséquence.
Recherche du meilleur modèle : exécutez des comparaisons directes des modèles Google et tiers sur vos données pour établir une référence de performances et identifier le modèle le plus adapté à votre cas d'utilisation.
Amélioration des requêtes : utilisez les résultats de l'évaluation pour guider vos efforts de personnalisation. La réexécution d'une évaluation crée une boucle de rétroaction étroite, fournissant des commentaires immédiats et quantifiables sur vos modifications.
Ajustement des modèles : évaluez la qualité d'un modèle ajusté en appliquant des critères d'évaluation cohérents à chaque exécution.
Évaluation des agents : évaluez les performances d'un agent à l'aide de métriques spécifiques à l'agent, telles que les traces d'agent et la qualité des réponses.
Workflow d'évaluation
Pour effectuer une évaluation, vous devez généralement suivre les étapes suivantes :
Créer un ensemble de données d'évaluation : assemblez un ensemble de données d'instances de requêtes qui reflètent votre cas d'utilisation spécifique. Vous pouvez inclure des réponses de référence (vérité terrain) si vous prévoyez d'utiliser des métriques basées sur le calcul.
Définir des métriques d'évaluation : choisissez les métriques que vous souhaitez utiliser pour mesurer les performances du modèle.
Générer des réponses de modèle : sélectionnez un ou plusieurs modèles pour générer des réponses pour votre ensemble de données. Le SDK Agent Platform est compatible avec tous les modèles pouvant être appelés via
LiteLLM, tandis que la console est compatible avec les modèles Google Gemini.Exécuter l'évaluation : exécutez la tâche d'évaluation, qui évalue les réponses de chaque modèle par rapport aux métriques sélectionnées.
Interpréter les résultats : examinez les scores agrégés et les réponses individuelles pour analyser les performances du modèle.
Métriques d'évaluation
Voici les concepts de base liés aux métriques d'évaluation :
Rubriques : critères permettant d'évaluer la réponse d'un modèle ou d'une application LLM.
Métriques : score qui mesure la sortie du modèle par rapport aux rubriques de notation.
Gen AI Evaluation Service propose les catégories de métriques suivantes :
Métriques basées sur des rubriques : intègrent des LLM dans les workflows d'évaluation pour évaluer la qualité des réponses du modèle. Les évaluations basées sur des rubriques conviennent à diverses tâches, en particulier la qualité de l'écriture, la sécurité et le respect des instructions, qui sont souvent difficiles à évaluer avec des algorithmes déterministes.
Rubriques adaptatives (recommandé) : les rubriques sont générées de manière dynamique pour chaque requête, comme des tests unitaires. Les réponses sont évaluées avec un ensemble unique de tests de réussite ou d'échec pour chaque requête individuelle de votre ensemble de données. Les rubriques maintiennent l'évaluation pertinente pour la tâche demandée et visent à fournir des résultats objectifs, explicables et cohérents.
Les rubriques adaptatives sont généralement le moyen le plus rapide de commencer à utiliser les évaluations, en veillant à ce que chaque évaluation soit pertinente pour la tâche spécifique évaluée.
Rubriques statiques : les rubriques sont définies explicitement et la même rubrique s'applique à toutes les requêtes. Les réponses sont évaluées avec le même ensemble d'évaluateurs basés sur une notation numérique. Un seul score numérique (par exemple, de 1 à 5) par requête. Utilisez des rubriques statiques lorsqu'une évaluation est requise sur une dimension très spécifique ou lorsque la même rubrique exacte est requise pour toutes les requêtes.
Métriques basées sur le calcul : évaluez les réponses avec des algorithmes déterministes, généralement à l'aide de la vérité terrain. Un score numérique (par exemple, de 0,0 à 1,0) par requête. Lorsque la vérité terrain est disponible et peut être mise en correspondance avec une méthode déterministe.
Métriques de fonctions personnalisées (SDK Agent Platform uniquement) : définissez votre propre métrique via une fonction Python.
Exemple de rubriques adaptatives
Le processus d'évaluation de chaque requête utilise un système en deux étapes :
Génération de rubriques : le service analyse d'abord votre requête et génère une liste de tests spécifiques et vérifiables (les rubriques) auxquels une bonne réponse doit répondre.
Validation des rubriques : une fois que votre modèle a généré une réponse, le service évalue la réponse par rapport à chaque rubrique, en fournissant un verdict clair
PassouFailet une justification.
Le résultat final est un taux de réussite agrégé et une répartition détaillée des rubriques que le modèle a réussi, ce qui vous donne des insights exploitables pour diagnostiquer les problèmes et mesurer les améliorations.
En passant de scores subjectifs de haut niveau à des résultats de test objectifs et précis, vous pouvez adopter un cycle de développement axé sur l'évaluation et appliquer les bonnes pratiques d'ingénierie logicielle au processus de création d'applications d'IA générative.
L'exemple suivant montre des exemples de rubriques adaptatives générées pour un ensemble de requêtes :
Requête utilisateur : Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.
Pour cette requête, l'étape de génération de rubriques peut produire les rubriques suivantes :
Rubrique 1 : la réponse est un résumé de l'article fourni.
Rubrique 2 : la réponse contient exactement quatre phrases.
Rubrique 3 : la réponse maintient un ton optimiste.
Votre modèle peut produire la réponse suivante : The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.
Lors de la validation des rubriques, Gen AI Evaluation Service évalue la réponse par rapport à chaque rubrique :
Rubrique 1 : la réponse est un résumé de l'article fourni.
Verdict:
PassMotif : la réponse résume avec précision les points principaux.
Rubrique 2 : la réponse contient exactement quatre phrases.
Verdict:
PassMotif : la réponse est composée de quatre phrases distinctes.
Rubrique 3 : la réponse maintient un ton optimiste.
Verdict:
FailMotif : la dernière phrase introduit un point négatif, qui nuit au ton optimiste.
Le taux de réussite final pour cette réponse est de 66,7 %. Pour comparer deux modèles, vous pouvez évaluer leurs réponses par rapport à ce même ensemble de tests générés et comparer leurs taux de réussite globaux.
Premiers pas avec les évaluations
Vous pouvez commencer à utiliser les évaluations à l'aide de la console.
Vous pouvez également utiliser le code suivant pour effectuer une évaluation avec le client GenAI dans le SDK Agent Platform :
from vertexai import Client
from vertexai import types
import pandas as pd
client = Client(project=PROJECT_ID, location=LOCATION)
# Create an evaluation dataset
prompts_df = pd.DataFrame({
"prompt": [
"Write a simple story about a dinosaur",
"Generate a poem about Agent Platform",
],
})
# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)
# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.RubricMetric.GENERAL_QUALITY]
)
# View the evaluation results
eval_result.show()
Gen AI Evaluation Service propose deux interfaces SDK Agent Platform :
Client GenAI dans le SDK Agent Platform (recommandé) (preview)
from vertexai import clientLe client GenAI est l'interface d'évaluation la plus récente et recommandée, accessible via la classe Client unifiée. Il est compatible avec toutes les méthodes d'évaluation et est conçu pour les workflows qui incluent la comparaison de modèles, la visualisation dans un notebook et des insights pour la personnalisation de modèles.
Module d'évaluation dans le SDK Agent Platform (DG)
from vertexai.evaluation import EvalTaskLe module d'évaluation est la plus ancienne interface, maintenue pour assurer la rétrocompatibilité avec les workflows existants, mais qui n'est plus en cours de développement actif. Il est accessible via la classe
EvalTask. Cette méthode est compatible avec les métriques standard LLM-as-a-judge et basées sur le calcul, mais pas avec les méthodes d'évaluation plus récentes, telles que les rubriques adaptatives.
Régions où le service est disponible
Les régions suivantes sont compatibles avec Gen AI Evaluation Service :
Iowa (
us-central1)Virginie du Nord (
us-east4)Oregon (
us-west1)Las Vegas, Nevada (
us-west4)Belgique (
europe-west1)Pays-Bas (
europe-west4)Paris, France (
europe-west9)
Notebooks disponibles
| Liens vers les notebooks | Description |
|---|---|
| Premiers pas : évaluation rapide de l'IA générative | Présente Gen AI Evaluation Service. |
| Évaluation de modèles tiers avec Gen AI Evaluation Service | Montre comment utiliser le **SDK Agent Platform** pour évaluer différents types de modèles tiers, y compris les modèles accessibles à l'aide d'une API (comme OpenAI, Anthropic), le modèle en tant que service (MaaS) de Vertex Model Garden et les points de terminaison Bring Your Own Model (BYOM). |
| Migration de modèles avec Gen AI Evaluation Service | Montre comment utiliser le **SDK Agent Platform** pour Gen AI Evaluation Service afin de comparer deux modèles propriétaires (par exemple, Gemini 2.0 Flash et Gemini 2.5 Flash). Il met en évidence l'utilisation de métriques prédéfinies basées sur des rubriques adaptatives et explique comment les résultats de l'évaluation peuvent guider l'optimisation des requêtes. Les fonctionnalités clés telles que l'évaluation multicandidats, la visualisation dans un notebook et l'évaluation par lot asynchrone sont également abordées. |
| Évaluation de la qualité de la conversion texte-image avec Gen AI Evaluation Service | Montre comment utiliser le SDK Vertex AI pour Gen AI Evaluation Service afin d'évaluer la qualité des images générées en fonction de requêtes textuelles. Il montre comment utiliser la métrique Gecko prédéfinie basée sur des rubriques adaptatives. |
| Évaluation de la qualité de la conversion texte-vidéo avec Gen AI Evaluation Service | Montre comment utiliser le **SDK Agent Platform** pour Gen AI Evaluation Service afin d'évaluer la qualité des vidéos générées en fonction de requêtes textuelles. Il montre comment utiliser la métrique Gecko prédéfinie basée sur des rubriques adaptatives. |