Présentation de Gen AI Evaluation Service

Le service d'évaluation de l'IA générative fournit des outils de niveau entreprise pour évaluer de manière objective et basée sur les données les modèles d'IA générative. Il prend en charge et éclaire un certain nombre de tâches de développement, comme les migrations de modèles, la modification d'invites et le réglage fin.

Fonctionnalités de Gen AI Evaluation Service

La fonctionnalité phare du service d'évaluation de l'IA générative est la possibilité d'utiliser des rubriques adaptatives, un ensemble de tests personnalisés de réussite ou d'échec pour chaque requête. Les rubriques d'évaluation sont semblables aux tests unitaires dans le développement de logiciels. Elles visent à améliorer les performances des modèles pour diverses tâches.

Fonctionnalités de Gen AI Evaluation Service

Le service d'évaluation de l'IA générative est compatible avec les méthodes d'évaluation courantes suivantes :

  • Rubriques adaptatives (recommandé) : génère un ensemble unique de rubriques de réussite ou d'échec pour chaque requête individuelle de votre ensemble de données.

  • Rubriques statiques : appliquez un ensemble fixe de critères de notation à toutes les requêtes.

  • Métriques basées sur des calculs : utilisez des algorithmes déterministes tels que ROUGE ou BLEU lorsqu'une vérité terrain est disponible.

  • Fonctions personnalisées : définissez votre propre logique d'évaluation en Python pour des exigences spécifiques.

Génération d'ensembles de données d'évaluation

Vous pouvez créer un ensemble de données d'évaluation de différentes manières :

  • Importez un fichier contenant des instances d'invite complètes ou fournissez un modèle d'invite avec un fichier de valeurs de variables correspondant pour remplir les invites complètes.

  • Échantillonnez directement à partir des journaux de production pour évaluer l'utilisation réelle de votre modèle.

  • Générez des données synthétiques pour obtenir un grand nombre d'exemples cohérents pour n'importe quel modèle d'invite.

Interfaces compatibles

Vous pouvez définir et exécuter vos évaluations à l'aide des interfaces suivantes :

Cas d'utilisation

Le service d'évaluation de l'IA générative vous permet de voir les performances d'un modèle pour vos tâches spécifiques et selon vos critères uniques. Il fournit des insights précieux qui ne peuvent pas être obtenus à partir des classements publics ni des benchmarks généraux. Cela permet d'effectuer des tâches de développement critiques, y compris :

  • Migrations de modèles : comparez les versions de modèles pour comprendre les différences de comportement et ajuster vos requêtes et paramètres en conséquence.

  • Trouver le meilleur modèle : comparez directement les modèles Google et tiers sur vos données pour établir une référence de performances et identifier celui qui correspond le mieux à votre cas d'utilisation.

  • Amélioration des prompts : utilisez les résultats de l'évaluation pour guider vos efforts de personnalisation. En réexécutant une évaluation, vous créez une boucle de rétroaction étroite qui fournit des commentaires immédiats et quantifiables sur vos modifications.

  • Finetuning du modèle : évaluez la qualité d'un modèle affiné en appliquant des critères d'évaluation cohérents à chaque exécution.

Évaluations avec des rubriques adaptatives

Les rubriques adaptatives sont la méthode recommandée pour la plupart des cas d'utilisation de l'évaluation. Elles constituent généralement le moyen le plus rapide de commencer à évaluer.

Au lieu d'utiliser un ensemble général de rubriques de classification comme la plupart des systèmes LLM-as-a-judge, le framework d'évaluation axé sur les tests génère de manière adaptative un ensemble unique de rubriques de réussite ou d'échec pour chaque requête individuelle de votre ensemble de données. Cette approche garantit que chaque évaluation est pertinente pour la tâche spécifique évaluée.

Le processus d'évaluation de chaque requête utilise un système en deux étapes :

  1. Génération de rubriques : le service analyse d'abord votre requête et génère une liste de tests spécifiques et vérifiables (les rubriques) auxquels une bonne réponse doit répondre.

  2. Validation de la grille d'évaluation : une fois que votre modèle a généré une réponse, le service l'évalue par rapport à chaque grille, en fournissant un verdict clair (Pass ou Fail) et une explication.

Génération et validation de rubriques

Le résultat final est un taux de réussite agrégé et une répartition détaillée des rubriques réussies par le modèle. Vous obtenez ainsi des informations exploitables pour diagnostiquer les problèmes et mesurer les améliorations.

En passant de scores subjectifs de haut niveau à des résultats de tests objectifs et précis, vous pouvez adopter un cycle de développement axé sur l'évaluation et appliquer les bonnes pratiques d'ingénierie logicielle au processus de création d'applications d'IA générative.

Exemple d'évaluation avec un barème

Pour comprendre comment le service d'évaluation de l'IA générative génère et utilise les rubriques, prenons l'exemple suivant :

Requête utilisateur : Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.

Pour cette requête, l'étape de génération de la grille d'évaluation peut produire les grilles d'évaluation suivantes :

  • Grille 1 : la réponse est un résumé de l'article fourni.

  • Rubrique 2 : la réponse contient exactement quatre phrases.

  • Rubrique 3 : La réponse adopte un ton optimiste.

Votre modèle peut produire la réponse suivante : The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.

Lors de la validation de la grille d'évaluation, le service d'évaluation de l'IA générative évalue la réponse par rapport à chaque grille :

  • Grille 1 : la réponse est un résumé de l'article fourni.

    • Verdict : Pass

    • Raison : la réponse résume précisément les points principaux.

  • Rubrique 2 : la réponse contient exactement quatre phrases.

    • Verdict : Pass

    • Raison : La réponse est composée de quatre phrases distinctes.

  • Rubrique 3 : La réponse adopte un ton optimiste.

    • Verdict : Fail

    • Raison : la dernière phrase introduit un point négatif, qui nuit au ton optimiste.

Le taux de réussite final pour cette réponse est de 66,7 %. Pour comparer deux modèles, vous pouvez évaluer leurs réponses par rapport à ce même ensemble de tests générés et comparer leurs taux de réussite globaux.

Workflow d'évaluation

Pour effectuer une évaluation, vous devez généralement suivre les étapes suivantes :

  • Créer un ensemble de données d'évaluation : assemblez un ensemble de données d'instances d'invite qui reflètent votre cas d'utilisation spécifique. Vous pouvez inclure des réponses de référence (vérité terrain) si vous prévoyez d'utiliser des métriques basées sur des calculs.

  • Définissez les métriques d'évaluation : choisissez les métriques que vous souhaitez utiliser pour mesurer les performances du modèle. Le SDK est compatible avec tous les types de métriques, tandis que la console est compatible avec les rubriques adaptatives.

  • Générer des réponses du modèle : sélectionnez un ou plusieurs modèles pour générer des réponses pour votre ensemble de données. Le SDK est compatible avec tous les modèles appelables viaLiteLLM, tandis que la console est compatible avec les modèles Google Gemini.

  • Exécuter l'évaluation : exécutez le job d'évaluation, qui évalue les réponses de chaque modèle par rapport aux métriques que vous avez sélectionnées.

  • Interpréter les résultats : examinez les scores agrégés et les réponses individuelles pour analyser les performances du modèle.

Premiers pas avec les évaluations

Vous pouvez commencer à effectuer des évaluations à l'aide de la console.

Vous pouvez également utiliser le code suivant pour effectuer une évaluation avec le client GenAI dans le SDK Vertex AI :

from vertexai import Client
from vertexai import types
import pandas as pd

client = Client(project=PROJECT_ID, location=LOCATION)

# Create an evaluation dataset
prompts_df = pd.DataFrame({
    "prompt": [
        "Write a simple story about a dinosaur",
        "Generate a poem about Vertex AI",
    ],
})

# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)

# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.RubricMetric.GENERAL_QUALITY]
)

# View the evaluation results
eval_result.show()

Le service d'évaluation de l'IA générative propose deux interfaces SDK :

  • Client GenAI dans le SDK Vertex AI (recommandé) (version preview)

    from vertexai import client

    Le client GenAI est la nouvelle interface recommandée pour l'évaluation. Vous pouvez y accéder via la classe client unifiée. Il est compatible avec toutes les méthodes d'évaluation et est conçu pour les workflows qui incluent la comparaison de modèles, la visualisation dans un notebook et des insights pour la personnalisation de modèles.

  • Module d'évaluation dans le SDK Vertex AI (disponibilité générale)

    from vertexai.evaluation import EvalTask

    Le module d'évaluation est l'ancienne interface. Il est conservé pour assurer la rétrocompatibilité avec les workflows existants, mais n'est plus en cours de développement actif. Il est accessible via la classe EvalTask. Cette méthode est compatible avec les métriques standards basées sur le calcul et les LLM en tant que juges, mais pas avec les méthodes d'évaluation plus récentes comme les rubriques adaptatives.

Régions où le service est disponible

Les régions suivantes sont compatibles avec le service d'évaluation de l'IA générative :

  • Iowa (us-central1)

  • Virginie du Nord (us-east4)

  • Oregon (us-west1)

  • Las Vegas, Nevada (us-west4)

  • Belgique (europe-west1)

  • Pays-Bas (europe-west4)

  • Paris, France (europe-west9)

Étapes suivantes