Tutoriel : Effectuer une évaluation à l'aide du client GenAI dans le SDK Agent Platform

Cette page vous explique comment évaluer vos modèles et applications d'IA générative pour différents cas d'utilisation à l'aide du client GenAI dans le SDK Agent Platform.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.

    In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

    Verify that billing is enabled for your Google Cloud project.

    In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

    Verify that billing is enabled for your Google Cloud project.

  2. Installez le SDK Agent Platform :

    !pip install google-cloud-aiplatform[evaluation]
    
  3. Configurez vos identifiants. Si vous exécutez ce tutoriel dans Colaboratory, exécutez la commande suivante :

    from google.colab import auth
    auth.authenticate_user()
    

    Pour les autres environnements, consultez S'authentifier auprès de l'Agent Platform.

Initialiser le client GenAI

Pour initialiser le client GenAI, exécutez la commande suivante :

from vertexai import Client

client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

Où :

  • YOUR_PROJECT_ID : ID de votre projet Google Cloud .
  • YOUR_LOCATION : votre région cloud, par exemple us-central1.

Générer des réponses

Générez des réponses de modèle pour votre ensemble de données à l'aide de run_inference() :

  1. Préparez votre ensemble de données en tant que DataFrame Pandas :

    import pandas as pd
    
    eval_df = pd.DataFrame({
      "prompt": [
          "Explain software 'technical debt' using a concise analogy of planting a garden.",
          "Write a Python function to find the nth Fibonacci number using recursion with memoization, but without using any imports.",
          "Write a four-line poem about a lonely robot, where every line must be a question and the word 'and' cannot be used.",
          "A drawer has 10 red socks and 10 blue socks. In complete darkness, what is the minimum number of socks you must pull out to guarantee you have a matching pair?",
          "An AI discovers a cure for a major disease, but the cure is based on private data it analyzed without consent. Should the cure be released? Justify your answer."
      ]
    })
    
  2. Générez des réponses de modèle à l'aide de run_inference() :

    eval_dataset = client.evals.run_inference(
      model="gemini-2.5-flash",
      src=eval_df,
    )
    
  3. Visualisez vos résultats d'inférence en appelant .show() sur l'objet EvaluationDataset pour inspecter les sorties du modèle en même temps que vos requêtes et références d'origine :

    eval_dataset.show()
    

L'image suivante affiche l'ensemble de données d'évaluation avec les requêtes et les réponses générées correspondantes :

Tableau affichant un ensemble de données d'évaluation avec des colonnes pour les requêtes et les réponses.

Exécuter l'évaluation

Exécutez evaluate() pour évaluer les réponses du modèle :

  1. Évaluez les réponses du modèle à l'aide de la métrique adaptative basée sur des rubriques par défaut :GENERAL_QUALITY

    eval_result = client.evals.evaluate(dataset=eval_dataset)
    
  2. Visualisez vos résultats d'évaluation en appelant .show() sur l'objet EvaluationResult pour afficher les métriques récapitulatives et les résultats détaillés :

    eval_result.show()
    

L'image suivante affiche un rapport d'évaluation, qui présente des métriques récapitulatives et des résultats détaillés pour chaque paire requête/réponse.

Un rapport d'évaluation affichant des métriques récapitulatives ainsi que des résultats détaillés pour chaque paire requête-réponse.

Effectuer un nettoyage

Aucune ressource Gemini Enterprise Agent Platform n'est créée pendant ce tutoriel.

Étapes suivantes