Nesta página, mostramos como avaliar seus modelos e aplicativos de IA generativa em vários casos de uso usando o cliente GenAI no SDK da Vertex AI.
Antes de começar
-
Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
Verify that billing is enabled for your Google Cloud project.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
Verify that billing is enabled for your Google Cloud project.
Instale o SDK da Vertex AI para Python:
!pip install google-cloud-aiplatform[evaluation]
Configure suas credenciais. Se você estiver executando este tutorial no Colaboratory, faça o seguinte:
from google.colab import auth auth.authenticate_user()
Para outros ambientes, consulte Autenticar na Vertex AI.
Prepare seu conjunto de dados como um DataFrame do Pandas:
import pandas as pd eval_df = pd.DataFrame({ "prompt": [ "Explain software 'technical debt' using a concise analogy of planting a garden.", "Write a Python function to find the nth Fibonacci number using recursion with memoization, but without using any imports.", "Write a four-line poem about a lonely robot, where every line must be a question and the word 'and' cannot be used.", "A drawer has 10 red socks and 10 blue socks. In complete darkness, what is the minimum number of socks you must pull out to guarantee you have a matching pair?", "An AI discovers a cure for a major disease, but the cure is based on private data it analyzed without consent. Should the cure be released? Justify your answer." ] })
Gere respostas do modelo usando
run_inference()
:eval_dataset = client.evals.run_inference( model="gemini-2.5-flash", src=eval_df, )
Visualize os resultados da inferência chamando
.show()
no objetoEvaluationDataset
para inspecionar as saídas do modelo junto com os comandos e referências originais:eval_dataset.show()
Avalie as respostas do modelo usando a métrica adaptativa baseada em rubrica padrão do
GENERAL_QUALITY
:eval_result = client.evals.evaluate(dataset=eval_dataset)
Visualize os resultados da avaliação chamando
.show()
no objetoEvaluationResult
para mostrar métricas de resumo e resultados detalhados:eval_result.show()
Gerar respostas
Gere respostas do modelo para seu conjunto de dados usando run_inference()
:
A imagem a seguir mostra o conjunto de dados de avaliação com comandos e as respostas geradas correspondentes:
Executar a avaliação
Execute evaluate()
para avaliar as respostas do modelo:
A imagem a seguir mostra um relatório de avaliação, que apresenta métricas de resumo e resultados detalhados para cada par comando-resposta.
Limpar
Nenhum recurso da Vertex AI é criado durante este tutorial.