Esse recurso permite avaliar agentes de IA. É possível usar o serviço de avaliação de IA generativa para medir e melhorar a performance, a segurança e a qualidade dos agentes.
Tipos de avaliação
| Tipo de avaliação | Caso de uso | Frequência |
|---|---|---|
| Avaliação rápida | Testar uma nova lógica de agente ou mudanças no modelo. | Frequente (desenvolvimento) |
| Avaliação de caso de teste | Teste de regressão em um conjunto de dados específico. | Programada (CI/CD) |
| Monitoramento on-line | Acompanhar a qualidade de uma implantação de agente de produção. | Contínuo (Production) |
Fluxo de trabalho de avaliação
É possível avaliar seus agentes usando o Google Cloud console ou o SDK da plataforma de agentes.
Google Cloud Console do
Para executar uma avaliação básica de uma implantação de agente:
- No Google Cloud console, navegue até a página Plataforma de agentes > Agentes.
No menu de navegação à esquerda, selecione Implantações e escolha seu agente.
Selecione a guia Painel e a subseção Avaliação.
Clique em Nova avaliação.
Siga as instruções para definir seus casos de teste e selecionar métricas.
Clique em Executar avaliação.
Para guias mais detalhados, consulte Executar avaliações off-line ou Avaliação contínua com monitores on-line.
SDK da plataforma de agentes
O fluxo de trabalho de melhoria do agente é baseado no ciclo de feedback de qualidade, um ciclo contínuo de avaliação, análise e otimização. Você avalia o desempenho do agente, analisa os resultados para identificar clusters de falhas e otimiza os comandos ou a configuração para resolver esses problemas. Esse processo iterativo ajuda a detectar e resolver proativamente as lacunas de performance.
Antes de começar
- Instale o SDK da plataforma de agentes com as extensões necessárias:
%pip install google-cloud-aiplatform[adk,evaluation]
- Inicialize o cliente do SDK da plataforma de agentes:
import vertexai
from vertexai import Client
client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Em que:
YOUR_PROJECT_ID: o ID do Google Cloud projeto.YOUR_LOCATION: a região do Cloud. Por exemplo,us-central1.
1. Definir casos de avaliação (simulação do usuário)
Em vez de criar casos de teste manualmente, use a simulação do usuário para gerar planos de conversa sintéticos de várias rodadas com base nas instruções do agente.
# 1. Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
agent_info=my_agent_info,
config={
"count": 5,
"generation_instruction": "Generate scenarios where a user asks for a refund.",
},
)
Para mais informações, consulte a referência do SDK da plataforma de agentes.
2. Executar inferências
Execute os casos de avaliação no agente para capturar traces.
# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
agent=my_agent,
src=eval_dataset,
config={"user_simulator_config": {"max_turn": 5}}
)
3. Calcular métricas (AutoRaters)
Use AutoRaters de várias rodadas para classificar os traces capturados. Esses classificadores analisam o histórico completo da conversa para verificar a adesão às instruções e o uso de ferramentas.
# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
traces=traces,
metrics=[
"MULTI_TURN_TASK_SUCCESS",
"MULTI_TURN_TOOL_USE_QUALITY"
]
)
4. Realizar análise (clusters de falhas)
O sistema agrupa automaticamente as avaliações com falha em clusters de perda para identificar os principais problemas do agente.
# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Otimizar o agente
Por fim, use o serviço Optimizer para refinar programaticamente as instruções do sistema ou as descrições de ferramentas do agente com base nos dados de falha.
# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
targets=["system_prompt"],
benchmark=eval_result,
tests=eval_dataset
)
A seguir
- Executar avaliações off-line
- Visualizar os resultados da avaliação
- Saiba mais sobre o serviço de avaliação de IA generativa