Com esse recurso, você pode avaliar agentes de IA. Use o serviço de avaliação de IA generativa para medir e melhorar o desempenho, a segurança e a qualidade dos seus agentes.
Tipos de avaliação
| Tipo de avaliação | Caso de uso | Frequência |
|---|---|---|
| Avaliação rápida | Testar uma nova lógica de agente ou mudanças no modelo. | Frequente (desenvolvimento) |
| Avaliação do caso de teste | Teste de regressão em relação a um conjunto de dados específico. | Programado (CI/CD) |
| Monitoramento on-line | Acompanhamento da qualidade de uma implantação de agente de produção. | Contínuo (Production) |
Fluxo de trabalho de avaliação
É possível avaliar seus agentes usando o consoleGoogle Cloud ou o SDK da plataforma de agente.
Console doGoogle Cloud
Para executar uma avaliação básica de uma implantação de agente:
- No console Google Cloud , navegue até a página Plataforma de agente > Agentes.
- No menu de navegação à esquerda, selecione Implantações e escolha seu agente.
- Selecione a guia Painel e a subseção Avaliação.
- Clique em Nova avaliação.
- Siga as instruções para definir os casos de teste e selecionar as métricas.
- Clique em Executar avaliação.
Para guias mais detalhados, consulte Executar avaliações off-line ou Avaliação contínua com monitores on-line.
SDK da plataforma de agentes
O fluxo de trabalho de melhoria do agente é baseado no Quality Flywheel, um ciclo contínuo de avaliação, análise e otimização. Você avalia o desempenho do seu agente, analisa os resultados para identificar clusters de falhas e otimiza seus comandos ou configuração para resolver esses problemas. Esse processo iterativo ajuda você a detectar e resolver proativamente as lacunas de desempenho.
Antes de começar
Instale o SDK da Plataforma de Agentes com as extensões necessárias:
pip install google-cloud-aiplatform[adk,evaluation]
Inicialize o cliente do SDK da Plataforma de Agentes:
import vertexai from vertexai import Client client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Em que:
YOUR_PROJECT_ID: o ID do projeto Google Cloud .YOUR_LOCATION: sua região da nuvem, por exemplo,us-central1.
1. Definir casos de avaliação (simulação de usuário)
Em vez de criar casos de teste manualmente, use a Simulação de usuário para gerar planos de conversa sintéticos com vários turnos com base nas instruções do seu agente.
# Generate scenarios from agent info eval_dataset = client.evals.generate_conversation_scenarios( agent_info=my_agent_info, config={ "count": 5, "generation_instruction": "Generate scenarios where a user asks for a refund.", }, )
Para mais informações, consulte a referência do SDK da plataforma de agentes.
2. Executar inferências
Execute os casos de avaliação no seu agente para capturar rastreamentos.
# Generate behavior traces using a multi-turn user simulator traces = client.evals.run_inference( agent=my_agent, src=eval_dataset, config={"user_simulator_config": {"max_turn": 5}} )
3. Calcular métricas (AutoRaters)
Use os AutoRaters de várias rodadas para pontuar os traces capturados. Esses avaliadores analisam o histórico completo da conversa para verificar a adesão às instruções e o uso de ferramentas.
# Evaluate the traces using multi-turn metrics eval_result = client.evals.evaluate( traces=traces, metrics=[ "MULTI_TURN_TASK_SUCCESS", "MULTI_TURN_TOOL_USE_QUALITY" ] )
4. Fazer análise (clusters de falhas)
O sistema agrupa automaticamente as avaliações com falha em Clusters de perda para identificar problemas importantes do agente.
# Identify the top failure patterns in the results loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Otimizar o agente
Por fim, use o serviço Optimizer para refinar de forma programática as instruções do sistema ou as descrições de ferramentas do seu agente com base nos dados de falha.
# Automatically refine the system prompt to fix identified issues optimize_result = client.optimizer.optimize( targets=["system_prompt"], benchmark=eval_result, tests=eval_dataset )
A seguir
- Executar avaliações off-line
- Conferir os resultados da avaliação
- Saiba mais sobre o serviço de avaliação de IA generativa