Com esse recurso, é possível avaliar agentes de IA. Use o serviço de avaliação de IA generativa para medir e melhorar a performance, a segurança e a qualidade dos seus agentes.
Tipos de avaliação
| Tipo de avaliação | Caso de uso | Frequência |
|---|---|---|
| Avaliação rápida | Testar uma nova lógica de agente ou mudanças no modelo. | Frequente (desenvolvimento) |
| Avaliação do caso de teste | Teste de regressão em relação a um conjunto de dados específico. | Programado (CI/CD) |
| Monitoramento on-line | Rastreamento da qualidade de uma implantação de agente de produção. | Contínuo (Production) |
Fluxo de trabalho de avaliação
É possível avaliar seus agentes usando o consoleGoogle Cloud ou o SDK do Agent Platform.
Console doGoogle Cloud
Para executar uma avaliação básica de uma implantação de agente:
- No console Google Cloud , navegue até a página Agent Platform > Agentes.
- No menu de navegação à esquerda, selecione Implantações e escolha seu agente.
- Selecione a guia Painel e a subseção Avaliação.
- Clique em Nova avaliação.
- Siga as instruções para definir os casos de teste e selecionar as métricas.
- Clique em Executar avaliação.
Para guias mais detalhados, consulte Executar avaliações off-line ou Avaliação contínua com monitores on-line.
SDK da plataforma de agentes
O fluxo de trabalho de melhoria do agente é baseado no Quality Flywheel, um ciclo contínuo de avaliação, análise e otimização. Você avalia a performance do seu agente, analisa os resultados para identificar clusters de falhas e otimiza os comandos ou a configuração para resolver esses problemas. Esse processo iterativo ajuda a detectar e resolver proativamente as lacunas de performance.
Antes de começar
Instale o Agent Platform SDK com as extensões necessárias:
pip install google-cloud-aiplatform[adk,evaluation]
Inicialize o cliente do SDK do Agent Platform:
import vertexai from vertexai import Client client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Em que:
YOUR_PROJECT_ID: o ID do projeto Google Cloud .YOUR_LOCATION: sua região da nuvem, por exemplo,us-central1.
1. Definir casos de avaliação (simulação do usuário)
Em vez de criar casos de teste manualmente, use a Simulação do usuário para gerar planos de conversa sintéticos com várias interações com base nas instruções do seu agente.
# Generate scenarios from agent info eval_dataset = client.evals.generate_conversation_scenarios( agent_info=my_agent_info, config={ "count": 5, "generation_instruction": "Generate scenarios where a user asks for a refund.", }, )
Para mais informações, consulte a referência do SDK da Agent Platform.
2. Executar inferências
Execute os casos de avaliação no seu agente para capturar rastreamentos.
# Generate behavior traces using a multi-turn user simulator traces = client.evals.run_inference( agent=my_agent, src=eval_dataset, config={"user_simulator_config": {"max_turn": 5}} )
3. Calcular métricas (AutoRaters)
Use os AutoAvaliadores de várias rodadas para pontuar os traces capturados. Esses avaliadores analisam o histórico completo da conversa para verificar a adesão às instruções e o uso de ferramentas.
# Evaluate the traces using multi-turn metrics eval_result = client.evals.evaluate( traces=traces, metrics=[ "MULTI_TURN_TASK_SUCCESS", "MULTI_TURN_TOOL_USE_QUALITY" ] )
4. Fazer análise (clusters de falhas)
O sistema agrupa automaticamente as avaliações com falha em Clusters de perda para identificar problemas principais do agente.
# Identify the top failure patterns in the results loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Otimizar o agente
Por fim, use o serviço Optimizer para refinar de forma programática as instruções do sistema ou as descrições de ferramentas do agente com base nos dados de falha.
# Automatically refine the system prompt to fix identified issues optimize_result = client.optimizer.optimize( targets=["system_prompt"], benchmark=eval_result, tests=eval_dataset )
A seguir
- Executar avaliações off-line
- Visualizar os resultados da avaliação
- Saiba mais sobre o serviço de avaliação de IA generativa