Avaliar seus agentes

Esse recurso permite avaliar agentes de IA. É possível usar o serviço de avaliação de IA generativa para medir e melhorar a performance, a segurança e a qualidade dos agentes.

Tipos de avaliação

Tipo de avaliação Caso de uso Frequência
Avaliação rápida Testar uma nova lógica de agente ou mudanças no modelo. Frequente (desenvolvimento)
Avaliação de caso de teste Teste de regressão em um conjunto de dados específico. Programada (CI/CD)
Monitoramento on-line Acompanhar a qualidade de uma implantação de agente de produção. Contínuo (Production)

Fluxo de trabalho de avaliação

É possível avaliar seus agentes usando o Google Cloud console ou o SDK da plataforma de agentes.

Google Cloud Console do

Para executar uma avaliação básica de uma implantação de agente:

  1. No Google Cloud console, navegue até a página Plataforma de agentes > Agentes.
  2. No menu de navegação à esquerda, selecione Implantações e escolha seu agente.

    Acessar "Implantações"

  3. Selecione a guia Painel e a subseção Avaliação.

  4. Clique em Nova avaliação.

  5. Siga as instruções para definir seus casos de teste e selecionar métricas.

  6. Clique em Executar avaliação.

Para guias mais detalhados, consulte Executar avaliações off-line ou Avaliação contínua com monitores on-line.

SDK da plataforma de agentes

O fluxo de trabalho de melhoria do agente é baseado no ciclo de feedback de qualidade, um ciclo contínuo de avaliação, análise e otimização. Você avalia o desempenho do agente, analisa os resultados para identificar clusters de falhas e otimiza os comandos ou a configuração para resolver esses problemas. Esse processo iterativo ajuda a detectar e resolver proativamente as lacunas de performance.

Antes de começar

  1. Instale o SDK da plataforma de agentes com as extensões necessárias:
%pip install google-cloud-aiplatform[adk,evaluation]
  1. Inicialize o cliente do SDK da plataforma de agentes:
import vertexai
from vertexai import Client

client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

Em que:

  • YOUR_PROJECT_ID: o ID do Google Cloud projeto.
  • YOUR_LOCATION: a região do Cloud. Por exemplo, us-central1.

1. Definir casos de avaliação (simulação do usuário)

Em vez de criar casos de teste manualmente, use a simulação do usuário para gerar planos de conversa sintéticos de várias rodadas com base nas instruções do agente.

# 1. Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Para mais informações, consulte a referência do SDK da plataforma de agentes.

2. Executar inferências

Execute os casos de avaliação no agente para capturar traces.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Calcular métricas (AutoRaters)

Use AutoRaters de várias rodadas para classificar os traces capturados. Esses classificadores analisam o histórico completo da conversa para verificar a adesão às instruções e o uso de ferramentas.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Realizar análise (clusters de falhas)

O sistema agrupa automaticamente as avaliações com falha em clusters de perda para identificar os principais problemas do agente.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Otimizar o agente

Por fim, use o serviço Optimizer para refinar programaticamente as instruções do sistema ou as descrições de ferramentas do agente com base nos dados de falha.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

A seguir