Avaliar seus agentes

Com esse recurso, é possível avaliar agentes de IA. Use o serviço de avaliação de IA generativa para medir e melhorar a performance, a segurança e a qualidade dos seus agentes.

Tipos de avaliação

Tipo de avaliação Caso de uso Frequência
Avaliação rápida Testar uma nova lógica de agente ou mudanças no modelo. Frequente (desenvolvimento)
Avaliação do caso de teste Teste de regressão em relação a um conjunto de dados específico. Programado (CI/CD)
Monitoramento on-line Rastreamento da qualidade de uma implantação de agente de produção. Contínuo (Production)

Fluxo de trabalho de avaliação

É possível avaliar seus agentes usando o consoleGoogle Cloud ou o SDK do Agent Platform.

Console doGoogle Cloud

Para executar uma avaliação básica de uma implantação de agente:

  1. No console Google Cloud , navegue até a página Agent Platform > Agentes.
  2. No menu de navegação à esquerda, selecione Implantações e escolha seu agente.

    Acessar "Implantações"

  3. Selecione a guia Painel e a subseção Avaliação.
  4. Clique em Nova avaliação.
  5. Siga as instruções para definir os casos de teste e selecionar as métricas.
  6. Clique em Executar avaliação.

Para guias mais detalhados, consulte Executar avaliações off-line ou Avaliação contínua com monitores on-line.

SDK da plataforma de agentes

O fluxo de trabalho de melhoria do agente é baseado no Quality Flywheel, um ciclo contínuo de avaliação, análise e otimização. Você avalia a performance do seu agente, analisa os resultados para identificar clusters de falhas e otimiza os comandos ou a configuração para resolver esses problemas. Esse processo iterativo ajuda a detectar e resolver proativamente as lacunas de performance.

Antes de começar

  1. Instale o Agent Platform SDK com as extensões necessárias:

    pip install google-cloud-aiplatform[adk,evaluation]
  2. Inicialize o cliente do SDK do Agent Platform:

    import vertexai
    from vertexai import Client
    
    client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

    Em que:

    • YOUR_PROJECT_ID: o ID do projeto Google Cloud .
    • YOUR_LOCATION: sua região da nuvem, por exemplo, us-central1.

1. Definir casos de avaliação (simulação do usuário)

Em vez de criar casos de teste manualmente, use a Simulação do usuário para gerar planos de conversa sintéticos com várias interações com base nas instruções do seu agente.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Para mais informações, consulte a referência do SDK da Agent Platform.

2. Executar inferências

Execute os casos de avaliação no seu agente para capturar rastreamentos.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Calcular métricas (AutoRaters)

Use os AutoAvaliadores de várias rodadas para pontuar os traces capturados. Esses avaliadores analisam o histórico completo da conversa para verificar a adesão às instruções e o uso de ferramentas.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Fazer análise (clusters de falhas)

O sistema agrupa automaticamente as avaliações com falha em Clusters de perda para identificar problemas principais do agente.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Otimizar o agente

Por fim, use o serviço Optimizer para refinar de forma programática as instruções do sistema ou as descrições de ferramentas do agente com base nos dados de falha.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

A seguir