Avaliar seus agentes

Com esse recurso, você pode avaliar agentes de IA. Use o serviço de avaliação de IA generativa para medir e melhorar o desempenho, a segurança e a qualidade dos seus agentes.

Tipos de avaliação

Tipo de avaliação Caso de uso Frequência
Avaliação rápida Testar uma nova lógica de agente ou mudanças no modelo. Frequente (desenvolvimento)
Avaliação do caso de teste Teste de regressão em relação a um conjunto de dados específico. Programado (CI/CD)
Monitoramento on-line Acompanhamento da qualidade de uma implantação de agente de produção. Contínuo (Production)

Fluxo de trabalho de avaliação

É possível avaliar seus agentes usando o consoleGoogle Cloud ou o SDK da plataforma de agente.

Console doGoogle Cloud

Para executar uma avaliação básica de uma implantação de agente:

  1. No console Google Cloud , navegue até a página Plataforma de agente > Agentes.
  2. No menu de navegação à esquerda, selecione Implantações e escolha seu agente.

    Acessar "Implantações"

  3. Selecione a guia Painel e a subseção Avaliação.
  4. Clique em Nova avaliação.
  5. Siga as instruções para definir os casos de teste e selecionar as métricas.
  6. Clique em Executar avaliação.

Para guias mais detalhados, consulte Executar avaliações off-line ou Avaliação contínua com monitores on-line.

SDK da plataforma de agentes

O fluxo de trabalho de melhoria do agente é baseado no Quality Flywheel, um ciclo contínuo de avaliação, análise e otimização. Você avalia o desempenho do seu agente, analisa os resultados para identificar clusters de falhas e otimiza seus comandos ou configuração para resolver esses problemas. Esse processo iterativo ajuda você a detectar e resolver proativamente as lacunas de desempenho.

Antes de começar

  1. Instale o SDK da Plataforma de Agentes com as extensões necessárias:

    pip install google-cloud-aiplatform[adk,evaluation]
  2. Inicialize o cliente do SDK da Plataforma de Agentes:

    import vertexai
    from vertexai import Client
    
    client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

    Em que:

    • YOUR_PROJECT_ID: o ID do projeto Google Cloud .
    • YOUR_LOCATION: sua região da nuvem, por exemplo, us-central1.

1. Definir casos de avaliação (simulação de usuário)

Em vez de criar casos de teste manualmente, use a Simulação de usuário para gerar planos de conversa sintéticos com vários turnos com base nas instruções do seu agente.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Para mais informações, consulte a referência do SDK da plataforma de agentes.

2. Executar inferências

Execute os casos de avaliação no seu agente para capturar rastreamentos.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Calcular métricas (AutoRaters)

Use os AutoRaters de várias rodadas para pontuar os traces capturados. Esses avaliadores analisam o histórico completo da conversa para verificar a adesão às instruções e o uso de ferramentas.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Fazer análise (clusters de falhas)

O sistema agrupa automaticamente as avaliações com falha em Clusters de perda para identificar problemas importantes do agente.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Otimizar o agente

Por fim, use o serviço Optimizer para refinar de forma programática as instruções do sistema ou as descrições de ferramentas do seu agente com base nos dados de falha.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

A seguir