Avaliação

A avaliação é uma ferramenta essencial para testar a performance do seu agente e garantir que ele se comporte conforme o esperado em situações específicas. Ele permite automatizar os testes, detectar regressões após fazer mudanças e medir a qualidade das respostas do agente para melhorar a qualidade dele.

Para começar, clique no botão Avaliar na parte de cima do criador de agentes.

Conceitos de avaliação

Caso de teste: cada caso de teste é um cenário de teste ou comando específico e independente projetado para avaliar a performance do agente. É possível criar dois tipos diferentes de caso de teste:

  • Cenário: um recurso com tecnologia de IA para iniciar seus testes e garantir uma cobertura abrangente. Você descreve a meta de um usuário, e o sistema simula automaticamente o usuário e gera conversas para testar a capacidade do agente de lidar com o cenário de maneira robusta. Os cenários são uma maneira útil de experimentar e ajudar a definir conversas de ouro.
  • Golden: ideal para testes de regressão. Você fornece um caminho de conversa específico e "ideal", e a avaliação verifica se o comportamento do agente corresponde a esse caminho ideal, incluindo chamadas de função.

Execução: uma execução de avaliação representa uma execução completa e única de um conjunto de casos de teste de ouro e de cenário em relação à performance do agente que você está testando. Cada execução pode incluir um ou mais casos de teste.

Resultado: um resultado de caso de teste se refere a uma única execução de um caso de teste específico em uma única execução. Se um caso de teste for executado várias vezes durante uma única execução de avaliação (por exemplo, para verificar consistência, instabilidade etc.), cada execução individual será um resultado individual. Os resultados são mostrados como ícones retangulares em colunas em cada linha de caso de teste, mostrando um X vermelho se a execução falhou e uma marca de seleção verde se foi aprovada.

Tags: os casos de teste podem ser agrupados com tags para facilitar o gerenciamento.

Criar casos de teste

Para criar e acessar casos de teste para seu agente, clique no botão Avaliar na parte de cima do Agent Builder. É possível criar e gerenciar casos de teste golden ou baseados em cenários.

Cenário

O caso de teste baseado em cenário usa IA para gerar automaticamente várias conversas com base em uma meta de usuário de alto nível definida por você. Com esses casos de teste, em vez de fornecer conversas douradas específicas, você seleciona cenários gerados ou descreve cenários específicos que precisam ser testados. Essa é uma ferramenta poderosa para ajudar você a explorar casos extremos e testar a robustez do seu agente sem precisar escrever manualmente todos os caminhos de conversa possíveis.

Depois que esses cenários estiverem funcionando bem, você poderá salvá-los como conversas de ouro.

Para criar um cenário:

  1. Clique em Criar cenário. Vários cenários são sugeridos para você.
  2. É possível gerar cenários com base nas seleções ou criar um novo do zero.

Ao visualizar a lista de cenários, clique em um deles para conferir os detalhes e a lista de conversas.

Para salvar um cenário como uma conversa de ouro:

  1. Selecione o cenário.
  2. Clique no botão de menu no canto superior direito.
  3. Selecione Salvar como conversa de ouro.

Objetivo do usuário do cenário

Cada cenário tem uma meta do usuário, que descreve os objetivos do usuário final ao usar o aplicativo do agente. Exemplo:

Securely book a specific room at a chosen hotel and receive a confirmation.

Com base na meta do usuário, o CX Agent Studio gera automaticamente conversas usadas para avaliação.

Variáveis de cenário

Ao definir um cenário, você pode fornecer variáveis que devem ser usadas para ele.

Expectativas de cenário

Para realizar uma avaliação, você define expectativas para o caso de teste.

As expectativas podem ser de dois tipos:

  • Mensagem: uma mensagem esperada do usuário final ou do agente.
  • Chamada de ferramenta: uma chamada de ferramenta com entradas e saídas esperadas.

As expectativas podem ter as seguintes condições:

  • Essencial
  • Não pode ter
  • Após a chamada de ferramenta
  • Valor da variável

Para criar uma expectativa:

  • Clique em um cenário específico para abrir os detalhes.
  • Na seção Expectativas, clique em Ver tudo.
  • Siga as instruções da interface para criar expectativas para o cenário.

Dourado

Esses casos de teste são usados para definir caminhos de conversa ideais para testes de regressão, de modo que os caminhos de conversa principais e críticos não sejam interrompidos quando você atualiza o agente. Há várias opções para criar uma conversa de ouro:

Para importar uma conversa do simulador:

  1. Inicie uma conversa usando o simulador.
  2. Clique nos três pontos verticais no canto superior direito do simulador para abrir o menu dele.
  3. Clique em Salvar como padrão.
  4. Insira um nome para o caso de teste de referência e clique em Salvar. Ela vai aparecer na guia Avaliação.

Para criar um caso de teste com base no histórico de conversas:

  1. Navegue até a guia Avaliação e clique em + Adicionar caso de teste -> Golden.
  2. Clique em Selecionar no histórico de conversas.
  3. Na janela exibida, selecione a conversa que você quer salvar como um caso de teste de ouro. Você pode pesquisar pelo ID da conversa.
  4. Se você ativou a redação, verifique as respostas e variáveis do agente antes de continuar com as informações ausentes.
  5. Clique em Adicionar.

Para criar um caso de teste do zero:

  1. Navegue até a guia Avaliação e clique em + Adicionar caso de teste -> Golden.
  2. Clique em criar do zero.
  3. Na janela que aparece, adicione um Nome de exibição para o caso de teste.
  4. Adicione texto para entrada do usuário e expectativa do agente conforme necessário. Clique em + Adicionar entrada do usuário e + Adicionar expectativa do agente para adicionar respostas. Clique em + Adicionar turno para incluir um novo turno de conversa no caso de teste.
  5. Clique em Criar para adicionar o caso de teste dourado à sua lista.

Para criar um caso de teste com base em uma conversa simulada em um caso de teste de cenário:

  1. Acesse a página de resultados da execução da avaliação.
  2. Clique no ícone de menu (três pontos verticais) à direita da conversa selecionada e clique em Salvar como conversa de ouro.

Para fazer upload em lote de casos de teste de um arquivo:

Para mais detalhes sobre o formato de arquivo e um modelo CSV, consulte a página Formato CSV de casos de teste de ouro.

Expectativas de ouro

Para fazer uma avaliação, defina expectativas para o caso de teste dourado. Uma expectativa é um resultado específico que você prevê do agente em um determinado ponto da conversa. Durante a avaliação, o comportamento real do agente é comparado com essas expectativas.

As expectativas podem ser de um dos seguintes tipos:

  • Mensagem: uma resposta de texto esperada do agente para o usuário final. A avaliação verifica se a resposta do agente corresponde semanticamente a essa expectativa.
  • Chamada de ferramenta: uma expectativa de que o agente chame uma ferramenta e resposta específicas. Também é possível especificar argumentos de entrada esperados para a chamada de função.
  • Transferência para um agente: expectativa de que o agente transfira a conversa para um agente humano ou outro bot.

Para criar uma expectativa:

  1. Clique em um caso de teste de ouro específico para abrir os detalhes.
  2. Na seção Detalhes, clique em Ver golden.
  3. Siga as instruções da interface para adicionar ou modificar expectativas.

Configurações de avaliação

Na linha de cabeçalho da lista de casos de teste, é possível configurar as opções de avaliação:

  • Golden Retrievers:
    • Critérios de aprovação/reprovação de ouro: defina a lógica para determinar se uma conversa simulada é aprovada ou reprovada.
    • Nível de turno: Essas regras avaliam cada turno individual. Se algum desses limites não for atingido, a métrica específica será codificada em vermelho como uma falha.
      • Similaridade semântica: valor de limite para similaridade semântica.
      • Correção da ferramenta: valor de limite para a correção da ferramenta.
      • Alucinações: se desativadas, as alucinações são excluídas da aprovação/reprovação.
    • Nível de expectativa: Essas regras avaliam as expectativas em um turno. Se algum desses limites não for atingido, a métrica específica será codificada em vermelho como uma falha.
      • Correção da ferramenta: valor de limite para a correção da ferramenta.
    • Método de execução de ouro: escolha entre validação de repetição simples ou estável.
    • Falsificação de ferramenta: use dados simulados em vez de chamadas de API de produção reais.
  • Scenarios:
    • Critérios de aprovação/reprovação do cenário: defina a lógica para determinar se uma conversa simulada é aprovada ou reprovada.
    • Início da conversa: defina quem inicia a conversa, o usuário ou o modelo.
    • Falsificação de ferramenta: use dados simulados em vez de chamadas de API de produção reais.
  • Avaliação de áudio
    • Gravações de avaliação de áudio

Executar avaliações

Para executar uma avaliação, clique no botão de execução na linha do caso de teste ou selecione e execute vários casos de teste.

Se você tiver várias versões salvas, poderá selecionar qual usar ou salvar automaticamente o rascunho de agente como uma nova versão para a execução.

Depois de uma execução de avaliação, as métricas serão atualizadas e os resultados serão apresentados.

Se você clicar em uma avaliação de execução específica, poderá conferir os resultados detalhados de uma execução. Além das métricas padrão, as seguintes são mostradas:

  • Curvas proibidas
  • Lista paginada de todos os detalhes do turno, incluindo respostas reais e esperadas do agente.

Para casos de teste de ouro, você pode encontrar o termo "repetição estável", que esclarece que o teste foi executado em um ambiente consistente (ou seja, sem mudança de contexto/entrada).

Usar a IA para melhorar casos de teste (PRÉVIA)

Você também pode usar a IA para ajudar a resolver problemas em uma execução e sugerir maneiras de melhorar a qualidade do agente. As sugestões de IA são ideais quando o número de execuções é 3 ou mais. Para ativar a IA, selecione os casos de teste que você quer avaliar e clique em Executar selecionados. Na janela que aparece, marque a caixa ao lado de Encontrar problemas com a IA.

Depois que a execução for concluída, você vai encontrar sugestões baseadas em IA na página de resultados. O Gemini gera automaticamente um loss_report para download que resume aspectos da performance do agente e destaca áreas que podem ser melhoradas.

Qualquer usuário pode ver as correções sugeridas pela IA, mas apenas a pessoa que iniciou a execução pode realizar ações com base nos resultados.

Clique em Perguntar ao Gemini para interagir com o agente de ajuda. Primeiro, você vai ver o relatório de perda, que explica problemas de alto nível com o modelo ou o agente. Você pode pedir ao agente assistente para explicar o relatório, que vai resumir o documento e sugerir correções. Depois que as correções forem aplicadas, peça ao agente auxiliar para executar a avaliação novamente.

Métricas

Cada resultado de caso de teste inclui um conjunto de métricas que medem a performance do agente em relação aos casos de teste selecionados. As métricas são calculadas no nível da vez ou da expectativa (conversa), conforme indicado no console.

Em todos os casos, é possível personalizar os valores necessários para a execução no menu Configurações da guia Avaliar.

Correção da ferramenta

Calculado para casos de teste de ouro e de cenário. Essa métrica reflete a porcentagem de parâmetros esperados que foram correspondidos, considerando uma chamada de ferramenta esperada e os valores de parâmetros esperados dela. As chamadas de ferramenta perdidas recebem pontuação 0, e as chamadas de ferramenta sem parâmetros de entrada recebem pontuação 1, se estiverem presentes. Se uma chamada de ferramenta inesperada for feita durante uma avaliação de ouro, o resultado será considerado uma falha, mas isso não terá impacto no valor de correção da ferramenta.

Satisfação da meta do usuário

Calculado para cenários. A satisfação da meta do usuário é uma métrica binária criada para avaliações de simulação de usuário. Ela mede se o usuário simulado acredita que as metas foram alcançadas (0=não, 1=sim). As entradas são o user_goal, conforme definido pela configuração do usuário simulado e uma transcrição da conversa. Se o user_goal fornecido não especificar uma meta explícita ou implícita, a pontuação de saída será -1.

Alucinações

Disponível para casos de teste golden e de cenário. As pontuações de alucinação são calculadas para cada turno gerado. Essa métrica reflete se o agente fez declarações que não são justificadas pelo contexto dele (0=não, 1=sim). O contexto é composto por todas as falas anteriores na conversa, variáveis de sessão, chamadas de função e instruções do agente. Essa métrica só é calculada para turnos que contêm chamadas de ferramentas. Ela não detecta alucinações em chamadas de ferramentas. As chamadas de ferramentas fornecidas como contexto são consideradas corretas. Para minimizar falsos positivos, a métrica pode retornar uma pontuação "N/A" se uma resposta não tiver declarações factuais ou tiver apenas conhecimento comum já estabelecido.

É possível ativar e desativar as alucinações nas configurações de avaliação.

Correspondência semântica

Calculado para casos de teste golden. Essa métrica mede o quanto uma declaração observada do agente corresponde a uma declaração esperada. A correspondência semântica é calculada no nível da interação. Os valores retornados variam de 0 (completamente inconsistente ou contraditório) a 4 (totalmente consistente).

Expectativas de cenário

Calculado para cenários. Essa métrica mede se o comportamento do agente, conforme esperado pelos usuários simulados, foi satisfatório ou não (0=não, 1=sim). Há suporte para dois tipos de expectativas de usuários simuladas:

  • Expectativas de chamada de ferramenta: calculadas de maneira semelhante à correção da chamada de ferramenta, com as seguintes exceções:
    • Os resultados são 0 (não) ou 1 (sim).
    • Chamadas de ferramentas inesperadas não são penalizadas. As expectativas especificam o conjunto de chamadas de função essenciais para que uma conversa atenda às expectativas do usuário simulado.
    • Quando uma expectativa de entrada de chamada de ferramenta é atendida, a chamada é interceptada e substituída por um valor de retorno simulado no tempo de execução.
  • Expectativas de resposta do agente: verifica se alguma resposta do agente na conversa contém uma string esperada.

Conclusão da tarefa

Calculado para cenários. A conclusão de tarefas é uma medida da qualidade da conversa. Ele mede conjuntamente se as metas do usuário foram alcançadas E se o comportamento do agente estava correto. Ela é definida como:

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

Perfis

As personas são personas de usuários simuladas que podem ser personalizadas e usadas para testar agentes com casos de teste de cenário. Esse recurso é útil para garantir que o agente interaja adequadamente com os tipos de usuários humanos que ele provavelmente encontrará durante a execução.

Se você não selecionar uma persona, uma será escolhida aleatoriamente para cada resultado de cenário.

Esse recurso pode ser usado com entradas de texto e áudio.

Criar uma persona

  1. Para criar uma persona, acesse a guia Avaliar e clique em Gerenciamento de personas (ao lado do ícone de configurações).
  2. Clique em + Adicionar persona.
  3. No menu que aparece, insira um Nome, uma Personalidade do usuário e qualquer Contexto do usuário adicional (como idade, local, motivo da ligação etc.).
  4. Clique em + Adicionar.

Para executar uma avaliação usando um perfil:

  1. Volte à página principal Avaliar e selecione um ou mais casos de teste de cenário. Clique em Executar selecionado.
  2. Na janela pop-up, selecione a persona que você acabou de criar no menu suspenso Personas e clique em Executar.