Avaliação automática da geração de resumos

A avaliação automática da sumarização (autoavaliação) é fundamental para abandonar o controlo de qualidade manual baseado em folhas de cálculo e avançar para a validação escalável automática de modelos de sumarização. Esta funcionalidade fornece as provas empíricas necessárias para vender versões de modelos a preços mais elevados ou validar alterações de comandos personalizados.

Antes da avaliação automática, a validação de um modelo de resumo exigia que os humanos lessem as transcrições e classificassem os resumos manualmente, o que era um processo lento, caro e subjetivo. A avaliação automática da geração de resumos melhora a validação do modelo de geração de resumos das seguintes formas:

  • Escala: avalia centenas de conversas em cerca de 20 a 30 minutos.
  • Consistência: os avaliadores baseados em MDIs avaliam a precisão, a conformidade e a integridade.
  • Comparação: apresenta provas lado a lado de que o modelo A tem um desempenho melhor do que o modelo B.

Antes de começar

  • Para executar uma avaliação, precisa de um gerador de resumos (a configuração do modelo) e um conjunto de dados (as conversas).
  • Se quiser usar um conjunto de dados do Customer Experience Insights, mas não tiver criado um, aceda à consola do Customer Experience Insights. Se tiver ficheiros de transcrição não processados, converta-os no formato suportado para carregamento.

As duas origens de dados

Tem as seguintes duas opções para carregar dados de conversões.

Tipo de origem Ideal para… Como funciona
Armazenamento do Agent Assist Tráfego de produção/em direto Seleciona um intervalo de datas e um tamanho da amostra. A avaliação automática da geração de resumos usa amostras aleatórias do tráfego real armazenado no seu sistema.
Conjunto de dados Conversational Insights Testar cenários específicos Seleciona um conjunto de dados organizado criado no Customer Experience Insights. Esta opção é mais adequada para conjuntos de dados de referência ou casos de teste específicos.

Passo 1: crie um gerador

  1. Navegue para Avaliações e clique em Nova avaliação.
  2. Introduza os seguintes detalhes:
    • Nome a apresentar: use uma convenção de nomenclatura que inclua a versão e a data do modelo.
    • Funcionalidade: selecione Resumo.
    • Gerador: selecione o gerador específico que quer testar.

Passo 2: crie um conjunto de dados de conversas

Selecione uma das seguintes origens de dados de resumo.

  • Gerar novos resumos para todas as conversas: recomendado para testar novas versões do modelo.
  • Gerar apenas os resumos em falta do conjunto de dados: recomendado quando nem todas as transcrições de conversas têm resumos correspondentes com base no gerador selecionado no passo anterior.
  • Use resumos existentes do conjunto de dados. Não gerar resumos: recomendado para classificar o que já foi produzido sem regeneração ou comparar o desempenho de diferentes geradores de resumos.

Passo 3: escolha um recurso do Cloud Storage

Escolha uma pasta do Cloud Storage num contentor para armazenar o resultado.

Embora a consola do Assistente do agente mostre resultados de alto nível, exporte os dados detalhados linha a linha como um CSV. Esta é a fonte de informações reais para a resolução de problemas detalhada.

Passo 4: interprete as métricas

Após a execução, é apresentado um cartão de pontuação com as pontuações de cada métrica de avaliação.

Ver detalhes

Pode clicar em qualquer linha de conversa específica para ver os seguintes detalhes:

  • A transcrição com o diálogo original
  • Os candidatos de resumo
  • Uma explicação de autoavaliação de resumo de uma pontuação específica

Passo 5: use o modo de comparação

Pode selecionar duas execuções de avaliação distintas e compará-las. Compare modelos de avaliação para o mesmo conjunto de dados para garantir que está a comparar com as mesmas informações. Se alterar o conjunto de dados entre execuções, a comparação é inválida. Verifique sempre se o ID do conjunto de dados corresponde nos metadados.

Siga estes passos para ver provas da atualização do seu modelo de resumo para a versão mais recente.

  1. Execute a avaliação A com o seu modelo atual.
  2. Execute a avaliação B no mesmo conjunto de dados com o modelo mais recente.
  3. Selecione ambas as avaliações na lista e clique em Comparar.

A consola do Agent Assist realça as pontuações mais elevadas.

Sugestões e práticas recomendadas para a resolução de problemas

  • Carregue os seus próprios ficheiros de texto não processado para avaliação. Primeiro, crie um conjunto de dados Customer Experience Insights.
  • A consola mostra a secção Situação concisa, mas o texto de resumo apresenta-a em segundo lugar. A ordem da barra lateral pode não corresponder perfeitamente à ordem de geração de texto. Confie no conteúdo de texto e na exportação CSV para a estrutura definitiva.
  • Acerca das classificações automáticas. São fidedignas, mas valide-as. O modelo de avaliação automática é calibrado para emular a interação humana, mas existem casos extremos. Use sempre a exportação CSV do Cloud Storage para auditar manualmente uma pequena amostra para criar confiança na pontuação automatizada.