A avaliação automática da sumarização (autoavaliação) é fundamental para abandonar o controlo de qualidade manual baseado em folhas de cálculo e avançar para a validação escalável automática de modelos de sumarização. Esta funcionalidade fornece as provas empíricas necessárias para vender versões de modelos a preços mais elevados ou validar alterações de comandos personalizados.
Antes da avaliação automática, a validação de um modelo de resumo exigia que os humanos lessem as transcrições e classificassem os resumos manualmente, o que era um processo lento, caro e subjetivo. A avaliação automática da geração de resumos melhora a validação do modelo de geração de resumos das seguintes formas:
- Escala: avalia centenas de conversas em cerca de 20 a 30 minutos.
- Consistência: os avaliadores baseados em MDIs avaliam a precisão, a conformidade e a integridade.
- Comparação: apresenta provas lado a lado de que o modelo A tem um desempenho melhor do que o modelo B.
Antes de começar
- Para executar uma avaliação, precisa de um gerador de resumos (a configuração do modelo) e um conjunto de dados (as conversas).
- Se quiser usar um conjunto de dados do Customer Experience Insights, mas não tiver criado um, aceda à consola do Customer Experience Insights. Se tiver ficheiros de transcrição não processados, converta-os no formato suportado para carregamento.
As duas origens de dados
Tem as seguintes duas opções para carregar dados de conversões.
| Tipo de origem | Ideal para… | Como funciona |
| Armazenamento do Agent Assist | Tráfego de produção/em direto | Seleciona um intervalo de datas e um tamanho da amostra. A avaliação automática da geração de resumos usa amostras aleatórias do tráfego real armazenado no seu sistema. |
| Conjunto de dados Conversational Insights | Testar cenários específicos | Seleciona um conjunto de dados organizado criado no Customer Experience Insights. Esta opção é mais adequada para conjuntos de dados de referência ou casos de teste específicos. |
Passo 1: crie um gerador
- Navegue para Avaliações e clique em Nova avaliação.
- Introduza os seguintes detalhes:
- Nome a apresentar: use uma convenção de nomenclatura que inclua a versão e a data do modelo.
- Funcionalidade: selecione Resumo.
- Gerador: selecione o gerador específico que quer testar.
Passo 2: crie um conjunto de dados de conversas
Selecione uma das seguintes origens de dados de resumo.
- Gerar novos resumos para todas as conversas: recomendado para testar novas versões do modelo.
- Gerar apenas os resumos em falta do conjunto de dados: recomendado quando nem todas as transcrições de conversas têm resumos correspondentes com base no gerador selecionado no passo anterior.
- Use resumos existentes do conjunto de dados. Não gerar resumos: recomendado para classificar o que já foi produzido sem regeneração ou comparar o desempenho de diferentes geradores de resumos.
Passo 3: escolha um recurso do Cloud Storage
Escolha uma pasta do Cloud Storage num contentor para armazenar o resultado.
Embora a consola do Assistente do agente mostre resultados de alto nível, exporte os dados detalhados linha a linha como um CSV. Esta é a fonte de informações reais para a resolução de problemas detalhada.
Passo 4: interprete as métricas
Após a execução, é apresentado um cartão de pontuação com as pontuações de cada métrica de avaliação.
Ver detalhes
Pode clicar em qualquer linha de conversa específica para ver os seguintes detalhes:
- A transcrição com o diálogo original
- Os candidatos de resumo
- Uma explicação de autoavaliação de resumo de uma pontuação específica
Passo 5: use o modo de comparação
Pode selecionar duas execuções de avaliação distintas e compará-las. Compare modelos de avaliação para o mesmo conjunto de dados para garantir que está a comparar com as mesmas informações. Se alterar o conjunto de dados entre execuções, a comparação é inválida. Verifique sempre se o ID do conjunto de dados corresponde nos metadados.
Siga estes passos para ver provas da atualização do seu modelo de resumo para a versão mais recente.
- Execute a avaliação A com o seu modelo atual.
- Execute a avaliação B no mesmo conjunto de dados com o modelo mais recente.
- Selecione ambas as avaliações na lista e clique em Comparar.
A consola do Agent Assist realça as pontuações mais elevadas.
Sugestões e práticas recomendadas para a resolução de problemas
- Carregue os seus próprios ficheiros de texto não processado para avaliação. Primeiro, crie um conjunto de dados Customer Experience Insights.
- A consola mostra a secção Situação concisa, mas o texto de resumo apresenta-a em segundo lugar. A ordem da barra lateral pode não corresponder perfeitamente à ordem de geração de texto. Confie no conteúdo de texto e na exportação CSV para a estrutura definitiva.
- Acerca das classificações automáticas. São fidedignas, mas valide-as. O modelo de avaliação automática é calibrado para emular a interação humana, mas existem casos extremos. Use sempre a exportação CSV do Cloud Storage para auditar manualmente uma pequena amostra para criar confiança na pontuação automatizada.