A avaliação automática de resumo (autoavaliação) é essencial para deixar de usar o controle de qualidade manual baseado em planilhas e passar para a validação escalonável automatizada de modelos de resumo. Esse recurso fornece as evidências empíricas necessárias para fazer upselling de versões de modelos ou validar mudanças personalizadas de comandos.
Antes da autoavaliação, a validação de um modelo de resumo exigia que humanos lessem transcrições e classificassem resumos manualmente, o que era um processo lento, caro e subjetivo. A avaliação automática de resumo melhora a validação do modelo de resumo das seguintes maneiras:
- Escala:avalia centenas de conversas em cerca de 20 a 30 minutos.
- Consistência:os juízes baseados em LLMs avaliam a precisão, a aderência e a integridade.
- Comparação:apresenta evidências lado a lado de que o Modelo A tem um desempenho melhor do que o Modelo B.
Antes de começar
- Para executar uma avaliação, você precisa de um gerador de resumo (a configuração do modelo) e um conjunto de dados (as conversas).
- Se você quiser usar um conjunto de dados do Customer Experience Insights, mas ainda não tiver criado um, acesse o console do Customer Experience Insights. Se você tiver arquivos de transcrição sem formatação, converta-os para o formato aceito para upload.
As duas fontes de dados
Você tem as duas opções a seguir para ingerir dados de conversas.
| Tipo de origem | Ideal para... | Como funciona |
| Armazenamento do Agent Assist | Tráfego de Production/em tempo real | Você seleciona um período e um tamanho de amostra. A avaliação automática de resumo faz amostragem aleatória do tráfego real armazenado no seu sistema. |
| Conjunto de dados do Conversational Insights | Testar cenários específicos | Você seleciona um conjunto de dados selecionado criado no Customer Experience Insights. Isso é melhor para conjuntos de ouro ou casos de teste específicos. |
Etapa 1: criar um gerador
- Navegue até Avaliações e clique em Nova avaliação.
- Digite os seguintes detalhes:
- Nome de exibição: use uma convenção de nomenclatura que inclua a versão e a data do modelo.
- Recurso: selecione Resumo.
- Gerador: selecione o gerador específico que você quer testar.
Etapa 2: criar um conjunto de dados de conversação
Selecione uma das seguintes fontes de dados de resumo.
- Gerar novos resumos para todas as conversas: recomendado para testar novas versões de modelos.
- Gerar apenas os resumos ausentes do conjunto de dados: recomendado quando nem todas as transcrições de conversa têm resumos correspondentes com base no gerador selecionado na etapa anterior.
- Use os resumos atuais do conjunto de dados. Não gere resumos: recomendado para classificar o que já foi produzido sem regeneração ou comparar a performance de diferentes geradores de resumo.
Etapa 3: escolher um recurso do Cloud Storage
Escolha uma pasta do Cloud Storage em um bucket para armazenar o resultado.
Embora o console da Assistente de IA mostre resultados de alto nível, exporte os dados detalhados linha por linha como um CSV. Essa é a fonte de informações para a solução de problemas detalhada.
Etapa 4: interpretar as métricas
Depois que a execução for concluída, você vai ver um quadro de pontuação com as pontuações de cada métrica de avaliação.
Detalhar
Clique em qualquer linha de conversa específica para conferir os seguintes detalhes:
- A transcrição com o diálogo bruto
- Os candidatos ao resumo
- Uma explicação de autoavaliação de resumo de uma pontuação específica
Etapa 5: usar o modo de comparação
Você pode selecionar e comparar duas execuções de avaliação distintas. Compare modelos de avaliação para o mesmo conjunto de dados e garanta que você está comparando as mesmas informações. Se você mudar o conjunto de dados entre as execuções, a comparação será inválida. Sempre verifique se os IDs do conjunto de dados correspondem nos metadados.
Siga estas etapas para conferir evidências de que é necessário fazer upgrade do modelo de resumo para a versão mais recente.
- Execute a avaliação A usando seu modelo atual.
- Execute a avaliação B no mesmo conjunto de dados usando o modelo mais recente.
- Selecione as duas avaliações na lista e clique em Comparar.
O console do Assistente de IA destaca as pontuações mais altas.
Dicas e práticas recomendadas para solução de problemas
- Faça upload dos seus próprios arquivos de texto bruto para avaliação. Primeiro, crie um conjunto de dados do Customer Experience Insights.
- O console mostra a seção "Situação concisa", mas o texto do resumo a lista em segundo lugar. A ordem da barra lateral pode não corresponder perfeitamente à ordem de geração de texto. Confie no conteúdo de texto e na exportação CSV para a estrutura definitiva.
- Sobre as pontuações automáticas. Elas são confiáveis, mas verifique. O modelo de autoavaliação é calibrado para emular a interação humana, mas há casos extremos. Sempre use a exportação CSV do Cloud Storage para auditar manualmente uma pequena amostra e gerar confiança na pontuação automatizada.