A avaliação automática de resumo (autoavaliação) avalia a qualidade dos resumos gerados por IA com base na precisão, integridade e aderência.
Precisão
A precisão mede o quanto um resumo está alinhado aos detalhes factuais da transcrição da conversa. Para cada resumo, a autoavaliação determina uma porcentagem de correção, além de uma justificativa correspondente. Uma pontuação de precisão baixa significa que há problemas factuais no resumo.
Os resultados de precisão são semelhantes a estes:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Cada
pointno exemplo anterior é uma parte decomposta do resumo. O parâmetro bináriois_accuratemostra o resultado da avaliação de precisão. O parâmetroaccuracyfornece a justificativa.
Aderência
A autoavaliação de resumo aplica um conjunto de perguntas ao resumo fornecido. Ela usa essas perguntas e a transcrição da conversa para avaliar a conformidade do resumo com cada instrução. No entanto, a autoavaliação de resumo depende do Gemini, que talvez não verifique com precisão as instruções gramaticais. Portanto, a autoavaliação de resumo pode não avaliar com precisão se um resumo segue as instruções gramaticais.
Uma pontuação de aderência baixa significa que o resumo não segue as instruções fornecidas na definição da seção de resumo. Somente os resumos que usam seções personalizadas podem gerar uma pontuação de aderência.
Para aderência, a autoavaliação de resumo reconhece os dois tipos de tarefas de resumo a seguir:
- Resumos categóricos: fornecem um valor categórico definido nas instruções. Por exemplo, as instruções pedem uma resposta Ensolarado ou Nublado. A autoavaliação verifica se o resumo forneceu apenas Ensolarado ou Nublado sem texto descritivo.
- Resumos não categóricos: fornecem texto de formato livre. A autoavaliação verifica se um resumo não categórico segue as instruções definidas na descrição da tarefa.
Os resultados de aderência são semelhantes a estes:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Cada pergunta é derivada da definição da seção de resumo fornecida. O parâmetro binário
is_addressedmostra o resultado da avaliação de aderência. O parâmetroreasoningfornece uma justificativa.Se alguma pergunta não estiver alinhada ao seu objetivo, a definição da seção de resumo desse objetivo não estava clara. Você pode entender o problema e melhorar as definições de seção.
Integridade
A autoavaliação de resumo aplica um conjunto de rubricas para avaliar a integridade de um resumo gerado por IA com base nas instruções na definição da seção do resumo. Uma pontuação de integridade baixa significa que o resumo não incluiu as informações importantes da transcrição.
Os resultados de integridade são semelhantes a estes:
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Cada pergunta é derivada da descrição da tarefa e da transcrição fornecidas. O parâmetro binário
is_addressedmostra o resultado da avaliação.Se alguma das perguntas não estiver alinhada ao seu objetivo, a definição da seção do resumo não estava clara. Entenda o problema e melhore a definição da seção.