Métricas de avaliação automática de resumo

A avaliação automática de resumo (autoavaliação) avalia a qualidade dos resumos gerados por IA com base na precisão, integridade e aderência.

Precisão

A precisão mede o quanto um resumo está alinhado aos detalhes factuais da transcrição da conversa. Para cada resumo, a autoavaliação determina uma porcentagem de correção, além de uma justificativa correspondente. Uma pontuação de precisão baixa significa que há problemas factuais no resumo.

Os resultados de precisão são semelhantes a estes:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Cada point no exemplo anterior é uma parte decomposta do resumo. O parâmetro binário is_accurate mostra o resultado da avaliação de precisão. O parâmetro accuracy fornece a justificativa.

Aderência

A autoavaliação de resumo aplica um conjunto de perguntas ao resumo fornecido. Ela usa essas perguntas e a transcrição da conversa para avaliar a conformidade do resumo com cada instrução. No entanto, a autoavaliação de resumo depende do Gemini, que talvez não verifique com precisão as instruções gramaticais. Portanto, a autoavaliação de resumo pode não avaliar com precisão se um resumo segue as instruções gramaticais.

Uma pontuação de aderência baixa significa que o resumo não segue as instruções fornecidas na definição da seção de resumo. Somente os resumos que usam seções personalizadas podem gerar uma pontuação de aderência.

Para aderência, a autoavaliação de resumo reconhece os dois tipos de tarefas de resumo a seguir:

  • Resumos categóricos: fornecem um valor categórico definido nas instruções. Por exemplo, as instruções pedem uma resposta Ensolarado ou Nublado. A autoavaliação verifica se o resumo forneceu apenas Ensolarado ou Nublado sem texto descritivo.
  • Resumos não categóricos: fornecem texto de formato livre. A autoavaliação verifica se um resumo não categórico segue as instruções definidas na descrição da tarefa.

Os resultados de aderência são semelhantes a estes:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Cada pergunta é derivada da definição da seção de resumo fornecida. O parâmetro binário is_addressed mostra o resultado da avaliação de aderência. O parâmetro reasoning fornece uma justificativa.

  • Se alguma pergunta não estiver alinhada ao seu objetivo, a definição da seção de resumo desse objetivo não estava clara. Você pode entender o problema e melhorar as definições de seção.

Integridade

A autoavaliação de resumo aplica um conjunto de rubricas para avaliar a integridade de um resumo gerado por IA com base nas instruções na definição da seção do resumo. Uma pontuação de integridade baixa significa que o resumo não incluiu as informações importantes da transcrição.

Os resultados de integridade são semelhantes a estes:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • Cada pergunta é derivada da descrição da tarefa e da transcrição fornecidas. O parâmetro binário is_addressed mostra o resultado da avaliação.

  • Se alguma das perguntas não estiver alinhada ao seu objetivo, a definição da seção do resumo não estava clara. Entenda o problema e melhore a definição da seção.