Métricas de avaliação automática de resumo

A avaliação automática de resumo (autoavaliação) usa a IA generativa para avaliar a qualidade dos resumos gerados com IA com base na precisão, integridade e aderência.

Às vezes, as pontuações de aderência e integridade mostram N/A.

  • A fidelidade avalia apenas resumos que usam seções personalizadas. Se um resumo usar seções pré-criadas, a pontuação será N/A.
  • A integridade avalia apenas resumos não categóricos com texto livre. Se um resumo usar valores categóricos, a pontuação será N/A.

Precisão

A acurácia mede o quanto um resumo se alinha aos detalhes factuais da transcrição da conversa. Para cada resumo, a autoavaliação determina uma porcentagem de correção, além de uma justificativa correspondente. Uma pontuação de acurácia baixa significa que há problemas factuais no resumo.

Os resultados de acurácia são parecidos com isto:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Cada point no exemplo anterior é uma parte decomposta do resumo. O parâmetro binário is_accurate mostra o resultado da avaliação de acurácia. O parâmetro accuracy fornece a justificativa.

Adesão

A autoavaliação de resumo aplica um conjunto de perguntas ao resumo fornecido. A avaliação automática usa essas perguntas e a transcrição da conversa para avaliar a conformidade do resumo com cada instrução. No entanto, a autoavaliação de resumo depende do Gemini, que pode não verificar com precisão as instruções gramaticais. Por isso, a autoavaliação de resumo pode não avaliar com precisão se um resumo segue as instruções gramaticais.

Uma pontuação baixa significa que o resumo não segue as instruções fornecidas na definição da seção. Somente os resumos que usaram seções personalizadas podem gerar uma pontuação de adesão.

Para a fidelidade, a autoavaliação de resumo reconhece os dois tipos de tarefas de resumo a seguir:

  • Resumos categóricos: forneça um valor categórico definido nas instruções. Por exemplo, as instruções pedem uma resposta Ensolarado ou Nublado. A autoavaliação verifica se o resumo fornecido tem apenas Ensolarado ou Nublado sem texto descritivo.
  • Resumos não categóricos: fornecem texto em formato livre. A autoavaliação verifica se um resumo não categórico segue as instruções definidas na descrição da tarefa.

Os resultados de adesão são semelhantes a este:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Cada pergunta é derivada da definição da seção de resumo fornecida. O parâmetro binário is_addressed mostra o resultado da avaliação de aderência. O parâmetro reasoning fornece uma justificativa.

  • Se alguma pergunta não estiver alinhada à sua meta, a definição da seção de resumo dessa meta não estava clara. Entenda o problema e melhore as definições da seção.

Integridade

Com base nas instruções na definição de seção de um resumo gerado por IA, a autoavaliação de resumo aplica rubricas para avaliar a integridade do resumo. Uma pontuação baixa significa que o resumo não tinha informações importantes da transcrição.

Confira um exemplo de resultados de integridade:

[
  {
        'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue  or request'?",
        'content_list': [
    {
        'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.',
        'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.',
        'is_covered': 'True'
    },
    {
        'transcript_content': 'The agent clarified that the arrival window information is sent via text message.',
        'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message',
        'is_covered': 'True'
    },
    {
        'transcript_content': "The agent confirmed the phone number is 123-456-7890.",
        'related_content_from_summary': "and confirmed the phone number is 123-456-7890.",
        'is_covered': 'True'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?",
        'content_list': [
    {
        'transcript_content': 'The ABC appointment is on June 2nd.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?",
        'content_list': [
    {
        'transcript_content': 'The appointment is for a Google Pixel.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?",
        'content_list': []
  },
  {
        'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?",
        'content_list': []
  }
]

O exemplo anterior apresenta os seguintes cenários:

  • Se o resumo abranger o conteúdo relacionado da transcrição, o parâmetro binário is_covered será definido como True.
  • Se o resumo não abranger o conteúdo relacionado da transcrição, o parâmetro related_content_from_summary vai incluir uma string vazia, indicando que o resumo não extraiu os pontos relevantes. Isso, por sua vez, reduz a pontuação final e a pontuação de integridade da rubrica. Além disso, o parâmetro binário is_covered está definido como False.
  • Se nenhum conteúdo estiver relacionado à pergunta na transcrição, o parâmetro content_list vai consistir em uma lista vazia, o que não penaliza o resumo. A pontuação agregada final não inclui esse caso.

Cada pergunta no exemplo é derivada da descrição da tarefa fornecida. As informações relevantes da transcrição são incluídas como o valor do parâmetro transcript_content. O parâmetro binário is_covered mostra o resultado de integridade desse ponto específico, e related_content_from_summary mostra a prova. Se alguma das perguntas não estiver alinhada à sua meta, a definição da seção do resumo não ficou clara. Entenda o problema e melhore a definição da seção.