Práticas recomendadas de IA de qualidade

Este documento descreve as recomendações do Google sobre a melhor forma de usar a IA de qualidade. Seguir as diretrizes deste documento garante que a IA de qualidade forneça as informações mais precisas e úteis possíveis para as necessidades da sua empresa.

Visões gerais

Os quadros de visão geral fornecem acesso a métricas de desempenho do agente e instruções detalhadas para responder a perguntas sobre uma conversa. Você precisa inserir os dados da conversa, as perguntas e as possíveis opções de resposta, além de instruções sobre como interpretar essas respostas. Para melhores resultados, use a página Visões gerais no console da IA de qualidade para fazer upload das conversas de exemplo.

Os quadros de visão geral são uma maneira de agrupar suas perguntas e ver pontuações separadas para cada agrupamento. Crie várias tabelas de avaliação com perguntas diferentes em cada uma para avaliar as conversas de acordo com critérios diferentes. Em seguida, você pode conferir as pontuações de qualidade e conversa de cada quadro para avaliar um agente com base em critérios separados.

Dados de conversa

Os dados de conversa são transcrições de conversas por voz ou chat com informações de identificação pessoal ocultadas. Faça upload de pelo menos 2.000 conversas para cada unidade de negócios ou central de atendimento.

Também é possível fazer upload de gravações de áudio de conversas por voz. Para melhores resultados, grave o áudio usando as seguintes especificações:

  • Dois canais
  • Taxa de amostragem de 16.000 Hz (ou de 8.000 a 48.000 Hz)
  • Codificação sem perdas: FLAC ou LINEAR16
  • Codificação sem perdas para arquivos de áudio WAV: LINEAR16 ou MULAW

Os metadados das gravações de áudio de uma chamada de voz precisam incluir as seguintes informações:

  • Rótulos de canal para identificar o agente e o cliente
  • ID, nome, local, equipe e CSAT do agente
  • Idioma do áudio como uma tag de idioma BCP-47, como en-US

Perguntas

Em cada visão geral, as perguntas e instruções para responder a elas fornecem informações valiosas para que a IA de qualidade avalie as conversas e a performance dos agentes. Para maximizar a acurácia das avaliações automáticas, escreva perguntas e instruções com os seguintes conceitos em mente:

  • Clareza: escreva perguntas claras e que um humano possa entender.
  • Especificidade: adicione opções de resposta e instruções o mais específicas possível.
  • Detalhes: inclua instruções que forneçam detalhes suficientes para que um humano avalie as conversas com confiança e confiabilidade.
  • Exemplos: a IA de qualidade é ainda mais precisa se você fornecer exemplos de conversas reais que ilustrem cada resposta às suas perguntas.

As perguntas podem ter vários formatos. Confira alguns modelos de perguntas úteis:

  1. "O agente…?" com uma ação específica. Esse formato indica que o avaliador precisa procurar algo que o agente disse.
  2. "O cliente…?" com uma ação específica. Esse formato indica que o avaliador precisa procurar algo que o cliente disse.
  3. Começar com palavras interrogativas como o quê ou por quê incentiva a avaliação de toda a conversa.

Perguntas com várias respostas

Os usuários costumam escrever perguntas com respostas apenas de sim e não. No entanto, uma pergunta pode não se aplicar à conversa, o que justifica N/A.

Outra possibilidade é que a pergunta seja interpretada como "sim" ou "não" em várias circunstâncias, o que leva a respostas inconsistentes com apenas duas opções. Incluir perguntas que exigem outros tipos de respostas dá ao modelo de IA uma compreensão mais profunda da conversa.

Análise acústica

A IA de qualidade avalia transcrições de conversas e não pode fazer análises acústicas. Exclua perguntas que exigem análise acústica. Por exemplo, nem uma pessoa nem a IA de qualidade podem responder à pergunta "O agente usou uma saudação com um tom de voz alegre?" apenas lendo uma transcrição da conversa.

Tags

A tag opcional oferece uma categoria menor para agrupar perguntas relacionadas. Para uma única conversa, a IA de qualidade calcula uma pontuação geral. Você pode agrupar perguntas usando uma destas três tags: negócios, cliente ou compliance. Para cada tag, a IA de qualidade também calcula uma pontuação que inclui apenas perguntas com essa tag aplicada.

Instruções

As instruções definem como cada resposta é interpretada. Por isso, elas precisam ser específicas e não deixar espaço para interpretação. A definição garante que cada avaliação de uma conversa forneça a mesma resposta.

Formato

Inclua uma breve descrição da finalidade da pergunta seguida de uma descrição dos critérios para cada opção de resposta possível. Isso significa que você precisa definir a circunstância precisa em que alguém daria cada opção de resposta.

Por exemplo, as instruções a seguir se aplicam a uma pergunta de sim/não que pergunta: "O agente abordou a principal dúvida do cliente antes de fazer uma venda cruzada?"

Instruções:

O objetivo dessa pergunta é entender se o atendente abordou a principal dúvida do cliente antes de tentar vender um produto adicional. Isso cria uma experiência mais positiva para nossa marca.

  • Marque "Sim" se o agente resolveu o problema principal e tentou fazer vendas. Exemplo: "Acabei de atualizar as informações da sua conta. Notei que você marcou seu dispositivo de casa inteligente como quebrado. Você quer pedir uma substituição?"

  • Marque "Não" se o agente tentou vender um produto antes de resolver o problema principal. Exemplo: "Antes de atualizar as informações da sua conta, notei que você comprou um notebook com a gente há cinco anos. Quer testar nosso novo modelo?"

  • Marque "N/A" se não houve tentativa de venda.

Tipos de resposta

O tipo de resposta depende da estrutura da pergunta. Esta seção oferece sugestões para ajudar você a começar, mas não é uma lista completa de usos.

Sim/Não

Sim/Não é o tipo de resposta mais comum porque você pode avaliar essas perguntas rapidamente, e as respostas geralmente são mais intuitivas do que outros tipos. As perguntas que se beneficiam de uma resposta do tipo sim/não geralmente começam com "Você..." e perguntam se uma ação específica foi realizada. Essas perguntas também podem ser escritas como verdadeiro ou falso.

Nas conversas de exemplo, as respostas sim/não são registradas como um valor verdadeiro ou falso nos seguintes formatos:

  • Uma resposta "Sim" é true.
  • Uma resposta "Não" éfalse.

Números

As respostas numéricas são úteis para perguntas que pedem uma contagem de algo, um valor em dinheiro ou que pedem para você classificar algo em uma escala. As perguntas que se beneficiam desse tipo de resposta geralmente começam com "Quantos...", "Quanto..." ou "Em uma escala de..." e pedem para você determinar uma única resposta.

Em conversas de exemplo, as respostas numéricas têm o seguinte formato:

  • A resposta 40,5 é 40.5.

Texto

As respostas de texto exigem mais trabalho de um rotulador humano. As perguntas que se beneficiam de respostas em texto geralmente começam com palavras interrogativas, como "O que..." ou "Por que...", e exigem a avaliação da conversa como um todo. As respostas de texto incentivam mais variedade nas respostas. Por isso, as instruções precisam explicar claramente como interpretar a pergunta e quando atribuir cada opção de resposta.

Em conversas de exemplo, as respostas de texto têm o seguinte formato:

  • Uma resposta "Concluída" é "CONCLUDED".

Atribuir pontuações

Ao criar uma pergunta, você pode atribuir uma pontuação numérica a cada opção de resposta. Essas pontuações representam a importância de cada opção de resposta para o cálculo geral da pontuação da conversa.

Um intervalo útil para pontuações de opções de resposta é de 0 a 10. Esse intervalo oferece alguma variação para especificidade e é comparável a uma porcentagem. Uma opção de resposta com uma pontuação de 0 não afeta o cálculo da pontuação da conversa. Uma opção de resposta com uma pontuação de 10 tem o maior impacto na pontuação da conversa. Em outras palavras, a opção de resposta com uma nota 10 aumenta mais a pontuação da conversa do que qualquer opção com uma nota menor. Uma opção de resposta com uma pontuação de 5 aumenta a pontuação da conversa pela metade do valor da resposta com 10.

N/A

Marque a caixa de seleção para ativar N/A como uma opção de resposta quando uma pergunta não se aplica a uma conversa. Quando a IA de qualidade escolhe "N/A; como resposta, a pergunta é removida do cálculo da pontuação da conversa.

Exemplos de entradas de visão geral

Os exemplos a seguir ilustram como adicionar todas as informações necessárias para um quadro de visão geral útil. Cada quadro de visão geral requer as seguintes informações:

  • Qualquer dúvida sobre a conversa.
  • Instruções para interpretar a pergunta e definir cada opção de resposta.
  • Tipo de resposta (pode ser texto, número ou sim/não).
  • Opções de resposta que definem as respostas possíveis com base no tipo de resposta (podem ser sim e não, uma lista de números ou algumas respostas de texto).
  • Pontuação para definir os pontos ganhos por cada opção de resposta. A pontuação máxima de uma única pergunta é determinada pela maior pontuação entre todas as opções de resposta.

Você pode incluir o seguinte para ajudar a organizar as perguntas no seu quadro de avaliação, mas não é obrigatório:

  • Adicione uma tag para agrupar as perguntas em categorias (podem ser negócios, clientes ou compliance).

Exemplo 1

  • Pergunta: qual foi o resultado da conversa?
  • Tag: cliente
  • Instruções: o objetivo de qualquer conversa é chegar a uma resolução ou resultado que se enquadre em uma das quatro categorias possíveis: concluída, transferida, redirecionada ou encaminhada.

    • As conversas concluídas são aquelas que foram resolvidas e não exigem mais ações. O problema do cliente foi resolvido, e a conversa foi concluída.

    • As conversas transferidas são aquelas que precisam ser tratadas por um departamento ou agente diferente. O cliente pode ter sido transferido para um especialista que pode ajudar melhor com o problema.

    • As conversas redirecionadas são aquelas que precisam ser tratadas por um canal diferente. Por exemplo, um cliente pode ter sido redirecionado de uma ligação telefônica para uma sessão de chat on-line.

    • As conversas encaminhadas são aquelas que exigem o envolvimento de um gerente ou supervisor. O cliente pode ter sido encaminhado devido à gravidade do problema ou porque não ficou satisfeito com a resolução oferecida pelo agente inicial.

  • Tipo de resposta: texto

    Opção de resposta Pontuação
    Concluído 1
    Transferida 1
    Redirecionado 1
    Encaminhamento do problema 0

    Adicione N/A; como uma opção de resposta. Se selecionada, a pergunta não será incluída no cálculo da pontuação total.

Exemplo 2

  • Pergunta: em uma escala de 0 a 5, qual foi a eficácia da comunicação entre o agente e o cliente?
  • Tag: negócios, compliance, cliente
  • Instruções: escala e critérios

    • 0, extremamente ruim: nenhuma comunicação ou mal-entendido completo. Linguagem ofensiva, abusiva ou prejudicial. Falta total de respeito ou empatia.

    • 1, Muito ruim: dificuldades significativas de comunicação. Interrupções frequentes ou falar ao mesmo tempo. Esforço mínimo para entender ou se conectar. Comportamento desrespeitoso ou de rejeição.

    • 2, Ruim: alguns desafios de comunicação. Mal-entendidos ocasionais ou falta de clareza. Interesse ou interação limitados. Desrespeito ou insensibilidade ocasionais.

    • 3, Média: comunicação básica alcançada. Algum esforço para entender e ser entendido.Nível moderado de engajamento e conexão. Geralmente respeitoso, mas com espaço para melhorias.

    • 4, Boa: comunicação clara e eficaz. Escuta ativa e compreensão. Engajamento e conexão significativos. Respeito e empatia mútuos demonstrados.

    • 5, Excelente: comunicação e compreensão excepcionais. Engajamento e conexão profundos. Forte senso de colaboração e apoio mútuo. Alto nível de respeito, empatia e compaixão.

    Fatores a serem considerados ao avaliar:

    • Clareza: a comunicação foi clara e fácil de entender?

    • Entendimento: os participantes demonstraram escuta ativa e compreensão das perspectivas uns dos outros?

    • Engajamento: os participantes interagiram ativamente na conversa e se interessaram pelo que os outros tinham a dizer?

    • Respeito: houve respeito e consideração mútuos durante toda a conversa?

    • Empatia: os participantes demonstraram empatia e compreensão dos sentimentos uns dos outros?

    • Colaboração: houve um senso de colaboração e trabalho em equipe ou os participantes sentiram que estavam competindo uns contra os outros?

    • Resultado: a conversa alcançou as metas pretendidas ou levou a um resultado positivo?

    Não se esqueça: o contexto é importante. Considere o contexto e o objetivo da conversa. O que é adequado em um ambiente pode não ser em outro.

    Subjetividade: a avaliação pode ser subjetiva. Pessoas diferentes podem ter interpretações ligeiramente diferentes da mesma conversa.

    Foco na melhoria: use as avaliações como uma ferramenta de aprendizado e melhoria, em vez de apenas uma maneira de julgar ou criticar.

    Essa estrutura oferece um guia básico para avaliar conversas, mas você pode adaptar e ajustar os critérios com base nas suas necessidades e metas específicas.

  • Tipo de resposta: número

  • Opções de resposta e pontuações:

    Opção de resposta Pontuação
    0 0
    1 1
    2 2
    3 3
    4 4
    5 5

Adicione N/A; como uma opção de resposta. Se selecionada, a pergunta não será incluída no cálculo da pontuação total.

Exemplo 3

  • Pergunta: o representante (agente) cumprimentou o cliente com uma abertura adequada?
  • Tag: cliente
  • Instruções: o representante (agente) sempre deve iniciar as conversas com uma abertura e uma saudação adequadas. Essa é uma etapa crucial para estabelecer uma relação positiva e profissional com o cliente. A abertura precisa ser calorosa, amigável e acolhedora, criando um tom que faça o cliente se sentir valorizado e respeitado. O representante (agente) também precisa garantir que a saudação seja adequada ao contexto e à origem cultural do cliente. Ao iniciar a conversa com uma abertura e uma saudação adequadas, o representante pode criar uma primeira impressão positiva, criar afinidade e estabelecer a base para uma interação bem-sucedida com o cliente.
  • Tipo de resposta: sim/não
  • Opções de resposta e pontuações:

    Opção de resposta Pontuação
    "Sim" 1
    "Não" 0

Adicione N/A; como uma opção de resposta. Se selecionada, a pergunta não será incluída no cálculo da pontuação total.

Adicionar exemplos de conversas

Exemplos de conversas são úteis para esclarecer a interpretação de perguntas. Para calibrar e personalizar o modelo de IA, são necessárias conversas de exemplo com respostas atribuídas a cada pergunta. O modelo de IA aprende com dados de conversas reais. Por isso, use exemplos das suas conversas no Customer Experience Insights. Se você não fornecer exemplos de conversas, a IA de qualidade vai usar um modelo de fundação que não conhece as respostas esperadas para suas perguntas.

Para melhorar o desempenho do modelo de IA, inclua pelo menos o seguinte:

  • 100 exemplos de conversas por pergunta
  • 40 exemplos de conversas por opção de resposta

Se você fornecer menos de 100 exemplos de conversas para uma única pergunta, o modelo de IA não vai aprender a pontuar essa pergunta específica com precisão. Suas conversas de exemplo são armazenadas, e o modelo aprende depois que você tem o suficiente. Uma única conversa pode ensinar o modelo a pontuar várias perguntas, e você pode melhorar ainda mais a acurácia da pontuação de qualquer pergunta adicionando mais exemplos de conversas.

Para cada pergunta no seu quadro de avaliação, inclua uma porcentagem de conversas para ilustrar cada opção de resposta. O exemplo a seguir mostra quantas conversas você pode incluir para ilustrar duas opções de resposta possíveis. Essa divisão específica não é obrigatória.

Se uma pergunta em um quadro de pontuação for "O agente demonstrou empatia com o cliente?" e a resposta puder ser sim ou não, inclua o seguinte:

Pergunta Possíveis respostas Parcela de conversas
O agente demonstrou empatia pelo cliente? "Sim" 75%
"Não" 25%

Exemplo de formato de conversa

As conversas de exemplo precisam incluir no mínimo identificadores para cada conversa, quadro de pontuação e pergunta, além da resposta esperada. Seus exemplos de conversas também podem incluir as opções de resposta, as pontuações e as instruções. As conversas de exemplo são enviadas como o recurso FeedbackLabel. Para informações sobre como editar conversas de exemplo usando a API, consulte o guia de configuração.

CSV

Você precisa fazer upload de exemplos de conversas em um arquivo CSV. A primeira linha do arquivo CSV precisa ser o cabeçalho, e o arquivo precisa conter as seguintes categorias:

  • ConversationId
  • QaScorecardId
  • QaQuestionId
  • QaAnswerLabel ou campos individualizados, como QaAnswerScore e QaAnswerValue

A IA de qualidade pode criar automaticamente um modelo de conversa de exemplo com os IDs anteriores preenchidos. Você pode escolher qual quadro de pontuação usar para as conversas de exemplo e filtrar o modelo para incluir apenas algumas das suas conversas. Para instruções sobre como criar um modelo e fazer upload de exemplos de conversas, consulte o guia de configuração da IA de qualidade.

Os arquivos de conversa de exemplo em CSV podem ter vários formatos. Por exemplo, respostas sim/não correspondem a um valor verdadeiro ou falso, os números permanecem os mesmos e as respostas de texto são colocadas entre aspas. Isso significa que true é exibido como um tipo de resposta "Sim/Não", e a opção selecionada é "Sim". Por outro lado, "Yes" é mostrado como um tipo de resposta de texto com a opção "Sim" selecionada. Os exemplos a seguir ilustram alguns formatos de CSV possíveis.

  • O cabeçalho individual QaAnswerValue não atribui uma pontuação.
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue
    convo_id,scorecard_test_id,question_id_q3,"NO"
    convo_id,scorecard_test_id,question_id_q6,"YES"
    convo_id,scorecard_test_id,question_id_q6,true
    convo_id,scorecard_test_id,question_id_q6,false
    convo_id,scorecard_test_id,question_id_q6,40.5
    
  • Inclui cabeçalhos QaAnswerValue e QaAnswerScore.
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore
    convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0
    convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
    
  • O cabeçalho QaAnswerLabel abrange uma pontuação e uma resposta, mas não as separa com uma vírgula.
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel
    convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO"
    convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5
    convo_id,scorecard_test_id,question_id_q6,na_value:true
    convo_id,scorecard_test_id,question_id_q3,true
    

Tabela

Em uma planilha, o formato visual para suas conversas de exemplo é uma tabela em que cada linha contém informações para identificar uma única resposta e cada coluna contém identificações separadas, conforme mostrado na tabela a seguir:

ID da conversa ID da visão geral ID da pergunta Resposta
44748735396 5727080762913918243 4097398336657302301 "YES"
44748735396 5727080762913918243 3576133206121890384 "NO"
3495523396 5727080762913918243 4097398336657302301 "YES"
3495523396 5727080762913918243 3576133206121890384 "NO"

Avaliar uma conversa

Os anotadores humanos usam perguntas e instruções de scorecard para avaliar manualmente as conversas e determinar as respostas corretas para cada pergunta em conversas de exemplo. Quando várias pessoas avaliam a mesma conversa, às vezes elas dão respostas diferentes para cada pergunta. Essa inconsistência entre as avaliações introduz ruído e confusão no processo de machine learning. Em uma conversa, se a mesma pergunta ou uma pergunta semelhante estiver associada a várias respostas diferentes, a IA de qualidade não terá como aprender o mapeamento entre perguntas e respostas.

Qualquer uma das seguintes situações pode causar inconsistência quando várias pessoas respondem às mesmas perguntas em uma única conversa:

  • Perguntas subjetivas que levam a interpretações diferentes entre os rotuladores.
  • Rubricas com detalhes insuficientes ou diretrizes pouco claras.
  • Diferentes versões de uma pergunta, opções de resposta ou instruções, por exemplo:
    • Você pode começar com apenas opções de resposta sim/não e depois mudar para uma abordagem mais refinada com opções não-a, não-b e não-c.
    • No entanto, combinar a abordagem de sim/não com as opções "nenhuma das opções" vai confundir o modelo.
  • Uma tarefa de avaliação que exige uma grande carga cognitiva.

Medir a consistência

Para medir a consistência nas suas conversas de exemplo, peça a vários rotuladores que avaliem a mesma conversa de forma independente. Em seguida, calcule a concordância entre eles usando o coeficiente Kappa de Cohen. Você quer um coeficiente kappa de Cohen de pelo menos 0,2. Se a consistência estiver baixa, tente uma das seguintes opções:

  • Refine a pergunta e as instruções para deixar menos espaço para interpretação.
  • Comunicação entre os rotuladores para resolver discrepâncias e concordar com um único padrão de classificação.
  • Monitorar continuamente as consistências entre os rotuladores.
  • Ofereça treinamento extra para os rotuladores cujas respostas costumam ser diferentes do padrão de avaliação.