Este guia fornece práticas recomendadas especificamente para a conceção de agentes de voz. Quando cria um agente de voz, o objetivo é ajudar os utilizadores (utilizadores finais) a realizar uma tarefa sem encaminhamento para um agente humano. Os utilizadores devem sentir que estão a ter uma conversa natural, interativa e colaborativa com o agente de voz.
Também deve consultar o guia de design geral de agentes para todos os tipos de agentes, e o guia de práticas recomendadas para usar o serviço Dialogflow.
Meça a qualidade do agente
Para medir a qualidade da experiência do utilizador do seu agente, considere monitorizar as seguintes métricas:
Encaminhamento incorreto: quantos autores das chamadas acabaram no local errado.
Resolução na primeira chamada: número de chamadas resolvidas na primeira chamada ou contacto.
Tempo de processamento médio: o tempo necessário para resolver o problema do utilizador.
Satisfação do cliente: a pontuação do seu agente de voz num inquérito aos utilizadores.
Número de interações: quantas trocas são necessárias para concluir a tarefa do utilizador.
Desistência de utilizadores: a frequência com que os utilizadores deixam de interagir com a conversa.
Reconhecimento de voz
As seguintes sugestões podem ajudar o seu agente a reconhecer a fala do utilizador final:
- O seu agente deve incentivar o utilizador final a usar expressões longas ou frases completas. Isto melhora a qualidade do reconhecimento.
- Considere usar um webhook para validar a entrada do utilizador final que pode não ser reconhecida com precisão ou precisa de ser validada.
- Use eventos de não correspondência para pedir ao utilizador final que pronuncie as palavras de forma mais lenta e clara.
Estrutura da conversa
Geralmente, uma conversa com um agente de voz é organizada na seguinte sequência:
Atividade | Exemplo | Notas |
---|---|---|
Atividade de abertura | O utilizador inicia sessão ou liga para o seu centro de contacto. Agente de voz: Olá, sou da Travel Inc. Em que posso ajudar? |
O agente de voz inicia a conversa com uma mensagem de boas-vindas. |
Sequência principal | Utilizador: quero reservar um bilhete de avião. Agente de voz: OK, para onde quer ir? Utilizador: Guatemala, 19 de maio, 21:00. Agente de voz: OK. Reservámos um bilhete para a Guatemala para 19 de maio às 21:00. |
A tarefa é definida pelo utilizador e concluída pelo agente de voz. A tarefa pode demorar várias interações para o agente de voz recolher todas as informações necessárias. |
A fechar atividade | Agente de voz: em que mais posso ser útil? Utilizador: não Agente de voz: OK, obrigado por conversar comigo! |
O utilizador está pronto para terminar a conversa quando o seu pedido for cumprido. |
Mensagem de boas-vindas
Ao criar a mensagem de abertura para o utilizador, pense em como chegar ao primeiro tópico o mais rapidamente possível. A mensagem de boas-vindas deve ser curta e direta ao assunto. Algumas sugestões incluem o seguinte:
- Atenda a chamada com expressões como "Olá".
- Identifique o agente de voz com expressões como "Este é o agente/assistente de voz da empresa XYZ".
- Mostrar disponibilidade com expressões como "Em que posso ser útil?"
Quaisquer informações adicionais podem frustrar os utilizadores e fazer com que encaminhem o problema para um agente humano. No entanto, pode ter de prolongar a mensagem de boas-vindas por motivos legais, como informar o utilizador de que a conversa pode ser gravada.
Evite informações que façam com que a conversa soe não natural ou desequilibrada. Por exemplo:
Fazer | O que não fazer |
---|---|
Modele o idioma que quer que os seus utilizadores usem. Por exemplo, se quiser que o utilizador explique as coisas em uma ou duas frases, limite o seu agente de voz a uma ou duas frases por interação. | Não instrua os utilizadores sobre como falar com frases como "em uma ou duas frases, diz-me…" ou "pode dizer coisas como…" |
Concentre-se na tarefa que o utilizador quer realizar e crie estratégias de processamento de erros caso a conversa falhe. | Não diga aos utilizadores o que o agente de voz pode fazer com frases como "Posso ajudar a resolver problemas complexos". |
Pares de mudanças nas conversas
Uma conversa típica consiste em pares de turnos, como os seguintes tipos de trocas:
- pergunta-resposta, que é mais comum para um agente de voz
- Aceitação/rejeição de convites
- greetings-greetings
Por vezes, um par de turnos pode incluir texto adicional, como uma explicação sobre o motivo pelo qual precisamos de fazer uma pergunta, informações de contexto relacionadas com a pergunta que queremos fazer ou uma reação à resposta do utilizador. Por exemplo, considere o seguinte par de turnos de pergunta-resposta:
Agente de voz: isto custa-lhe 10 €/dia. (informações/explicação de contexto) Quer continuar a adicionar esta vantagem? (pergunta)
Utilizador: Sim. (resposta)
Agente de voz: fantástico! (reação)
Consulte também a secção Preenchimento do guia de práticas recomendadas de design de agentes gerais para ver diretrizes sobre o posicionamento do preenchimento.
Reparação de conversas
A reparação de conversas é a prática de corrigir mal-entendidos, erros de audição e erros de articulação para retomar uma conversa. A reparação de uma conversa pode ajudar a criar confiança no utilizador, mostrando que o agente de voz está a ouvir o respetivo pedido.
Algumas práticas recomendadas incluem:
Seja específico e use o contexto que o utilizador já ofereceu em interações anteriores. Evite fazer perguntas óbvias e redundantes, como "Não percebi", "Não compreendo" ou "Estou a ter problemas".
Dê ao utilizador a oportunidade de se autorreparar, o que significa permitir que o utilizador repare o seu turno da forma que considerar mais adequada para garantir que tem controlo na conversa. Evite expressões como "tente reformular" ou "pode dizer x, y ou z".
Use a estrutura "Quis dizer x?" para verificar se a pessoa compreendeu.
A tabela seguinte descreve vários exemplos de práticas recomendadas e não recomendadas:
Fazer | O que não fazer |
---|---|
Utilizador: Vou viajar para Itália. Agente de voz: desculpe, de que país? |
Utilizador: Vou viajar para Itália. Agente de voz: lamento, mas estou com dificuldades. Podes reformular? Para onde vai? |
Utilizador: quero pagar 80 $. Agente de voz: quer dizer 80 €? (Repete apenas as informações que precisam de confirmação) |
Utilizador: quero pagar 80 $. Agente de voz: quer pagar 80 €? (Repete as informações redundantes "quer pagar") |
Processamento de erros
A secção seguinte descreve como processar situações em que uma conversa falha.
Sem correspondência
Um evento No-Match é invocado quando o agente de voz não consegue encontrar uma intenção que corresponda ao que o utilizador disse.
Na primeira instância do evento No-Match, experimente o seguinte:
Repetir a pergunta ao utilizador, mas reformulá-la de forma mais curta para indicar as informações em falta. Ao focar-se apenas nas informações em falta, o agente de voz transmite implicitamente que ouviu o resto da declaração do utilizador.
Pode adicionar "desculpe" antes da pergunta reformulada para indicar que algo correu mal da sua parte.
Na segunda instância do evento No-Match, mostre mais claramente que o agente de voz está a esforçar-se por ouvir. Por exemplo, considere a seguinte troca de mensagens:
Utilizador: vou viajar para Itália
Agente de voz: desculpe, de que país?
Utilizador: Itália
Agente de voz: desculpe, para que país vai viajar?
Sem entrada
Se o seu agente de voz não recebeu nenhuma resposta verbal do utilizador, repita a pergunta da mesma forma que na primeira vez. Na segunda instância do evento No-Input, pode reformular a pergunta original, mas certifique-se de que todos os componentes originais da pergunta estão presentes.
Limite as repetições de não correspondência e sem introdução
Para evitar que os utilizadores fiquem presos num ciclo de eventos de processamento de erros, implemente um máximo de 3 para cada página de No-Match/No-Input. Encaminhe os utilizadores para um agente humano após o terceiro evento No-Match ou No-Input.
No-speech-timeout
Em situações em que os utilizadores precisam de rever informações ou tomar decisões antes de avançar, aumente a definição no-speech-timeout para dar aos utilizadores tempo suficiente para responder.
No exemplo seguinte, a definição no-speech-timeout de 2 segundos é demasiado curta para o utilizador ler uma mensagem SMS e tomar uma decisão:
Agente de voz: enviei uma mensagem de texto para o seu dispositivo. Clique no link para saber mais sobre o passe de viagem. Vou tocar música para lhe dar tempo para ler o texto e responder-me. <2 second pause> Quer continuar?
Utilizador: ainda estou a ler.
Agente de voz: quer adicionar o passe de viagem ao seu plano?
Técnicas de conversa
Esta secção descreve técnicas para ajudar o agente de voz a criar confiança junto dos utilizadores e a tornar as conversas mais fluidas.
Conceber perguntas acionáveis
Crie perguntas explícitas e acionáveis para o seu agente de voz fazer ao utilizador. Por exemplo, considere o que deve e não deve fazer:
Fazer | O que não fazer |
---|---|
Faça perguntas abertas, como "Quando vai viajar?", que pedem ao utilizador para indicar datas, se as souber, ou dizer "Não sei", caso contrário. | Não pergunte "Sabe as datas da sua viagem?", que só gera uma resposta sim ou não e é menos acionável. |
Pergunte: "Quer verificar o estado da encomenda de outro pacote?" | Não pergunte "Gostaria de continuar com o estado da encomenda de outro pacote?" |
Também deve preparar o seu agente de voz para situações em que o utilizador pode responder a uma pergunta implicitamente, como as pessoas fazem frequentemente em conversas naturais. Por exemplo, considere a seguinte interação:
Agente de voz: aceda a Conta, clique em Utilização e, de seguida, em Utilização por linha. Diga-me quando chegar.
Utilizador: é apresentado um aviso a indicar que não consigo ver dados de há 3 meses ou mais.
A resposta do utilizador implica que chegou com êxito ao ecrã de destino, mas que ainda precisava de mais ajuda. O seu agente de voz deve antecipar essas implicações, em vez de esperar que o utilizador diga apenas "Cheguei lá" ou "Não cheguei lá".
Ganhar a confiança dos utilizadores
Os agentes de voz podem mostrar aos utilizadores que estão a ouvir através da utilização de confirmações e detalhes específicos. Se o agente de voz fornecer respostas genéricas, os utilizadores podem considerar que o agente de voz soa de forma artificial.
Use confirmações. Por exemplo, considere a seguinte troca de mensagens, em que "Sem problema" é usado como confirmação:
Utilizador: quero definir um acordo de pagamento para segunda-feira.
Agente de voz: não há problema. Quanto quer pagar na segunda-feira?
Adicione detalhes específicos para mostrar que o agente de voz está a ouvir ativamente o utilizador. Por exemplo, na troca acima, a expressão "na segunda-feira" é um detalhe específico que indica que o agente de voz ouviu o que o utilizador disse.
Responda ao pedido do utilizador o mais rapidamente possível e exclua todos os passos desnecessários. No exemplo seguinte, as informações estranhas podem causar frustração ao utilizador:
Utilizador: existe uma falha na minha área?
Agente de voz: sabemos como é importante para si manter-se em contacto. Vamos descobrir o que está a causar este problema. Indique-nos os últimos 4 dígitos da linha em que está a ter problemas. Se o problema estiver em várias linhas, indique apenas uma por agora.
Utilizador: 1234
Agente de voz: obrigado. Vou analisar os passos seguintes para esta linha. Vamos começar. Desativar e, em seguida, reativar temporariamente a voz HD pode resolver o problema… Funcionou?"
Certifique-se de que a conversa entre o utilizador e o agente de voz é equilibrada. Os utilizadores podem sentir uma falta de controlo desconfortável na conversa se o agente de voz dominar a conversa. Priorize as perguntas Quem/Onde/O quê/Quando/Como em vez de perguntas Sim/Não.
Certifique-se de que a conversa do utilizador transita sem problemas quando este quer encaminhar a conversa para agentes humanos.
Informações adicionais
Consulte o guia de design de conversas fornecido pela equipa do Actions on Google.
Consulte o Guia interativo por voz para os Next Billion Users.
Consulte o guia SSML do Cloud Text-to-Speech.
Leia sobre os atos de fala para mais informações sobre a conceção de perguntas acionáveis.