En este documento, se describen las recomendaciones de Google para usar de la mejor manera la IA de calidad. Si sigues los lineamientos de este documento, te asegurarás de que la IA de calidad proporcione la información más precisa y útil posible para las necesidades de tu empresa.
Cuadros de evaluación
Los cuadros de evaluación proporcionan acceso a las métricas de rendimiento del agente y a instrucciones detalladas para responder preguntas sobre una conversación. Debes ingresar los datos de conversación, las preguntas y las posibles opciones de respuesta, junto con las instrucciones para interpretar esas respuestas. Para obtener los mejores resultados, usa la página Cuadros de evaluación en la consola de IA de calidad para subir tus conversaciones de ejemplo.
Los cuadros de evaluación proporcionan una forma de agrupar tus preguntas y ver puntuaciones separadas para cada agrupación. Crea varios cuadros de evaluación con diferentes preguntas en cada uno para evaluar las conversaciones según distintos criterios. Luego, puedes ver las puntuaciones de calidad y conversación de cada tarjeta de evaluación para evaluar a un agente según criterios separados.
Datos de conversaciones
Los datos de conversaciones son transcripciones de conversaciones de voz o chat con información de identificación personal redactada. Sube al menos 2,000 conversaciones para cada unidad de negocios o centro de llamadas.
También puedes subir grabaciones de audio de conversaciones de voz. Para obtener los mejores resultados, graba el audio con las siguientes especificaciones:
- Dos canales
- Tasa de muestreo de 16,000 Hz (o de 8,000 a 48,000 Hz)
- Codificación sin pérdida: FLAC o LINEAR16
- Codificación sin pérdida para archivos de audio WAV: LINEAR16 o MULAW
Los metadatos de las grabaciones de audio de una llamada de voz deben incluir la siguiente información:
- Etiquetas de canal para identificar al agente y al cliente
- ID, nombre, ubicación, equipo y CSAT del agente
- Idioma del audio como una etiqueta de idioma BCP-47, como en-US
Preguntas
En cada cuadro de evaluación, las preguntas y las instrucciones para responderlas proporcionan información valiosa para que la IA de calidad evalúe las conversaciones y el rendimiento de los agentes. Para maximizar la precisión de las evaluaciones automáticas, escribe preguntas e instrucciones teniendo en cuenta los siguientes conceptos:
- Claridad: Escribe preguntas que sean claras y que una persona pueda entender.
- Especificidad: Agrega opciones de respuesta e instrucciones que sean lo más específicas posible.
- Detalles: Incluye instrucciones que proporcionen suficientes detalles para que una persona evalúe las conversaciones de forma confiable y segura.
- Ejemplos: La IA de calidad es aún más precisa si proporcionas ejemplos de conversaciones reales que ilustren cada respuesta a tus preguntas.
Las preguntas pueden adoptar diversas formas. Estas son algunas plantillas de preguntas útiles:
- "¿El agente…?" con una acción específica. Este formato indica que el evaluador debe buscar algo que dijo el agente.
- "¿El cliente…?" con una acción específica Este formato indica que el evaluador debe buscar algo que dijo el cliente.
- Comenzar con palabras interrogativas como qué o por qué fomenta la evaluación de toda la conversación.
Preguntas con varias respuestas
Los usuarios suelen escribir preguntas con respuestas de sí o no. Sin embargo, es posible que una pregunta no se aplique a la conversación, lo que justifica la respuesta N/A.
Como alternativa, la pregunta se podría interpretar como sí o no en diversas circunstancias, lo que genera respuestas incoherentes con solo dos opciones. Incluir preguntas que requieren otros tipos de respuestas le da al modelo de IA una mayor profundidad de comprensión de la conversación.
Análisis acústico
La IA de calidad evalúa las transcripciones de conversaciones y no puede realizar análisis acústicos. Excluye las preguntas que requieren análisis acústico. Por ejemplo, ni una persona ni la IA de calidad pueden responder la pregunta "¿El agente usó un saludo con un tono de voz alegre?" solo con leer una transcripción de la conversación.
Etiquetas
La etiqueta opcional proporciona una categoría más pequeña para agrupar preguntas relacionadas. Para una sola conversación, la IA de calidad calcula una puntuación general de la conversación. Puedes agrupar las preguntas con una de las tres etiquetas: empresa, cliente o cumplimiento. Para cada etiqueta, Calidad de la IA también calcula una puntuación que incluye solo las preguntas con esa etiqueta aplicada.
Instrucciones
Las instrucciones definen cómo se interpreta cada respuesta, por lo que deben ser específicas y no dejar lugar a interpretaciones. La definición garantiza que cada evaluación de una conversación proporcione la misma respuesta.
Formato
Incluye una breve descripción del propósito de la pregunta, seguida de una descripción de los criterios para cada posible respuesta. Esto significa que debes definir la circunstancia precisa en la que alguien daría cada opción de respuesta.
Por ejemplo, las siguientes instrucciones se aplican a una pregunta de sí o no que dice: "¿El agente abordó la principal inquietud del cliente antes de realizar una venta cruzada?".
Instrucciones:
El objetivo de esta pregunta es comprender si el agente abordó la inquietud principal del cliente antes de intentar venderle un producto adicional. Esto crea una experiencia más positiva para nuestra marca.
Califica con "Sí" si el agente resolvió el problema principal y, luego, intentó realizar ventas. Ejemplo: "Acabo de actualizar la información de tu cuenta. Veo que marcaste tu dispositivo inteligente para la casa como roto. ¿Quieres pedir un reemplazo?"
Asigna la puntuación "No" si el agente intentó vender un producto antes de resolver el problema principal. Ejemplo: "Antes de actualizar la información de tu cuenta, veo que nos compraste una laptop hace cinco años. ¿Quieres probar nuestro nuevo modelo?"
Asigna la puntuación "N/A" si no hubo intento de venta.
Tipos de respuestas
El tipo de respuesta depende de la estructura de la pregunta. En esta sección, se proporcionan sugerencias para ayudarte a comenzar, pero no se incluye una lista exhaustiva de los usos.
Sí/No
Sí/No es el tipo de respuesta más común porque puedes evaluar estas preguntas rápidamente y las respuestas suelen ser más intuitivas que otros tipos de respuestas. Las preguntas que se benefician de un tipo de respuesta sí/no suelen comenzar con "¿..." y preguntan si se llevó a cabo una acción específica. Estas preguntas también se pueden escribir como preguntas de verdadero o falso.
En las conversaciones de ejemplo, las respuestas sí/no se registran como un valor verdadero o falso con los siguientes formatos:
- La respuesta Sí es
true. - Una respuesta de No es
false.
Números
Las respuestas numéricas son útiles para las preguntas que solicitan un recuento de algo, un importe en dólares o que califiques algo en una escala. Las preguntas que se benefician de este tipo de respuesta suelen comenzar con "¿Cuántos…?". "¿Cuánto…?" o "En una escala del 1 al 5…", y te pedirá que determines una sola respuesta.
En las conversaciones de ejemplo, las respuestas numéricas tienen el siguiente formato:
- Una respuesta de 40.5 es
40.5.
Texto
Las respuestas de texto requerirían la mayor cantidad de trabajo por parte de un anotador humano. Las preguntas que se benefician de las respuestas de texto suelen comenzar con palabras interrogativas, como "¿Qué…?" o "¿Por qué…?", y, a menudo, requieren la evaluación de la conversación en su totalidad. Las respuestas de texto fomentan una mayor variedad en las respuestas, por lo que las instrucciones deben explicar claramente cómo interpretar la pregunta y cuándo asignar cada opción de respuesta.
En las conversaciones de ejemplo, las respuestas de texto tienen el siguiente formato:
- Una respuesta de Concluded es
"CONCLUDED".
Asignar categorías
Cuando creas una pregunta, puedes asignar una puntuación numérica a cada opción de respuesta. Estas puntuaciones representan la importancia de cada opción de respuesta para el cálculo de la puntuación general de la conversación.
Un rango útil para las puntuaciones de las opciones de respuesta es de 0 a 10. Este rango proporciona cierta variación para la especificidad y es comparable con un porcentaje. Una opción de respuesta con una puntuación de 0 no tiene ningún efecto en el cálculo de la puntuación de la conversación. Una opción de respuesta con una puntuación de 10 tiene el mayor impacto en la puntuación de la conversación. En otras palabras, la opción de respuesta con una puntuación de 10 aumenta la puntuación de la conversación más que cualquier opción de respuesta con una puntuación más baja. Una opción de respuesta con una puntuación de 5 aumenta la puntuación de la conversación la mitad que la respuesta con 10.
N/A
Haz clic en la casilla de verificación para habilitar N/A como opción de respuesta cuando una pregunta no se aplique a una conversación. Cuando la IA de calidad elige N/A como respuesta, la pregunta se quita del cálculo de la puntuación de la conversación.
Ejemplo de entradas del cuadro de evaluación
En los siguientes ejemplos, se ilustra cómo agregar toda la información necesaria para obtener un cuadro de evaluación útil. Cada cuadro de evaluación requiere la siguiente información:
- Cualquier pregunta sobre la conversación
- Instrucciones para interpretar la pregunta y definir cada opción de respuesta.
- Tipo de respuesta (puede ser texto, número o sí/no).
- Son las opciones de respuesta que definen las respuestas posibles según el tipo de respuesta (pueden ser sí y no, una lista de números o algunas respuestas de texto).
- Puntuación para establecer los puntos obtenidos por cada opción de respuesta. La puntuación máxima para una sola pregunta se determina según la puntuación más alta entre todas las opciones de respuesta.
Puedes incluir lo siguiente para organizar las preguntas en tu tarjeta de evaluación, pero no es obligatorio:
- Es una etiqueta para agrupar las preguntas en categorías (pueden ser comerciales, de clientes o de cumplimiento).
Ejemplo 1
- Pregunta: ¿Cuál fue el resultado de la conversación?
- Etiqueta: Cliente
Instrucciones: El objetivo de cualquier conversación es llegar a una resolución o un resultado que se encuentre en una de las cuatro categorías posibles: concluida, transferida, redireccionada o derivada.
Las conversaciones finalizadas son aquellas que se resolvieron correctamente y no requieren ninguna otra acción. Se abordó el problema del cliente y se concluyó la conversación.
Las conversaciones transferidas son aquellas que deben ser atendidas por otro departamento o agente. Es posible que se haya transferido al cliente a un especialista que pueda ayudarlo mejor con su problema.
Las conversaciones redireccionadas son aquellas que deben gestionarse a través de otro canal. Por ejemplo, es posible que se haya redireccionado a un cliente de una llamada telefónica a una sesión de chat en línea.
Las conversaciones derivadas son aquellas que requieren la participación de un gerente o supervisor. Es posible que el caso del cliente se haya derivado debido a la gravedad del problema o porque no está satisfecho con la resolución que le ofreció el agente inicial.
Tipo de respuesta: Texto
Elección de respuesta Puntuación Concluido 1 Transferido 1 Redirigido 1 Derivación 0 Agrega N/A como opción de respuesta. Si se selecciona esta opción, la pregunta no se incluirá en el cálculo de la puntuación total.
Ejemplo 2
- Pregunta: En una escala del 0 al 5, ¿qué tan efectiva fue la comunicación entre el agente y el cliente?
- Etiqueta: Empresa, Cumplimiento, Cliente
Instrucciones: Escala y criterios
0, Extremadamente pobre: No hay comunicación o hay una incomprensión total. Lenguaje ofensivo, abusivo o dañino Falta total de respeto o empatía
1, Muy mala: Dificultades significativas de comunicación Interrupciones frecuentes o hablar al mismo tiempo Se requiere un esfuerzo mínimo para comprender o conectar. Comportamiento despectivo o irrespetuoso
2, Mala: Algunas dificultades de comunicación. Malentendidos ocasionales o falta de claridad Participación o interés limitados Falta de respeto o insensibilidad ocasionales
3, Promedio: Se logró una comunicación básica. Se requiere cierto esfuerzo para comprender y ser comprendido.Nivel moderado de participación y conexión. En general, es respetuoso, pero podría mejorar.
4, Buena: Comunicación clara y eficaz. Escucha activa y comprensión Participación y conexión significativas Se demostró respeto y empatía mutuos.
5, Excelente: Comunicación y comprensión excepcionales. Conexión y participación profundas Gran capacidad de colaboración y apoyo mutuo Altos niveles de respeto, empatía y compasión
Factores que se deben tener en cuenta al evaluar:
Claridad: ¿La comunicación fue clara y fácil de entender?
Comprensión: ¿Los participantes demostraron escucha activa y comprensión de las perspectivas de los demás?
Participación: ¿Los participantes se involucraron activamente en la conversación y se interesaron en lo que los demás tenían para decir?
Respeto: ¿Se demostró respeto y consideración mutuos durante toda la conversación?
Empatía: ¿Los participantes demostraron empatía y comprensión de los sentimientos de los demás?
Colaboración: ¿Hubo un sentido de colaboración y trabajo en equipo, o los participantes sintieron que competían entre sí?
Resultado: ¿La conversación logró los objetivos previstos o generó un resultado positivo?
Recuerda que el contexto es importante. Ten en cuenta el contexto y el propósito de la conversación. Lo que puede ser apropiado en un contexto puede no serlo en otro.
Subjetividad: La evaluación puede ser subjetiva. Es posible que diferentes personas tengan interpretaciones ligeramente distintas de la misma conversación.
Enfócate en la mejora: Usa las evaluaciones como una herramienta para aprender y mejorar, en lugar de solo una forma de juzgar o criticar.
Este marco de trabajo proporciona una guía básica para evaluar conversaciones, pero puedes adaptar y ajustar los criterios según tus necesidades y objetivos específicos.
Tipo de respuesta: Número
Opciones de respuesta y puntuaciones:
Elección de respuesta Puntuación 0 0 1 1 2 2 3 3 4 4 5 5
Agrega N/A como opción de respuesta. Si se selecciona esta opción, la pregunta no se incluirá en el cálculo de la puntuación total.
Ejemplo 3
- Pregunta: ¿El representante (agente) saludó al cliente con una apertura adecuada?
- Etiqueta: Cliente
- Instrucciones: El representante (agente) siempre debe iniciar las conversaciones con una apertura y un saludo adecuados. Este es un paso fundamental para establecer una relación positiva y profesional con el cliente. La apertura debe ser cálida, amigable y acogedora, y establecer un tono que haga que el cliente se sienta valorado y respetado. El representante (agente) también debe asegurarse de que el saludo sea adecuado para el contexto y el origen cultural del cliente. Al iniciar la conversación con una apertura y un saludo adecuados, el representante puede crear una primera impresión positiva, generar confianza y sentar las bases para una interacción exitosa con el cliente.
- Tipo de respuesta: Sí/No
Opciones de respuesta y puntuaciones:
Elección de respuesta Puntuación "Sí" 1 "No" 0
Agrega N/A como opción de respuesta. Si se selecciona esta opción, la pregunta no se incluirá en el cálculo de la puntuación total.
Agrega conversaciones de ejemplo
Las conversaciones de ejemplo son útiles para aclarar la interpretación de las preguntas. Para calibrar y personalizar el modelo de IA, se requieren conversaciones de ejemplo con respuestas asignadas para cada pregunta. El modelo de IA aprende de datos de conversaciones reales, por lo que puedes tomar ejemplos de tus conversaciones existentes en Customer Experience Insights. Si no proporcionas ninguna conversación de ejemplo, la IA de calidad usará un modelo fundamental que no conoce las respuestas esperadas para tus preguntas.
Para mejorar el rendimiento del modelo de IA, incluye al menos lo siguiente:
- 100 conversaciones de ejemplo por pregunta
- 40 conversaciones de ejemplo por opción de respuesta
Si proporcionas menos de 100 conversaciones de ejemplo para una sola pregunta, el modelo de IA no aprenderá a calificar con precisión esa pregunta específica. Tus conversaciones de ejemplo se almacenan, y el modelo aprende después de que tienes suficientes. Una sola conversación puede enseñarle al modelo a calificar varias preguntas, y puedes mejorar aún más la precisión de la calificación de cualquier pregunta agregando más conversaciones de ejemplo.
Para cada pregunta de tu cuadro de evaluación, incluye un porcentaje de conversaciones para ilustrar cada opción de respuesta. En el siguiente ejemplo, se muestra la cantidad de conversaciones que podrías incluir para ilustrar dos posibles opciones de respuesta. No es necesario este tipo de división específica.
Si una pregunta en una tarjeta de evaluación es "¿El agente demostró empatía hacia el cliente?" y la respuesta a esa pregunta puede ser sí o no, incluye lo siguiente:
| Pregunta | Respuestas posibles | Porcentaje de conversaciones |
|---|---|---|
| ¿El agente demostró empatía hacia el cliente? | "Sí" | 75% |
| "No" | 25% |
Formato de conversación de ejemplo
Las conversaciones de ejemplo deben incluir, como mínimo, identificadores para cada conversación, cuadro de evaluación y pregunta, así como la respuesta esperada. Tus conversaciones de ejemplo también pueden incluir las opciones de respuesta, las puntuaciones y las instrucciones. Las conversaciones de ejemplo se suben como el recurso FeedbackLabel. Si deseas obtener información para editar conversaciones de ejemplo con la API, consulta la Guía de configuración.
CSV
Debes subir conversaciones de ejemplo en un archivo CSV. La primera línea de tu archivo CSV debe ser el encabezado, y el archivo debe contener las siguientes categorías:
- ConversationId
- QaScorecardId
- QaQuestionId
- QaAnswerLabel o campos individualizados, como QaAnswerScore y QaAnswerValue
La IA de calidad puede crear automáticamente una plantilla de conversación de ejemplo con los IDs anteriores completados. Puedes elegir qué tarjeta de evaluación usar para tus conversaciones de ejemplo y filtrar la plantilla para incluir solo algunas de tus conversaciones. Si deseas obtener instrucciones para crear una plantilla y subir conversaciones de ejemplo, consulta la guía de configuración de Quality AI.
Los archivos de conversación de ejemplo en formato CSV pueden tener diversos formatos. Por ejemplo, las respuestas de sí/no corresponden a un valor verdadero o falso, los números permanecen iguales y las respuestas de texto se encierran entre comillas. Esto significa que true se muestra como un tipo de respuesta Sí/No y que la opción de respuesta seleccionada es Sí. Por otro lado, "Yes" se muestra como un tipo de respuesta de texto con la opción de respuesta Sí seleccionada. En los siguientes ejemplos, se ilustran algunos formatos de CSV posibles.
- El encabezado individual
QaAnswerValueno asigna una puntuación.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue convo_id,scorecard_test_id,question_id_q3,"NO" convo_id,scorecard_test_id,question_id_q6,"YES" convo_id,scorecard_test_id,question_id_q6,true convo_id,scorecard_test_id,question_id_q6,false convo_id,scorecard_test_id,question_id_q6,40.5
- Incluye los encabezados
QaAnswerValueyQaAnswerScore.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0 convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
- El encabezado
QaAnswerLabelabarca tanto una puntuación como una respuesta, pero no las separa con una coma.ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO" convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5 convo_id,scorecard_test_id,question_id_q6,na_value:true convo_id,scorecard_test_id,question_id_q3,true
Tabla
Dentro de una hoja de cálculo, el formato visual para tus conversaciones de ejemplo es una tabla en la que cada fila contiene información para identificar una sola respuesta y cada columna contiene identificaciones separadas, como se muestra en la siguiente tabla:
| ID de la conversación | ID del cuadro de evaluación | ID de la pregunta | Respuesta |
|---|---|---|---|
| 44748735396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 44748735396 | 5727080762913918243 | 3576133206121890384 | "NO" |
| 3495523396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 3495523396 | 5727080762913918243 | 3576133206121890384 | "NO" |
Cómo evaluar una conversación
Los anotadores humanos usan preguntas e instrucciones de la tarjeta de evaluación para evaluar manualmente las conversaciones y determinar las respuestas correctas a cada pregunta en las conversaciones de ejemplo. Cuando varias personas evalúan la misma conversación, a veces proporcionan respuestas diferentes a cada pregunta. Esta incoherencia entre las evaluaciones introduce ruido y confusión en el proceso de aprendizaje automático. En una conversación, si la misma pregunta o una similar se asocia con varias respuestas diferentes, la IA de calidad no puede aprender la correlación entre preguntas y respuestas.
Cualquiera de los siguientes factores puede causar inconsistencias cuando varias personas responden las mismas preguntas en una sola conversación:
- Preguntas subjetivas que llevan a diferentes interpretaciones entre los anotadores.
- Rúbricas con detalles insuficientes o lineamientos poco claros
- Diferentes versiones de una pregunta, opciones de respuesta o instrucciones, por ejemplo:
- Puedes comenzar solo con opciones de respuesta de sí o no y, luego, cambiar a un enfoque más detallado con opciones de no-a, no-b y no-c.
- Sin embargo, combinar el enfoque de sí/no con las opciones no-a, no-b y no-c confundirá al modelo.
- Es una tarea de evaluación que requiere una gran carga cognitiva.
Medir la coherencia
Para medir la coherencia en tus conversaciones de ejemplo, pide a varios anotadores que evalúen de forma independiente la misma conversación. Luego, calcula los acuerdos entre ellos con el coeficiente kappa de Cohen. Quieres ver un coeficiente kappa de Cohen no inferior a 0.2. Si la coherencia es baja, prueba una de las siguientes opciones:
- Refina la pregunta y las instrucciones para que haya menos espacio para la interpretación.
- Comunicarse entre los anotadores para que puedan resolver las discrepancias y acordar un único estándar de calificación
- Supervisar de forma continua la coherencia entre los anotadores
- Proporciona capacitación adicional a los anotadores cuyas respuestas difieren con frecuencia del estándar de calificación.