La evaluación automática del resumen (autoevaluación) usa la IA generativa para evaluar la calidad de los resúmenes generados por IA en función de la precisión, la integridad y la adecuación.
En ocasiones, las puntuaciones de cumplimiento y completitud muestran N/A.
- La métrica de cumplimiento solo evalúa los resúmenes que usan secciones personalizadas. Si un resumen usa secciones prediseñadas, la puntuación es N/A.
- La métrica de integridad solo evalúa los resúmenes no categóricos con texto de formato libre. Si un resumen usa valores categóricos, la puntuación es N/A.
Exactitud
La precisión mide qué tan cerca se alinea un resumen con los detalles fácticos de la transcripción de la conversación. Para cada resumen, la autoevaluación determina un porcentaje de corrección, junto con una justificación correspondiente. Un puntaje de precisión bajo significa que hay problemas fácticos en el resumen.
Los resultados de precisión se ven de la siguiente manera:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Cada
pointen el ejemplo anterior es una parte descompuesta del resumen. El parámetro binariois_accuratemuestra el resultado de la evaluación de precisión. El parámetroaccuracyproporciona la justificación.
Cumplimiento
La autoevaluación del resumen aplica un conjunto de preguntas al resumen proporcionado. La autoevaluación usa estas preguntas y la transcripción de la conversación para evaluar el cumplimiento del resumen con cada instrucción. Sin embargo, la autoevaluación del resumen se basa en Gemini, que podría no verificar con precisión las instrucciones gramaticales. Por lo tanto, es posible que la autoevaluación del resumen no evalúe con precisión si un resumen cumple con las instrucciones gramaticales.
Una puntuación de cumplimiento baja significa que el resumen no cumple con las instrucciones proporcionadas en la definición de la sección de resumen. Solo los resúmenes que usaron secciones personalizadas pueden generar una puntuación de cumplimiento.
Para la adhesión, la autoevaluación del resumen reconoce los siguientes dos tipos de tareas de resumen:
- Resúmenes categóricos: Proporcionan un valor categórico definido en las instrucciones. Por ejemplo, las instrucciones solicitan una respuesta Soleado o Nublado. La autoevaluación verifica si el resumen proporcionado solo es Soleado o Nublado sin texto descriptivo.
- Resúmenes no categóricos: Proporcionan texto de formato libre. La autoevaluación verifica si un resumen no categórico sigue las instrucciones definidas en la descripción de la tarea.
Los resultados de la adhesión se ven de la siguiente manera:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Cada pregunta se deriva de la definición de la sección de resumen proporcionada. El parámetro binario
is_addressedmuestra el resultado de la evaluación de la adhesión. El parámetroreasoningproporciona una justificación.Si alguna pregunta no se alinea con tu objetivo, significa que la definición de la sección de resumen de ese objetivo no era clara. Puedes comprender el problema y mejorar las definiciones de las secciones.
Integridad
Según las instrucciones de la definición de sección de un resumen generado por IA, la autoevaluación del resumen aplica rúbricas para evaluar la integridad del resumen. Una puntuación baja significa que el resumen no incluyó información importante de la transcripción.
A continuación, se muestra un ejemplo de los resultados de integridad:
[ { 'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue or request'?", 'content_list': [ { 'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.', 'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.', 'is_covered': 'True' }, { 'transcript_content': 'The agent clarified that the arrival window information is sent via text message.', 'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message', 'is_covered': 'True' }, { 'transcript_content': "The agent confirmed the phone number is 123-456-7890.", 'related_content_from_summary': "and confirmed the phone number is 123-456-7890.", 'is_covered': 'True' } ] }, { 'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?", 'content_list': [ { 'transcript_content': 'The ABC appointment is on June 2nd.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?", 'content_list': [ { 'transcript_content': 'The appointment is for a Google Pixel.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?", 'content_list': [] }, { 'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?", 'content_list': [] } ]
En el ejemplo anterior, se presentan las siguientes situaciones:
- Si el resumen abarca el contenido relacionado de la transcripción, el parámetro binario
is_coveredse establece enTrue. - Si el resumen no abarca el contenido relacionado de la transcripción, el parámetro
related_content_from_summaryincluye una cadena vacía que indica que el resumen no extrajo los puntos relevantes. Esto, a su vez, reduce la calificación final y la calificación de integridad de esa rúbrica. Además, el parámetro binariois_coveredse establece enFalse. - Si no hay contenido relacionado con la pregunta en la transcripción, el parámetro
content_listincluye una lista vacía, lo que no penaliza el resumen. Esta situación no se incluye en la puntuación agregada final.
Cada pregunta del ejemplo se deriva de la descripción de la tarea proporcionada. La información pertinente de la transcripción se incluye como el valor del parámetro transcript_content. El parámetro binario is_covered muestra el resultado de integridad de este punto en particular, y related_content_from_summary muestra la prueba. Si alguna de las preguntas no se alinea con tu objetivo, significa que la definición de la sección de tu resumen no fue clara. Comprende el problema y mejora la definición de tu sección.