מדדים אוטומטיים להערכת סיכומים

הערכה אוטומטית של סיכומים (הערכה עצמית) מתבצעת באמצעות AI גנרטיבי כדי להעריך את האיכות של סיכומים שנוצרו על ידי AI על סמך דיוק, שלמות ועמידה בדרישות.

לפעמים, הציונים של ההיענות והשלמות הם לא רלוונטי.

  • התאימות נבדקת רק בסיכומים שכוללים חלקים בהתאמה אישית. אם הסיכום כולל קטעים מוכנים מראש, הציון הוא N/A.
  • המדד 'שלמות' מעריך רק סיכומים לא קטגוריים עם טקסט חופשי. אם הסיכום משתמש בערכים קטגוריים, הציון הוא N/A.

דיוק

הדיוק מציין עד כמה הסיכום תואם לפרטים העובדתיים בתמליל השיחה. לכל סיכום, ההערכה האוטומטית קובעת אחוז דיוק, יחד עם הצדקה מתאימה. ציון דיוק נמוך מצביע על בעיות עובדתיות בסיכום.

תוצאות הדיוק נראות כך:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • כל point בדוגמה הקודמת הוא חלק מפורק של הסיכום. הפרמטר הבינארי is_accurate מציג את תוצאת הערכת הדיוק. הפרמטר accuracy מספק את ההצדקה.

הקפדה

ההערכה האוטומטית של הסיכום מתבצעת באמצעות קבוצה של שאלות שמופנות לסיכום שסופק. ההערכה האוטומטית מתבססת על השאלות האלה ועל תמליל השיחה כדי לבדוק אם הסיכום עומד בכל אחת מההוראות. עם זאת, התכונה 'הערכה אוטומטית של סיכום' מסתמכת על Gemini, שיכול להיות שלא יאמת בצורה מדויקת הוראות שקשורות לדקדוק. לכן, יכול להיות שההערכה האוטומטית של סיכום לא תהיה מדויקת לגבי ההתאמה של הסיכום להוראות הדקדוקיות.

ציון נמוך של עמידה בהנחיות מציין שהסיכום לא עומד בהנחיות שמופיעות בהגדרה של קטע הסיכום. רק סיכומים שנעשה בהם שימוש בקטעים בהתאמה אישית יכולים ליצור ציון תאימות.

כדי לבדוק את רמת ההיצמדות להנחיות, התכונה 'סיכום והערכה אוטומטית' מזהה את שני סוגי משימות הסיכום הבאים:

  • סיכומים לפי קטגוריות: מספקים ערך קטגורי שמוגדר בהוראות. לדוגמה, ההנחיות מבקשות תשובה של שמש או עננים. ההערכה האוטומטית בודקת אם הסיכום שסופק הוא רק שמשי או מעונן ללא טקסט תיאורי.
  • סיכומים לא קטגוריים: צריך לספק טקסט חופשי. ההערכה האוטומטית בודקת אם סיכום לא קטגוריאלי פועל לפי ההוראות שמוגדרות בתיאור המשימה.

תוצאות ההתאמה נראות כך:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • כל שאלה נגזרת מההגדרה של קטע הסיכום שסיפקתם. הפרמטר הבינארי is_addressed מציג את תוצאת ההערכה של ההתאמה. הפרמטר reasoning מספק הצדקה.

  • אם יש שאלות שלא תואמות ליעד שהגדרתם, סימן שההגדרה של היעד הזה בקטע הסיכום לא הייתה ברורה. כך תוכלו להבין את הבעיה ולשפר את ההגדרות של הקטעים.

השלמות

על סמך ההוראות בהגדרת הקטע של סיכום שנוצר על ידי AI, מתבצעת הערכה אוטומטית של הסיכום באמצעות קריטריונים להערכה כדי לבדוק אם הסיכום מלא. ציון נמוך מצביע על כך שבסיכום חסר מידע חשוב מהתמליל.

דוגמה לתוצאות של השלמת נתונים:

[
  {
        'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue  or request'?",
        'content_list': [
    {
        'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.',
        'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.',
        'is_covered': 'True'
    },
    {
        'transcript_content': 'The agent clarified that the arrival window information is sent via text message.',
        'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message',
        'is_covered': 'True'
    },
    {
        'transcript_content': "The agent confirmed the phone number is 123-456-7890.",
        'related_content_from_summary': "and confirmed the phone number is 123-456-7890.",
        'is_covered': 'True'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?",
        'content_list': [
    {
        'transcript_content': 'The ABC appointment is on June 2nd.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?",
        'content_list': [
    {
        'transcript_content': 'The appointment is for a Google Pixel.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?",
        'content_list': []
  },
  {
        'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?",
        'content_list': []
  }
]

בדוגמה שלמעלה מוצגים התרחישים הבאים:

  • אם הסיכום כולל את התוכן שקשור לתמליל, הפרמטר הבינארי is_covered מוגדר לערך True.
  • אם הסיכום לא כולל את התוכן הרלוונטי מהתמליל, הפרמטר related_content_from_summary כולל מחרוזת ריקה שמציינת שהסיכום לא חילץ את הנקודות הרלוונטיות. כך גם יורד הציון הסופי וציון השלמות של קריטריון ההערכה. בנוסף, הפרמטר הבינארי is_covered מוגדר ל-False.
  • אם אין תוכן שקשור לשאלה בתמליל, הפרמטר content_list כולל רשימה ריקה, ולא יחול ניקוד שלילי על הסיכום. המקרה הזה לא נכלל בציון המצטבר הסופי.

כל שאלה בדוגמה נגזרת מתיאור המשימה שסופק. המידע הרלוונטי מהתמליל נכלל כערך של הפרמטר transcript_content. הפרמטר הבינארי is_covered מציג את תוצאת השלמות של הנקודה הספציפית הזו, והפרמטר related_content_from_summary מציג את ההוכחה. אם אחת מהשאלות לא תואמת למטרה שלכם, ההגדרה של הקטע בסיכום לא הייתה ברורה. להבין את הבעיה ולשפר את הגדרת החלק.