הצגה ופירוש של תוצאות ההערכה

בדף הזה מוסבר איך לצפות בתוצאות של הערכת המודל ולפרש אותן אחרי שמריצים את הערכת המודל.

צפייה בתוצאות ההערכה

אחרי שמגדירים את משימת ההערכה, מריצים אותה כדי לקבל את תוצאות ההערכה, באופן הבא:

from vertexai.evaluation import EvalTask

eval_result = EvalTask(
    dataset=DATASET,
    metrics=[METRIC_1, METRIC_2, METRIC_3],
    experiment=EXPERIMENT_NAME,
).evaluate(
    model=MODEL,
    experiment_run=EXPERIMENT_RUN_NAME,
)

המחלקות EvalResult מייצגות את התוצאה של הרצת הערכה עם המאפיינים הבאים:

  • summary_metrics: מילון של מדדי הערכה מצטברים להרצת הערכה.
  • metrics_table: טבלת pandas.DataFrame שמכילה את קלט מערך ההערכה, תגובות, הסברים ותוצאות מדדים לכל שורה.
  • metadata: שם הניסוי ושם ההרצה של הניסוי להרצת ההערכה.

המחלקה EvalResult מוגדרת כך:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
      metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
        responses, explanations, and metric results per row.
      metadata: The experiment name and experiment run name for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

בעזרת פונקציות עזר, אפשר להציג את תוצאות ההערכה ב-נוטבוק של Colab באופן הבא:

טבלאות של מדדי סיכום ומדדים מבוססי-שורות

הצגה חזותית של תוצאות ההערכה

אפשר להציג מדדי סיכום בתרשים רדאר או בתרשים עמודות כדי להשוות בין תוצאות של הרצות שונות של הערכה. התצוגה החזותית הזו יכולה לעזור בהערכה של מודלים שונים ותבניות שונות של הנחיות.

בדוגמה הבאה, אנחנו מציגים באופן חזותי ארבעה מדדים (קוהרנטיות, רהיטות, ביצוע ההוראות ואיכות הטקסט הכוללת) לתשובות שנוצרו באמצעות ארבעה תבניות שונות של הנחיות. מהתרשים העגול ומהתרשים העמודות אפשר להסיק שתבנית ההנחיה מספר 2 עולה באופן עקבי על התבניות האחרות בכל ארבעת המדדים. זה בולט במיוחד בציונים הגבוהים משמעותית שלה לגבי ביצוע ההוראות ואיכות הטקסט. על סמך הניתוח הזה, נראה שתבנית ההנחיה מספר 2 היא הבחירה היעילה ביותר מבין ארבע האפשרויות.

תרשים מכ"ם שמציג את הציונים של העקביות, ההיענות להוראות, איכות הטקסט והרהיטות של כל תבניות ההנחיות

תרשים עמודות שמציג את הממוצע של coherence,‏ instruction_following,‏ text_quality ו-fluency לכל תבניות ההנחיות

הסבר על תוצאות המדדים

בטבלאות הבאות מפורטים רכיבים שונים של תוצאות ברמת המופע ותוצאות מצטברות שכלולות ב-metrics_table וב-summary_metrics בהתאמה עבור PointwiseMetric, PairwiseMetric ומדדים שמבוססים על חישוב:

PointwiseMetric

תוצאות ברמת המופע

עמודה תיאור
תשובה התשובה שהמודל יצר להנחיה.
score הדירוג שניתן לתשובה בהתאם לקריטריונים ולטבלת הקריטריונים. הציון יכול להיות בינארי (0 ו-1), בסולם ליקרט (1 עד 5, או ‎-2 עד 2) או מספר עשרוני (0.0 עד 1.0).
הסבר הסיבה לציון שניתן על ידי מודל השופט. אנחנו משתמשים בנימוקים מפורטים כדי להנחות את מודל השופט להסביר את ההיגיון מאחורי כל פסק דין. הוכח שכאשר מכריחים את מודל השופט לנמק, דיוק ההערכה משתפר.

תוצאות מצטברות

עמודה תיאור
ציון ממוצע הציון הממוצע של כל המופעים.
סטיית תקן סטיית התקן של כל הציונים.

PairwiseMetric

תוצאות ברמת המופע

עמודה תיאור
תשובה התשובה שנוצרה להנחיה על ידי המודל המתמודד.
baseline_model_response התשובה שנוצרה להנחיה על ידי מודל הבסיס.
pairwise_choice המודל עם התשובה הטובה יותר. הערכים האפשריים הם CANDIDATE, ‏ BASELINE או TIE.
הסבר הסיבה לבחירה של מודל השופט.

תוצאות מצטברות

עמודה תיאור
candidate_model_win_rate השיעור שבו מודל השופט קבע שהתשובה של מודל המועמד הייתה טובה יותר מתוך כלל התשובות. הטווח הוא 0 עד 1.
baseline_model_win_rate היחס בין מספר הפעמים שבהן מודל השופט קבע שהתשובה של מודל הבסיס הייתה טובה יותר לבין מספר התשובות הכולל. הערך נע בין 0 ל-1.

מדדים מבוססי-חישוב

תוצאות ברמת המופע

עמודה תיאור
תשובה התשובה של המודל שנבדקת.
הפניה תשובת ההפניה.
score הציון מחושב לכל צמד של תגובות והפניות.

תוצאות מצטברות

עמודה תיאור
ציון ממוצע הציון הממוצע של כל המופעים.
סטיית תקן סטיית התקן של כל הציונים.

דוגמאות

בדוגמאות שבקטע הזה מוסבר איך לקרוא ולהבין את תוצאות הבדיקה.

דוגמה 1: הערכה נקודתית

בדוגמה הבאה מוצג מקרה של הערכה נקודתית של TEXT_QUALITY. הציון מההערכה הנקודתית של מדד TEXT_QUALITY הוא 4 (בסולם של 1 עד 5), כלומר התשובה טובה. בנוסף, ההסבר בתוצאת ההערכה מראה למה מודל השופט חושב שהתחזית ראויה לציון 4, ולא לציון גבוה או נמוך יותר.

קבוצת הנתונים

  • prompt: "תסכם את הטקסט הבא בצורה שמובנת לילד בן חמש: פלטפורמת מדיה חברתית סופגת ביקורת חריפה על מדיניות ניהול התוכן שלה\nפלטפורמת מדיה חברתית בולטת מוצאת את עצמה במרכז מחלוקת, כשמשתמשים ויוצרי תוכן מביעים חוסר שביעות רצון ממדיניות ניהול התוכן שלה. טענות על צנזורה מוטה, אכיפה לא עקבית והדחקת נקודות מבט מסוימות עוררו זעם בקרב משתמשים שטוענים שהפלטפורמה מדכאת את חופש הביטוי. מצד שני, הפלטפורמה טוענת שהמדיניות שלה נועדה לשמור על סביבה בטוחה ומכילה באינטרנט. המחלוקת הזו מעלה שאלות רחבות יותר לגבי התפקיד של המדיה החברתית בעיצוב השיח הציבורי והאחריות של הפלטפורמות בניהול התוכן באינטרנט".

  • response: "אנשים כועסים על אתר מסוים כי הם חושבים שהוא לא הוגן לגבי מה שאנשים יכולים לפרסם. חלק מהאנשים אומרים שהאתר מונע מהם להגיד את מה שהם רוצים. אבל האתר אומר שהוא מנסה לשמור על הבטיחות של כולם. זה גורם לאנשים לתהות אם אתרים צריכים לשלוט במה שאנשים יכולים להגיד באינטרנט".

תוצאה

  • score: 4,
  • explanation: הסיכום בתשובה תואם להנחיה לסכם את ההקשר באופן שמובן לילד בן חמש. הוא מבוסס על ההקשר ומספק פרטים חשובים בסיכום. עם זאת, השפה שבה נעשה שימוש בתשובה היא קצת מפורטת מדי.

דוגמה 2: הערכה בזוגות

הדוגמה הזו היא הערכה של השוואה בין זוגות ב-PAIRWISE_QUESTION_ANSWERING_QUALITY. התוצאה pairwise_choice מראה שהתשובה המועמדת "צרפת היא מדינה שממוקמת במערב אירופה" עדיפה בעיני מודל השופט על פני תשובת הבסיס "צרפת היא מדינה" לשאלה בהנחיה. בדומה לתוצאות של הערכה נקודתית, גם כאן מופיע הסבר למה התשובה המועמדת טובה יותר מתשובת הבסיס (התשובה המועמדת מועילה יותר במקרה הזה).

קבוצת הנתונים

  • prompt: "Can you answer where France is based on the following paragraph? צרפת היא מדינה שממוקמת במערב אירופה. היא גובלת בבלגיה, לוקסמבורג, גרמניה, שווייץ, איטליה, מונקו, ספרד ואנדורה. קו החוף של צרפת משתרע לאורך תעלת למאנש, הים הצפוני, האוקיינוס האטלנטי וים התיכון. צרפת ידועה בהיסטוריה העשירה שלה, בנקודות ציון מפורסמות כמו מגדל אייפל ובמטבח הטעים שלה. היא מעצמה תרבותית וכלכלית חשובה באירופה ובעולם".

  • response: "צרפת היא מדינה שממוקמת במערב אירופה",

  • baseline_model_response: "France is a country.",

תוצאה

  • pairwise_choice: CANDIDATE,
  • explanation: תשובת ה-BASELINE מבוססת על נתונים אבל לא עונה על השאלה באופן מלא. לעומת זאת, תשובת ה-CANDIDATE נכונה ומספקת פרטים מועילים על המיקום של צרפת.

המאמרים הבאים