בדף הזה מוסבר איך לצפות בתוצאות של הערכת המודל ולפרש אותן אחרי שמריצים את הערכת המודל.
צפייה בתוצאות ההערכה
אחרי שמגדירים את משימת ההערכה, מריצים אותה כדי לקבל את תוצאות ההערכה, באופן הבא:
from vertexai.evaluation import EvalTask
eval_result = EvalTask(
dataset=DATASET,
metrics=[METRIC_1, METRIC_2, METRIC_3],
experiment=EXPERIMENT_NAME,
).evaluate(
model=MODEL,
experiment_run=EXPERIMENT_RUN_NAME,
)
המחלקות EvalResult מייצגות את התוצאה של הרצת הערכה עם המאפיינים הבאים:
-
summary_metrics: מילון של מדדי הערכה מצטברים להרצת הערכה. -
metrics_table: טבלתpandas.DataFrameשמכילה את קלט מערך ההערכה, תגובות, הסברים ותוצאות מדדים לכל שורה. -
metadata: שם הניסוי ושם ההרצה של הניסוי להרצת ההערכה.
המחלקה EvalResult מוגדרת כך:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
responses, explanations, and metric results per row.
metadata: The experiment name and experiment run name for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
בעזרת פונקציות עזר, אפשר להציג את תוצאות ההערכה ב-נוטבוק של Colab באופן הבא:

הצגה חזותית של תוצאות ההערכה
אפשר להציג מדדי סיכום בתרשים רדאר או בתרשים עמודות כדי להשוות בין תוצאות של הרצות שונות של הערכה. התצוגה החזותית הזו יכולה לעזור בהערכה של מודלים שונים ותבניות שונות של הנחיות.
בדוגמה הבאה, אנחנו מציגים באופן חזותי ארבעה מדדים (קוהרנטיות, רהיטות, ביצוע ההוראות ואיכות הטקסט הכוללת) לתשובות שנוצרו באמצעות ארבעה תבניות שונות של הנחיות. מהתרשים העגול ומהתרשים העמודות אפשר להסיק שתבנית ההנחיה מספר 2 עולה באופן עקבי על התבניות האחרות בכל ארבעת המדדים. זה בולט במיוחד בציונים הגבוהים משמעותית שלה לגבי ביצוע ההוראות ואיכות הטקסט. על סמך הניתוח הזה, נראה שתבנית ההנחיה מספר 2 היא הבחירה היעילה ביותר מבין ארבע האפשרויות.


הסבר על תוצאות המדדים
בטבלאות הבאות מפורטים רכיבים שונים של תוצאות ברמת המופע ותוצאות מצטברות שכלולות ב-metrics_table וב-summary_metrics בהתאמה עבור PointwiseMetric, PairwiseMetric ומדדים שמבוססים על חישוב:
PointwiseMetric
תוצאות ברמת המופע
| עמודה | תיאור |
|---|---|
| תשובה | התשובה שהמודל יצר להנחיה. |
| score | הדירוג שניתן לתשובה בהתאם לקריטריונים ולטבלת הקריטריונים. הציון יכול להיות בינארי (0 ו-1), בסולם ליקרט (1 עד 5, או -2 עד 2) או מספר עשרוני (0.0 עד 1.0). |
| הסבר | הסיבה לציון שניתן על ידי מודל השופט. אנחנו משתמשים בנימוקים מפורטים כדי להנחות את מודל השופט להסביר את ההיגיון מאחורי כל פסק דין. הוכח שכאשר מכריחים את מודל השופט לנמק, דיוק ההערכה משתפר. |
תוצאות מצטברות
| עמודה | תיאור |
|---|---|
| ציון ממוצע | הציון הממוצע של כל המופעים. |
| סטיית תקן | סטיית התקן של כל הציונים. |
PairwiseMetric
תוצאות ברמת המופע
| עמודה | תיאור |
|---|---|
| תשובה | התשובה שנוצרה להנחיה על ידי המודל המתמודד. |
| baseline_model_response | התשובה שנוצרה להנחיה על ידי מודל הבסיס. |
| pairwise_choice | המודל עם התשובה הטובה יותר. הערכים האפשריים הם CANDIDATE, BASELINE או TIE. |
| הסבר | הסיבה לבחירה של מודל השופט. |
תוצאות מצטברות
| עמודה | תיאור |
|---|---|
| candidate_model_win_rate | השיעור שבו מודל השופט קבע שהתשובה של מודל המועמד הייתה טובה יותר מתוך כלל התשובות. הטווח הוא 0 עד 1. |
| baseline_model_win_rate | היחס בין מספר הפעמים שבהן מודל השופט קבע שהתשובה של מודל הבסיס הייתה טובה יותר לבין מספר התשובות הכולל. הערך נע בין 0 ל-1. |
מדדים מבוססי-חישוב
תוצאות ברמת המופע
| עמודה | תיאור |
|---|---|
| תשובה | התשובה של המודל שנבדקת. |
| הפניה | תשובת ההפניה. |
| score | הציון מחושב לכל צמד של תגובות והפניות. |
תוצאות מצטברות
| עמודה | תיאור |
|---|---|
| ציון ממוצע | הציון הממוצע של כל המופעים. |
| סטיית תקן | סטיית התקן של כל הציונים. |
דוגמאות
בדוגמאות שבקטע הזה מוסבר איך לקרוא ולהבין את תוצאות הבדיקה.
דוגמה 1: הערכה נקודתית
בדוגמה הבאה מוצג מקרה של הערכה נקודתית של TEXT_QUALITY. הציון מההערכה הנקודתית של מדד TEXT_QUALITY הוא 4 (בסולם של 1 עד 5), כלומר התשובה טובה. בנוסף, ההסבר בתוצאת ההערכה מראה למה מודל השופט חושב שהתחזית ראויה לציון 4, ולא לציון גבוה או נמוך יותר.
קבוצת הנתונים
prompt: "תסכם את הטקסט הבא בצורה שמובנת לילד בן חמש: פלטפורמת מדיה חברתית סופגת ביקורת חריפה על מדיניות ניהול התוכן שלה\nפלטפורמת מדיה חברתית בולטת מוצאת את עצמה במרכז מחלוקת, כשמשתמשים ויוצרי תוכן מביעים חוסר שביעות רצון ממדיניות ניהול התוכן שלה. טענות על צנזורה מוטה, אכיפה לא עקבית והדחקת נקודות מבט מסוימות עוררו זעם בקרב משתמשים שטוענים שהפלטפורמה מדכאת את חופש הביטוי. מצד שני, הפלטפורמה טוענת שהמדיניות שלה נועדה לשמור על סביבה בטוחה ומכילה באינטרנט. המחלוקת הזו מעלה שאלות רחבות יותר לגבי התפקיד של המדיה החברתית בעיצוב השיח הציבורי והאחריות של הפלטפורמות בניהול התוכן באינטרנט".response: "אנשים כועסים על אתר מסוים כי הם חושבים שהוא לא הוגן לגבי מה שאנשים יכולים לפרסם. חלק מהאנשים אומרים שהאתר מונע מהם להגיד את מה שהם רוצים. אבל האתר אומר שהוא מנסה לשמור על הבטיחות של כולם. זה גורם לאנשים לתהות אם אתרים צריכים לשלוט במה שאנשים יכולים להגיד באינטרנט".
תוצאה
score: 4,-
explanation: הסיכום בתשובה תואם להנחיה לסכם את ההקשר באופן שמובן לילד בן חמש. הוא מבוסס על ההקשר ומספק פרטים חשובים בסיכום. עם זאת, השפה שבה נעשה שימוש בתשובה היא קצת מפורטת מדי.
דוגמה 2: הערכה בזוגות
הדוגמה הזו היא הערכה של השוואה בין זוגות ב-PAIRWISE_QUESTION_ANSWERING_QUALITY. התוצאה pairwise_choice מראה שהתשובה המועמדת "צרפת היא מדינה שממוקמת במערב אירופה" עדיפה בעיני מודל השופט על פני תשובת הבסיס "צרפת היא מדינה" לשאלה בהנחיה. בדומה לתוצאות של הערכה נקודתית, גם כאן מופיע הסבר למה התשובה המועמדת טובה יותר מתשובת הבסיס (התשובה המועמדת מועילה יותר במקרה הזה).
קבוצת הנתונים
prompt: "Can you answer where France is based on the following paragraph? צרפת היא מדינה שממוקמת במערב אירופה. היא גובלת בבלגיה, לוקסמבורג, גרמניה, שווייץ, איטליה, מונקו, ספרד ואנדורה. קו החוף של צרפת משתרע לאורך תעלת למאנש, הים הצפוני, האוקיינוס האטלנטי וים התיכון. צרפת ידועה בהיסטוריה העשירה שלה, בנקודות ציון מפורסמות כמו מגדל אייפל ובמטבח הטעים שלה. היא מעצמה תרבותית וכלכלית חשובה באירופה ובעולם".
response: "צרפת היא מדינה שממוקמת במערב אירופה",baseline_model_response: "France is a country.",
תוצאה
pairwise_choice: CANDIDATE,-
explanation: תשובת ה-BASELINE מבוססת על נתונים אבל לא עונה על השאלה באופן מלא. לעומת זאת, תשובת ה-CANDIDATE נכונה ומספקת פרטים מועילים על המיקום של צרפת.
המאמרים הבאים
אפשר לנסות notebook לדוגמה של הערכה.