בדף הזה מוסבר איך לצפות בתוצאות של הערכת המודל ולפרש אותן אחרי שמריצים את הערכת המודל.
צפייה בתוצאות ההערכה
אחרי שמגדירים את משימת ההערכה, מריצים אותה כדי לקבל את תוצאות ההערכה, באופן הבא:
from vertexai.evaluation import EvalTask
eval_result = EvalTask(
dataset=DATASET,
metrics=[METRIC_1, METRIC_2, METRIC_3],
experiment=EXPERIMENT_NAME,
).evaluate(
model=MODEL,
experiment_run=EXPERIMENT_RUN_NAME,
)
המחלקות EvalResult מייצגות את התוצאה של הרצת הערכה עם המאפיינים הבאים:
-
summary_metrics: מילון של מדדי הערכה מצטברים להרצת הערכה. -
metrics_table: טבלתpandas.DataFrameשמכילה את קלט מערך ההערכה, התשובות, ההסברים ותוצאות המדדים בכל שורה. -
metadata: שם הניסוי ושם ההרצה של הניסוי להרצת ההערכה.
המחלקה EvalResult מוגדרת כך:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
responses, explanations, and metric results per row.
metadata: the experiment name and experiment run name for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
בעזרת פונקציות עזר, אפשר להציג את תוצאות ההערכה ב-notebook של Colab באופן הבא:

הצגה חזותית של תוצאות ההערכה
אפשר להציג מדדי סיכום בתרשים רדאר או בתרשים עמודות כדי להשוות בין תוצאות של הרצות שונות של הערכה. התצוגה החזותית הזו יכולה לעזור בהערכה של מודלים שונים ותבניות שונות של הנחיות.
בדוגמה הבאה, אנחנו מציגים ארבעה מדדים (קוהרנטיות, רהיטות, ביצוע ההנחיה ואיכות הטקסט הכוללת) לתשובות שנוצרו באמצעות ארבעה תבניות שונות של הנחיות. מהתרשים הרדאר ומהתרשים העמודות, אפשר להסיק שתבנית ההנחיה מספר 2 עדיפה באופן עקבי על התבניות האחרות בכל ארבעת המדדים. הדבר בולט במיוחד בציונים הגבוהים משמעותית שקיבל המודל בנושאים של ביצוע הוראות ואיכות הטקסט. על סמך הניתוח הזה, נראה שתבנית ההנחיה מספר 2 היא הבחירה היעילה ביותר מבין ארבע האפשרויות.


הסבר על תוצאות המדדים
בטבלאות הבאות מפורטים רכיבים שונים של תוצאות ברמת המופע ותוצאות מצטברות שכלולים ב-metrics_table וב-summary_metrics בהתאמה עבור PointwiseMetric, PairwiseMetric ומדדים שמבוססים על חישוב:
PointwiseMetric
תוצאות ברמת המופע
| עמודה | תיאור |
|---|---|
| תשובה | התשובה שהמודל יצר להנחיה. |
| score | הדירוג שניתן לתשובה בהתאם לקריטריונים ולטבלת הדירוג. הציון יכול להיות בינארי (0 ו-1), בסולם ליקרט (1 עד 5 או -2 עד 2) או מספר עשרוני (0.0 עד 1.0). |
| הסבר | הסיבה לציון שניתן על ידי מודל השופט. אנחנו משתמשים בחשיבה רציונלית כדי להנחות את מודל השופט להסביר את ההיגיון מאחורי כל פסק דין. הוכח שכאשר מכריחים את מודל השופט לנמק, דיוק ההערכה משתפר. |
תוצאות מצטברות
| עמודה | תיאור |
|---|---|
| ציון ממוצע | הציון הממוצע של כל המופעים. |
| סטיית תקן | סטיית תקן של כל הציונים. |
PairwiseMetric
תוצאות ברמת המופע
| עמודה | תיאור |
|---|---|
| תשובה | התשובה שנוצרה להנחיה על ידי מודל מועמד. |
| baseline_model_response | התשובה שנוצרה להנחיה על ידי מודל הבסיס. |
| pairwise_choice | המודל עם התשובה הטובה יותר. הערכים האפשריים הם CANDIDATE, BASELINE או TIE. |
| הסבר | הסיבה לבחירה של מודל השופט. |
תוצאות מצטברות
| עמודה | תיאור |
|---|---|
| candidate_model_win_rate | היחס בין הזמן שבו מודל השופט החליט שהתשובה של המודל המתמודד הייתה טובה יותר לבין סך התשובות. הערך נע בין 0 ל-1. |
| baseline_model_win_rate | היחס בין הזמן שבו מודל השופט החליט שהתשובה של מודל הבסיס הייתה טובה יותר לבין סך התשובות. הערך נע בין 0 ל-1. |
השוואות מבוססות-מחשוב
תוצאות ברמת המופע
| עמודה | תיאור |
|---|---|
| תשובה | התשובה של המודל שנבדקת. |
| הפניה | תשובת ההפניה. |
| score | הציון מחושב לכל צמד של תגובות והפניות. |
תוצאות מצטברות
| עמודה | תיאור |
|---|---|
| ציון ממוצע | הציון הממוצע של כל המופעים. |
| סטיית תקן | סטיית תקן של כל הציונים. |
דוגמאות
בדוגמאות שבקטע הזה מוסבר איך לקרוא ולהבין את תוצאות ההערכה.
דוגמה 1: הערכה נקודתית
בדוגמה הראשונה, נניח שרוצים להעריך מופע של הערכה נקודתית עבור TEXT_QUALITY. הציון מההערכה הנקודתית של מדד TEXT_QUALITY הוא 4 (בסולם של 1 עד 5), כלומר התשובה טובה. בנוסף, ההסבר בתוצאת הבדיקה מראה למה מודל השופט חושב שהתחזית ראויה לציון 4, ולא לציון גבוה או נמוך יותר.
קבוצת הנתונים
prompt: "תסכם את הטקסט הבא באופן שמובן לילד בן חמש: פלטפורמת מדיה חברתית מתמודדת עם תגובות נזעמות בעקבות מדיניות מחיקת התוכן שלה\nפלטפורמת מדיה חברתית בולטת מוצאת את עצמה במרכז מחלוקת, כשמשתמשים ויוצרי תוכן מביעים חוסר שביעות רצון ממדיניות מחיקת התוכן שלה. טענות על צנזורה מוטה, אכיפה לא עקבית ודיכוי של נקודות מבט מסוימות עוררו זעם בקרב משתמשים שטוענים שהפלטפורמה מגבילה את חופש הביטוי. מצד שני, הפלטפורמה טוענת שהמדיניות שלה נועדה לשמור על סביבה מקוונת בטוחה ומכילה. המחלוקת הזו מעלה שאלות רחבות יותר לגבי התפקיד של הרשתות החברתיות בעיצוב השיח הציבורי והאחריות של הפלטפורמות בניהול התוכן באינטרנט".response: "אנשים כועסים על אתר מסוים כי הם חושבים שהוא לא הוגן לגבי מה שאנשים יכולים לפרסם בו. חלק מהאנשים אומרים שהאתר מונע מהם לומר את מה שהם רוצים. אבל באתר כתוב שהוא מנסה לשמור על הבטיחות של כולם. זה גורם לאנשים לתהות אם אתרים צריכים לשלוט במה שאנשים יכולים לומר באינטרנט".
תוצאה
score: 4,-
explanation: הסיכום בתשובה פועל לפי ההוראה לסכם את ההקשר בצורה שילד בן חמש יכול להבין. הסיכום מבוסס על ההקשר ומספק פרטים חשובים. עם זאת, השפה שבה נעשה שימוש בתשובה היא קצת מפורטת מדי.
דוגמה 2: הערכה בזוגות
בדוגמה השנייה מוצגת הערכה של השוואה בין זוגות ב-PAIRWISE_QUESTION_ANSWERING_QUALITY. התוצאה pairwise_choice מראה שהתשובה האפשרית 'צרפת היא מדינה שממוקמת במערב אירופה' עדיפה בעיני מודל השופט על פני תשובת הבסיס 'צרפת היא מדינה' לשאלה בהנחיה. בדומה לתוצאות של השוואה נקודתית, גם כאן מוצג הסבר למה התשובה של המועמד טובה יותר מהתשובה של קו הבסיס (התשובה של המועמד מועילה יותר במקרה הזה).
קבוצת הנתונים
prompt: "Can you answer where France is based on the following paragraph? צרפת היא מדינה במערב אירופה. היא גובלת בבלגיה, לוקסמבורג, גרמניה, שווייץ, איטליה, מונקו, ספרד ואנדורה. קו החוף של צרפת משתרע לאורך תעלת למאנש, הים הצפוני, האוקיינוס האטלנטי וים התיכון. צרפת ידועה בהיסטוריה העשירה שלה, בנקודות ציון מפורסמות כמו מגדל אייפל ובמטבח הטעים שלה. היא מעצמה תרבותית וכלכלית חשובה באירופה ובעולם כולו".
response: "צרפת היא מדינה שממוקמת במערב אירופה",baseline_model_response: "France is a country.",
תוצאה
pairwise_choice: CANDIDATE,-
explanation: תשובה בסיסית שמבוססת על מידע, אבל לא עונה על השאלה באופן מלא. עם זאת, התשובה של המועמד נכונה ומספקת פרטים מועילים על המיקום של צרפת.
המאמרים הבאים
אפשר לנסות notebook לדוגמה של הערכה.