הצגה ופירוש של תוצאות ההערכה

בדף הזה מוסבר איך לצפות בתוצאות של הערכת המודל ולפרש אותן אחרי שמריצים את הערכת המודל.

צפייה בתוצאות ההערכה

אחרי שמגדירים את משימת ההערכה, מריצים אותה כדי לקבל את תוצאות ההערכה, באופן הבא:

from vertexai.evaluation import EvalTask

eval_result = EvalTask(
    dataset=DATASET,
    metrics=[METRIC_1, METRIC_2, METRIC_3],
    experiment=EXPERIMENT_NAME,
).evaluate(
    model=MODEL,
    experiment_run=EXPERIMENT_RUN_NAME,
)

המחלקות EvalResult מייצגות את התוצאה של הרצת הערכה עם המאפיינים הבאים:

‫summary_metrics: מילון של מדדי הערכה מצטברים להרצת הערכה.
‫metrics_table: טבלת pandas.DataFrame שמכילה את קלט מערך ההערכה, התשובות, ההסברים ותוצאות המדדים בכל שורה.
‫metadata: שם הניסוי ושם ההרצה של הניסוי להרצת ההערכה.

המחלקה EvalResult מוגדרת כך:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: A dictionary of aggregated evaluation metrics for an evaluation run.
      metrics_table: A pandas.DataFrame table containing evaluation dataset inputs,
        responses, explanations, and metric results per row.
      metadata: the experiment name and experiment run name for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

בעזרת פונקציות עזר, אפשר להציג את תוצאות ההערכה ב-notebook של Colab באופן הבא:

טבלאות של מדדי סיכום ומדדים מבוססי-שורות

הצגה חזותית של תוצאות ההערכה

אפשר להציג מדדי סיכום בתרשים רדאר או בתרשים עמודות כדי להשוות בין תוצאות של הרצות שונות של הערכה. התצוגה החזותית הזו יכולה לעזור בהערכה של מודלים שונים ותבניות שונות של הנחיות.

בדוגמה הבאה, אנחנו מציגים ארבעה מדדים (קוהרנטיות, רהיטות, ביצוע ההנחיה ואיכות הטקסט הכוללת) לתשובות שנוצרו באמצעות ארבעה תבניות שונות של הנחיות. מהתרשים הרדאר ומהתרשים העמודות, אפשר להסיק שתבנית ההנחיה מספר 2 עדיפה באופן עקבי על התבניות האחרות בכל ארבעת המדדים. הדבר בולט במיוחד בציונים הגבוהים משמעותית שקיבל המודל בנושאים של ביצוע הוראות ואיכות הטקסט. על סמך הניתוח הזה, נראה שתבנית ההנחיה מספר 2 היא הבחירה היעילה ביותר מבין ארבע האפשרויות.

תרשים מכ"ם שבו מוצגים הציונים של העקביות, ההיענות להוראות, איכות הטקסט והרהיטות של כל תבניות ההנחיות

תרשים עמודות שבו מוצג הממוצע של העקביות, ההיענות להוראות, איכות הטקסט והרהיטות של כל תבניות ההנחיות

הסבר על תוצאות המדדים

בטבלאות הבאות מפורטים רכיבים שונים של תוצאות ברמת המופע ותוצאות מצטברות שכלולים ב-metrics_table וב-summary_metrics בהתאמה עבור PointwiseMetric, PairwiseMetric ומדדים שמבוססים על חישוב:

`PointwiseMetric`

תוצאות ברמת המופע

עמודה	תיאור
תשובה	התשובה שהמודל יצר להנחיה.
score	הדירוג שניתן לתשובה בהתאם לקריטריונים ולטבלת הדירוג. הציון יכול להיות בינארי (0 ו-1), בסולם ליקרט (1 עד 5 או ‎-2 עד 2) או מספר עשרוני (0.0 עד 1.0).
הסבר	הסיבה לציון שניתן על ידי מודל השופט. אנחנו משתמשים בחשיבה רציונלית כדי להנחות את מודל השופט להסביר את ההיגיון מאחורי כל פסק דין. הוכח שכאשר מכריחים את מודל השופט לנמק, דיוק ההערכה משתפר.

תוצאות מצטברות

עמודה	תיאור
ציון ממוצע	הציון הממוצע של כל המופעים.
סטיית תקן	סטיית תקן של כל הציונים.

`PairwiseMetric`

תוצאות ברמת המופע

עמודה	תיאור
תשובה	התשובה שנוצרה להנחיה על ידי מודל מועמד.
baseline_model_response	התשובה שנוצרה להנחיה על ידי מודל הבסיס.
pairwise_choice	המודל עם התשובה הטובה יותר. הערכים האפשריים הם CANDIDATE, ‏ BASELINE או TIE.
הסבר	הסיבה לבחירה של מודל השופט.

תוצאות מצטברות

עמודה	תיאור
candidate_model_win_rate	היחס בין הזמן שבו מודל השופט החליט שהתשובה של המודל המתמודד הייתה טובה יותר לבין סך התשובות. הערך נע בין 0 ל-1.
baseline_model_win_rate	היחס בין הזמן שבו מודל השופט החליט שהתשובה של מודל הבסיס הייתה טובה יותר לבין סך התשובות. הערך נע בין 0 ל-1.

השוואות מבוססות-מחשוב

תוצאות ברמת המופע

עמודה	תיאור
תשובה	התשובה של המודל שנבדקת.
הפניה	תשובת ההפניה.
score	הציון מחושב לכל צמד של תגובות והפניות.

תוצאות מצטברות

עמודה	תיאור
ציון ממוצע	הציון הממוצע של כל המופעים.
סטיית תקן	סטיית תקן של כל הציונים.

דוגמאות

בדוגמאות שבקטע הזה מוסבר איך לקרוא ולהבין את תוצאות ההערכה.

דוגמה 1: הערכה נקודתית

בדוגמה הראשונה, נניח שרוצים להעריך מופע של הערכה נקודתית עבור TEXT_QUALITY. הציון מההערכה הנקודתית של מדד TEXT_QUALITY הוא 4 (בסולם של 1 עד 5), כלומר התשובה טובה. בנוסף, ההסבר בתוצאת הבדיקה מראה למה מודל השופט חושב שהתחזית ראויה לציון 4, ולא לציון גבוה או נמוך יותר.

קבוצת הנתונים

‫prompt: "תסכם את הטקסט הבא באופן שמובן לילד בן חמש: פלטפורמת מדיה חברתית מתמודדת עם תגובות נזעמות בעקבות מדיניות מחיקת התוכן שלה\nפלטפורמת מדיה חברתית בולטת מוצאת את עצמה במרכז מחלוקת, כשמשתמשים ויוצרי תוכן מביעים חוסר שביעות רצון ממדיניות מחיקת התוכן שלה. טענות על צנזורה מוטה, אכיפה לא עקבית ודיכוי של נקודות מבט מסוימות עוררו זעם בקרב משתמשים שטוענים שהפלטפורמה מגבילה את חופש הביטוי. מצד שני, הפלטפורמה טוענת שהמדיניות שלה נועדה לשמור על סביבה מקוונת בטוחה ומכילה. המחלוקת הזו מעלה שאלות רחבות יותר לגבי התפקיד של הרשתות החברתיות בעיצוב השיח הציבורי והאחריות של הפלטפורמות בניהול התוכן באינטרנט".
response: "אנשים כועסים על אתר מסוים כי הם חושבים שהוא לא הוגן לגבי מה שאנשים יכולים לפרסם בו. חלק מהאנשים אומרים שהאתר מונע מהם לומר את מה שהם רוצים. אבל באתר כתוב שהוא מנסה לשמור על הבטיחות של כולם. זה גורם לאנשים לתהות אם אתרים צריכים לשלוט במה שאנשים יכולים לומר באינטרנט".

תוצאה

score: 4,
‫explanation: הסיכום בתשובה פועל לפי ההוראה לסכם את ההקשר בצורה שילד בן חמש יכול להבין. הסיכום מבוסס על ההקשר ומספק פרטים חשובים. עם זאת, השפה שבה נעשה שימוש בתשובה היא קצת מפורטת מדי.

דוגמה 2: הערכה בזוגות

בדוגמה השנייה מוצגת הערכה של השוואה בין זוגות ב-PAIRWISE_QUESTION_ANSWERING_QUALITY. התוצאה pairwise_choice מראה שהתשובה האפשרית 'צרפת היא מדינה שממוקמת במערב אירופה' עדיפה בעיני מודל השופט על פני תשובת הבסיס 'צרפת היא מדינה' לשאלה בהנחיה. בדומה לתוצאות של השוואה נקודתית, גם כאן מוצג הסבר למה התשובה של המועמד טובה יותר מהתשובה של קו הבסיס (התשובה של המועמד מועילה יותר במקרה הזה).

קבוצת הנתונים

prompt: "Can you answer where France is based on the following paragraph? צרפת היא מדינה במערב אירופה. היא גובלת בבלגיה, לוקסמבורג, גרמניה, שווייץ, איטליה, מונקו, ספרד ואנדורה. קו החוף של צרפת משתרע לאורך תעלת למאנש, הים הצפוני, האוקיינוס האטלנטי וים התיכון. צרפת ידועה בהיסטוריה העשירה שלה, בנקודות ציון מפורסמות כמו מגדל אייפל ובמטבח הטעים שלה. היא מעצמה תרבותית וכלכלית חשובה באירופה ובעולם כולו".
‫response: "צרפת היא מדינה שממוקמת במערב אירופה",
baseline_model_response: "France is a country.",

תוצאה

pairwise_choice: CANDIDATE,
‫explanation: תשובה בסיסית שמבוססת על מידע, אבל לא עונה על השאלה באופן מלא. עם זאת, התשובה של המועמד נכונה ומספקת פרטים מועילים על המיקום של צרפת.

המאמרים הבאים

אפשר לנסות notebook לדוגמה של הערכה.
מידע על הערכה של AI גנרטיבי

הצגה ופירוש של תוצאות ההערכה קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

צפייה בתוצאות ההערכה

הצגה חזותית של תוצאות ההערכה

הסבר על תוצאות המדדים

PointwiseMetric

תוצאות ברמת המופע

תוצאות מצטברות

PairwiseMetric

תוצאות ברמת המופע

תוצאות מצטברות

השוואות מבוססות-מחשוב

תוצאות ברמת המופע

תוצאות מצטברות

דוגמאות

דוגמה 1: הערכה נקודתית

קבוצת הנתונים

תוצאה

דוגמה 2: הערכה בזוגות

קבוצת הנתונים

תוצאה

המאמרים הבאים

הצגה ופירוש של תוצאות ההערכה

`PointwiseMetric`

`PairwiseMetric`