שירות ההערכה של בינה מלאכותית להסקת מסקנות מאפשר לכם להעריך את ביצועי המודל בתרחישי שימוש ספציפיים. אפשר גם להתייחס להערכה כאל יכולת צפייה בביצועים של מודל. הערכת המודל שמסופקת על ידי Vertex AI יכולה להתאים לתהליך העבודה הטיפוסי של למידת מכונה בכמה דרכים:
אחרי שמסיימים לאמן את המודל, כדאי לבדוק את מדדי ההערכה של המודל לפני שפורסים אותו. להשוות בין מדדי הערכה של כמה מודלים כדי להחליט איזה מודל כדאי לפרוס.
אחרי שמבצעים פריסה של המודל בסביבת הייצור, חשוב להעריך אותו מעת לעת באמצעות נתונים נכנסים חדשים. אם מדדי ההערכה מראים שהביצועים של המודל יורדים, כדאי לאמן מחדש את המודל. התהליך הזה נקרא הערכה מתמשכת.
האופן שבו מפרשים את המדדים האלה ומשתמשים בהם תלוי בצורך העסקי ובבעיה שהמודל אומן לפתור. לדוגמה, יכול להיות שאתם מוכנים לקבל יותר תוצאות חיוביות מטעות מאשר תוצאות שליליות מטעות, או להפך. התשובות לשאלות האלה משפיעות על המדדים שבהם תתמקדו כשתיצרו איטרציות של המודל.
הנה כמה מהמדדים המרכזיים שמופיעים בשירות להערכת מודלים של AI לחיזוי:
תכונות
כדי להעריך מודל באמצעות Vertex AI, צריך מודל מאומן, פלט של הסקת מסקנות באצווה ומערך נתונים של בסיס מידע משותף. התהליך הבא הוא תהליך טיפוסי להערכת מודלים באמצעות Vertex AI:
אימון מודל. אפשר לעשות את זה ב-Vertex AI באמצעות AutoML או אימון מותאם אישית.
מריצים משימת היקש באצווה במודל כדי ליצור תוצאות היקש.
מכינים את נתוני האמת הבסיסית, שהם הנתונים שסומנו בצורה נכונה על ידי בני אדם. נתוני האמת הם בדרך כלל מערך נתוני הבדיקה שבו השתמשתם במהלך תהליך אימון המודל.
מריצים משימת הערכה במודל, שמעריכה את הדיוק של תוצאות ההיסק של אצווה בהשוואה לנתוני האמת.
לנתח את המדדים שמתקבלים ממשימת ההערכה.
כדאי לבצע איטרציה במודל כדי לראות אם אפשר לשפר את הדיוק שלו. אתם יכולים להריץ כמה משימות הערכה ולהשוות בין התוצאות של כמה משימות במודלים שונים או בגרסאות שונות של מודלים.
יש כמה דרכים להריץ הערכת מודל ב-Vertex AI:
יוצרים הערכות דרך מרשם המודלים של Vertex AI במסוףGoogle Cloud .
שימוש בהערכות מודלים מ-Vertex AI כרכיב בצינור עיבוד הנתונים באמצעות Vertex AI Pipelines. אתם יכולים ליצור הפעלות של צינורות עיבוד נתונים ותבניות שכוללות הערכות של מודלים כחלק מתהליך העבודה האוטומטי של MLOps.
אפשר להריץ את רכיב הערכת המודל לבד, או עם רכיבים אחרים של צינורות, כמו רכיב ההסקה של אצווה.
Vertex AI תומך בהערכה של סוגי המודלים הבאים:
תמונה
סיווג
אפשר להציג ולהוריד קובצי סכימה ממיקום Cloud Storage הבא:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: השטח מתחת לעקומת הדיוק וההחזרה (PR), שנקרא גם דיוק ממוצע. הערך הזה נע בין אפס לאחד, וככל שהערך גבוה יותר כך המודל איכותי יותר.
- הפסד לוגיסטי: האנטרופיה הצולבת בין ההסקות של המודל לבין ערכי היעד. הערך נע בין אפס לאינסוף, כאשר ערך נמוך יותר מציין מודל באיכות גבוהה יותר.
- סף ביטחון: ציון מהימנות שקובע אילו מסקנות יוחזרו. המודל מחזיר מסקנות שהערך שלהן הוא לפחות הערך הזה. סף סבירות גבוה יותר מגדיל את הדיוק אבל מקטין את ההיזכרות. Vertex AI מחזיר מדדי מהימנות בערכי סף שונים כדי להראות איך ערך הסף משפיע על הדיוק ועל ההחזרה.
- החזרה: השבר של ההסקות עם הסיווג הזה שהמודל חזה בצורה נכונה. נקרא גם שיעור החיוביים האמיתיים.
- דיוק: השבר של מסקנות הסיווג שהופקו על ידי המודל שהיו נכונות.
- מטריצת בלבול: מטריצת בלבול מראה את התדירות שבה מודל חזה תוצאה בצורה נכונה. בתוצאות שחזיתן לא הייתה נכונה, המטריצה מציגה את מה שהמודל חזה במקום זאת. מטריצת הבלבול עוזרת להבין איפה המודל "מבלבל" בין שתי תוצאות.
טבלאי
סיווג
אפשר להציג ולהוריד קובצי סכימה ממיקום Cloud Storage הבא:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: השטח מתחת לעקומת הדיוק וההחזרה (PR), שנקרא גם דיוק ממוצע. הערך הזה נע בין אפס לאחד, וככל שהערך גבוה יותר כך המודל איכותי יותר.
- AuROC: השטח מתחת לעקומת מאפייני ההפעלה של המקלט. הערך נע בין אפס לאחד, וככל שהוא גבוה יותר כך המודל איכותי יותר.
- הפסד לוגיסטי: האנטרופיה הצולבת בין ההסקות של המודל לבין ערכי היעד. הערך נע בין אפס לאינסוף, כאשר ערך נמוך יותר מציין מודל באיכות גבוהה יותר.
- סף ביטחון: ציון מהימנות שקובע אילו מסקנות יוחזרו. המודל מחזיר מסקנות שהערך שלהן הוא לפחות הערך הזה. סף סבירות גבוה יותר מגדיל את הדיוק אבל מקטין את ההיזכרות. Vertex AI מחזיר מדדי מהימנות בערכי סף שונים כדי להראות איך ערך הסף משפיע על הדיוק ועל ההחזרה.
- החזרה: השבר של ההסקות עם הסיווג הזה שהמודל חזה בצורה נכונה. נקרא גם שיעור החיוביים האמיתיים.
- Recall at 1: ה-recall (שיעור החיוביים האמיתיים) כשמתייחסים רק לתווית עם ציון ההסקה הכי גבוה, ולא מתחת לסף המהימנות לכל דוגמה.
- דיוק: השבר של מסקנות הסיווג שהופקו על ידי המודל שהיו נכונות.
- דיוק ב-1: הדיוק כשמתייחסים רק לתווית עם ציון ההסקה הכי גבוה, שלא מתחת לסף המהימנות בכל דוגמה.
- ציון F1: הממוצע ההרמוני של הדיוק וההחזרה. מדד F1 שימושי אם אתם מחפשים איזון בין דיוק לבין היזכרות, ויש התפלגות לא אחידה של מחלקות.
- ציון F1 ברמה 1: הממוצע ההרמוני של ההחזרה ברמה 1 והדיוק ברמה 1.
- מטריצת בלבול: מטריצת בלבול מראה את התדירות שבה מודל חזה תוצאה בצורה נכונה. בתוצאות שחזיתן לא הייתה נכונה, המטריצה מציגה את מה שהמודל חזה במקום זאת. מטריצת הבלבול עוזרת להבין איפה המודל "מבלבל" בין שתי תוצאות.
- ספירת שליליים אמיתיים: מספר הפעמים שבהן מודל חזה נכון סיווג שלילי.
- מספר החיזויים החיוביים הנכונים: מספר הפעמים שבהן מודל חזה נכון סיווג חיובי.
- מספר השליליים הכוזבים: מספר הפעמים שבהן מודל ניבא בטעות סיווג שלילי.
- מספר התוצאות החיוביות השגויות: מספר הפעמים שבהן מודל חזה בטעות סיווג חיובי.
- שיעור התוצאות החיוביות השגויות: השבר של התוצאות שחזיתם לגביהן שהן נכונות אבל הן לא נכונות, מתוך כל התוצאות שחזיתם לגביהן שהן נכונות.
- שיעור התוצאות החיוביות השגויות ברמה 1: שיעור התוצאות החיוביות השגויות כשמתייחסים רק לתווית עם ציון ההסקה הגבוה ביותר, ולא מתחת לסף המהימנות לכל דוגמה.
- שיוך תכונות למודל: ב-Vertex AI אפשר לראות את מידת ההשפעה של כל תכונה על המודל. הערכים מוצגים כאחוזים לכל תכונה: ככל שהאחוז גבוה יותר, כך ההשפעה של התכונה על אימון המודל גדולה יותר. כדאי לעיין במידע הזה כדי לוודא שכל התכונות הכי חשובות מתאימות לנתונים ולבעיה העסקית שלכם.
רגרסיה
אפשר להציג ולהוריד קובצי סכימה ממיקום Cloud Storage הבא:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: השגיאה המוחלטת הממוצעת (MAE) היא ההפרש המוחלט הממוצע בין ערכי היעד לבין הערכים החזויים. המדד הזה נע בין אפס לאינסוף. ערך נמוך יותר מצביע על מודל באיכות גבוהה יותר.
- RMSE: שורש טעות ריבועית ממוצעת הוא השורש הריבועי של ההפרש הממוצע בריבוע בין ערכי היעד לבין הערכים החזויים. המדד RMSE רגיש יותר לערכים חריגים מהמדד MAE,ולכן אם אתם מודאגים משגיאות גדולות, כדאי להשתמש במדד RMSE כדי להעריך את השגיאות. בדומה ל-MAE, ערך קטן יותר מצביע על מודל באיכות גבוהה יותר (0 מייצג מודל חיזוי מושלם).
- RMSLE: מדד השגיאה הלוגריתמית של שורש ממוצע הריבועים דומה ל-RMSE, אבל הוא משתמש בלוגריתם הטבעי של הערכים החזויים והערכים בפועל, בתוספת 1. המדד RMSLE מעניש על הסקת מסקנות חסרה בצורה חמורה יותר מאשר על הסקת מסקנות עודפת. זה יכול להיות גם מדד טוב אם אתם לא רוצים להעניש הבדלים בין ערכי הסקה גדולים יותר מאשר בין ערכי הסקה קטנים. המדד הזה נע בין אפס לאינסוף. ערך נמוך יותר מצביע על מודל באיכות גבוהה יותר. מדד ההערכה RMSLE מוחזר רק אם כל ערכי התווית והערכים החזויים הם לא שליליים.
- r^2: r בריבוע (r^2) הוא הריבוע של מקדם המתאם של פירסון בין התוויות לבין הערכים החזויים. הערך של המדד הזה נע בין אפס לאחד. ערך גבוה יותר מציין התאמה טובה יותר לקו הרגרסיה.
-
MAPE: שגיאת האחוזים המוחלטת הממוצעת (MAPE) היא ההפרש המוחלט הממוצע באחוזים בין התוויות לבין הערכים החזויים. המדד הזה
נע בין אפס לאינסוף. ערך נמוך יותר מצביע על מודל באיכות גבוהה יותר.
הערך MAPE לא מוצג אם עמודת היעד מכילה ערכים של 0. במקרה כזה, MAPE לא מוגדר. - שיוך תכונות למודל: ב-Vertex AI אפשר לראות את מידת ההשפעה של כל תכונה על המודל. הערכים מוצגים כאחוזים לכל תכונה: ככל שהאחוז גבוה יותר, כך ההשפעה של התכונה על אימון המודל גדולה יותר. כדאי לעיין במידע הזה כדי לוודא שכל התכונות הכי חשובות מתאימות לנתונים ולבעיה העסקית שלכם.
תחזיות
אפשר להציג ולהוריד קובצי סכימה ממיקום Cloud Storage הבא:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: השגיאה המוחלטת הממוצעת (MAE) היא ההפרש המוחלט הממוצע בין ערכי היעד לבין הערכים החזויים. המדד הזה נע בין אפס לאינסוף. ערך נמוך יותר מצביע על מודל באיכות גבוהה יותר.
- RMSE: שורש טעות ריבועית ממוצעת הוא השורש הריבועי של ההפרש הממוצע בריבוע בין ערכי היעד לבין הערכים החזויים. המדד RMSE רגיש יותר לערכים חריגים מהמדד MAE,ולכן אם אתם מודאגים משגיאות גדולות, כדאי להשתמש במדד RMSE כדי להעריך את השגיאות. בדומה ל-MAE, ערך קטן יותר מצביע על מודל באיכות גבוהה יותר (0 מייצג מודל חיזוי מושלם).
- RMSLE: מדד השגיאה הלוגריתמית של שורש ממוצע הריבועים דומה ל-RMSE, אבל הוא משתמש בלוגריתם הטבעי של הערכים החזויים והערכים בפועל, בתוספת 1. המדד RMSLE מעניש על הסקת מסקנות חסרה בצורה חמורה יותר מאשר על הסקת מסקנות עודפת. זה יכול להיות גם מדד טוב אם אתם לא רוצים להעניש הבדלים בין ערכי הסקה גדולים יותר מאשר בין ערכי הסקה קטנים. המדד הזה נע בין אפס לאינסוף. ערך נמוך יותר מצביע על מודל באיכות גבוהה יותר. מדד ההערכה RMSLE מוחזר רק אם כל ערכי התווית והערכים החזויים הם לא שליליים.
- r^2: r בריבוע (r^2) הוא הריבוע של מקדם המתאם של פירסון בין התוויות לבין הערכים החזויים. הערך של המדד הזה נע בין אפס לאחד. ערך גבוה יותר מציין התאמה טובה יותר לקו הרגרסיה.
-
MAPE: שגיאת האחוזים המוחלטת הממוצעת (MAPE) היא ההפרש המוחלט הממוצע באחוזים בין התוויות לבין הערכים החזויים. המדד הזה
נע בין אפס לאינסוף. ערך נמוך יותר מצביע על מודל באיכות גבוהה יותר.
הערך MAPE לא מוצג אם עמודת היעד מכילה ערכים של 0. במקרה כזה, MAPE לא מוגדר. - WAPE: שגיאת אחוזים מוחלטת משוקללת (WAPE) היא ההבדל הכולל בין הערך שחזוי על ידי מודל לבין הערכים שנצפו, חלקי הערכים שנצפו. בהשוואה ל-RMSE, WAPE נותן משקל גדול יותר להבדלים הכוללים ולא להבדלים בין ערכים ספציפיים, שיכולים להיות מושפעים מאוד מערכים נמוכים או לא סדירים. ערך נמוך יותר מציין מודל באיכות גבוהה יותר.
- RMSPE: שגיאת שורש ממוצע ריבועי באחוזים (RMPSE) מציגה את RMSE כאחוז מהערכים בפועל במקום כמספר מוחלט. ערך נמוך יותר מציין מודל באיכות גבוהה יותר.
- Quantile: אחוזון, שמציין את ההסתברות שערך שנצפה יהיה מתחת לערך החזוי. לדוגמה, בקוונטיל 0.5, הערכים שנצפו צפויים להיות נמוכים מהערכים החזויים ב-50% מהמקרים.
- כמותי שנצפה: אחוז הערכים האמיתיים שהיו קטנים מהערך החזוי עבור כמותי נתון.
- הפסד scaled pinball: הפסד scaled pinball באחוזון מסוים. ערך נמוך יותר מציין מודל איכותי יותר באחוזון הנתון.