Gemini Enterprise Agent Platform מספקת מדדי הערכה של מודלים כדי לעזור לכם לקבוע את הביצועים של המודלים, כמו מדדי דיוק ורגישות.Agent Platform מחשבת את מדדי ההערכה באמצעות מערך הבדיקה.
איך משתמשים במדדים להערכת מודלים
מדדים להערכת מודלים מספקים מדידות כמותיות של הביצועים של המודל בקבוצת הנתונים לבדיקה. האופן שבו מפרשים את המדדים האלה ומשתמשים בהם תלוי בצורך העסקי ובבעיה שהמודל אומן לפתור. לדוגמה, יכול להיות שרמת הסבילות שלכם לתוצאות חיוביות שגויות נמוכה יותר מרמת הסבילות לתוצאות שליליות שגויות, או להפך. סוגי השאלות האלה משפיעים על המדדים שבהם תתמקדו.
מידע נוסף על שיפור הביצועים של המודל זמין במאמר שיפור המודל.
מדדי הערכה שמוחזרים על ידי Agent Platform
Agent Platform מחזירה כמה מדדי הערכה שונים, כמו דיוק, היזכרות וספי ודאות. המדדים שמוחזרים מ-Agent Platform תלויים ביעד של המודל. לדוגמה, Agent Platform מספק מדדי הערכה שונים למודל זיהוי אובייקטים בתמונה בהשוואה למודל סיווג אובייקטים בתמונה.
קובץ סכימה, שאפשר להוריד ממיקום ב-Cloud Storage, קובע אילו מדדי הערכה מספקת Agent Platform לכל יעד. בכרטיסים הבאים מופיעים קישורים לקובצי הסכימה ותיאור של מדדי ההערכה לכל יעד של מודל.
אפשר להציג ולהוריד קובצי סכימה ממיקום Cloud Storage הבא:
gs://google-cloud-aiplatform/schema/modelevaluation/
- ערך סף של IoU: ערך סף של חיתוך חלקי איחוד שקובע אילו מסקנות יוחזרו. מודל מחזיר מסקנות שהערך שלהן הוא הערך הזה או גבוה ממנו. ככל שהסף גבוה יותר, כך ערכי תיבת התוחמת החזויה צריכים להיות קרובים יותר לערכי תיבת התוחמת בפועל.
- דיוק ממוצע: נקרא גם דיוק ממוצע. הערך הזה נע בין אפס לאחד, כאשר ערך גבוה יותר מצביע על מודל באיכות גבוהה יותר.
- סף ביטחון: ציון מהימנות שקובע אילו מסקנות יוחזרו. המודל מחזיר מסקנות שהערך שלהן הוא לפחות הערך הזה. סף סבירות גבוה יותר מגדיל את הדיוק אבל מקטין את ההיזכרות. פלטפורמת Agent מחזירה מדדי מהימנות בערכי סף שונים כדי להראות איך ערך הסף משפיע על הדיוק ועל ההחזרה.
- החזרה: השבר של ההסקות עם הסיווג הזה שהמודל חזה בצורה נכונה. נקרא גם שיעור החיוביים האמיתיים.
- דיוק: השבר של מסקנות הסיווג שהופקו על ידי המודל שהיו נכונות.
- ציון F1: הממוצע ההרמוני של הדיוק וההחזרה. מדד F1 שימושי אם אתם מחפשים איזון בין דיוק לבין היזכרות, ויש התפלגות לא אחידה של מחלקות.
-
דיוק ממוצע של תיבת תוחמת: המדד היחיד להערכות של תיבות תוחמות:
meanAveragePrecisionבממוצע על פני כלboundingBoxMetrics.
קבלת מדדי הערכה
אתם יכולים לקבל קבוצה מצטברת של מדדי הערכה עבור המודל, ובחלק מהמקרים מדדי הערכה עבור סיווג או תווית מסוימים. מדדי ההערכה של מחלקה או תווית מסוימת נקראים גם פלח הערכה. בקטע הבא מוסבר איך לקבל מדדי הערכה מצטברים ופרוסות הערכה באמצעות מסוף Google Cloud או API.
מסוף Google Cloud
במסוף Google Cloud , בקטע Agent Platform, עוברים לדף Models.
בתפריט הנפתח אזור, בוחרים את האזור שבו נמצא המודל.
ברשימת המודלים, לוחצים על המודל הרצוי כדי לפתוח את הכרטיסייה Evaluate (הערכה) של המודל.
בכרטיסייה הערכה אפשר לראות את מדדי ההערכה המצטברים של המודל, כמו דיוק ממוצע והחזרה.
אם ליעד של המודל יש פלחים להערכה, במסוף תוצג רשימה של תוויות. אפשר ללחוץ על תווית כדי לראות את מדדי ההערכה של התווית הזו, כמו בדוגמה הבאה:

API
בקשות API לקבלת מדדי הערכה זהות לכל סוג נתונים ולכל יעד, אבל הפלט שונה. בדוגמאות הבאות מוצגת אותה בקשה אבל תשובות שונות.
קבלת מדדים מצטברים של הערכת מודל
מדדי ההערכה המצטברים של המודל מספקים מידע על המודל כמכלול. כדי לראות מידע על פלח ספציפי, מציגים את פילוח ההערכה של המודל.
כדי לראות מדדים מצטברים להערכת מודלים, משתמשים בשיטה projects.locations.models.evaluations.get.
במקרה של מדד תיבת התוחמת, פלטפורמת הסוכן מחזירה מערך של ערכי מדדים בערכי סף שונים של IoU (בין 0 ל-1) וערכי סף של מהימנות (בין 0 ל-1). לדוגמה, אפשר להתמקד במדדי הערכה בסף IoU של 0.85 ובסף מהימנות של 0.8228. הצגת ערכי הסף השונים מאפשרת לראות איך הם משפיעים על מדדים אחרים, כמו דיוק ורגישות.
בוחרים כרטיסייה שמתאימה לשפה או לסביבה שלכם:
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- LOCATION: האזור שבו המודל מאוחסן.
- PROJECT: מזהה הפרויקט.
- MODEL_ID: המזהה של משאב המודל.
- PROJECT_NUMBER: מספר הפרויקט שנוצר באופן אוטומטי.
- EVALUATION_ID: המזהה של הערכת המודל (מופיע בתגובה).
ה-method של ה-HTTP וכתובת ה-URL:
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations
כדי לשלוח את הבקשה אתם צריכים לבחור אחת מהאפשרויות הבאות:
curl
מריצים את הפקודה הבאה:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations"
PowerShell
מריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Agent Platform Java API.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Agent Platform Node.js API.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
הצגת כל פלחי ההערכה
השיטה projects.locations.models.evaluations.slices.list מציגה את כל פרוסות ההערכה של המודל. צריך את מזהה ההערכה של המודל. אפשר לקבל אותו כשמציגים את מדדי ההערכה המצטברים.
אפשר להשתמש בפרוסות של הערכת מודל כדי לקבוע את הביצועים של המודל לגבי תווית ספציפית. בשדה value מצוין לאיזו תווית מתייחסים המדדים.
במקרה של מדד תיבת התוחמת, פלטפורמת הסוכן מחזירה מערך של ערכי מדדים בערכי סף שונים של IoU (בין 0 ל-1) וערכי סף של מהימנות (בין 0 ל-1). לדוגמה, אפשר להתמקד במדדי הערכה בסף IoU של 0.85 ובסף מהימנות של 0.8228. הצגת ערכי הסף השונים מאפשרת לראות איך הם משפיעים על מדדים אחרים, כמו דיוק ורגישות.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- LOCATION: האזור שבו נמצא המודל. לדוגמה:
us-central1. - PROJECT: .
- MODEL_ID: מזהה המודל.
- EVALUATION_ID: המזהה של הערכת המודל שמכילה את פרוסות ההערכה שרוצים להציג.
ה-method של ה-HTTP וכתובת ה-URL:
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations/EVALUATION_ID/slices
כדי לשלוח את הבקשה אתם צריכים לבחור אחת מהאפשרויות הבאות:
curl
מריצים את הפקודה הבאה:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations/EVALUATION_ID/slices"
PowerShell
מריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations/EVALUATION_ID/slices" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Agent Platform Java API.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Agent Platform Node.js API.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
קבלת מדדים עבור פלח יחיד
כדי לראות את מדדי ההערכה של פרוסת נתונים אחת, משתמשים בשיטה projects.locations.models.evaluations.slices.get. צריך להזין את מזהה הפרוסה, שמופיע כשמציגים את כל פרוסות הנתונים. הדוגמה הבאה רלוונטית לכל סוגי הנתונים והיעדים.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- LOCATION: האזור שבו נמצא המודל. לדוגמה, us-central1.
- PROJECT: .
- MODEL_ID: מזהה המודל.
- EVALUATION_ID: המזהה של הערכת המודל שמכילה את פרוסת ההערכה שרוצים לאחזר.
- SLICE_ID: המזהה של פרוסת ההערכה שרוצים לקבל.
- PROJECT_NUMBER: מספר הפרויקט שנוצר באופן אוטומטי.
- EVALUATION_METRIC_SCHEMA_FILE_NAME: השם של קובץ סכימה שמגדיר את מדדי ההערכה שיוחזרו, כמו
classification_metrics_1.0.0.
ה-method של ה-HTTP וכתובת ה-URL:
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations/EVALUATION_ID/slices/SLICE_ID
כדי לשלוח את הבקשה אתם צריכים לבחור אחת מהאפשרויות הבאות:
curl
מריצים את הפקודה הבאה:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations/EVALUATION_ID/slices/SLICE_ID"
PowerShell
מריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID/evaluations/EVALUATION_ID/slices/SLICE_ID" | Select-Object -Expand Content
אתם אמורים לקבל תגובת JSON שדומה לזו:
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Agent Platform Java API.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במאמר מדריך למתחילים של Agent Platform באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Agent Platform Node.js API.
כדי לבצע אימות ב-Agent Platform, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
ביצוע איטרציות על המודל
מדדי הערכת המודל מספקים נקודת התחלה לניפוי באגים במודל, אם המודל לא עומד בציפיות שלכם. לדוגמה, ציוני דיוק וזיכרון נמוכים יכולים להצביע על כך שהמודל צריך נתוני אימון נוספים או שיש לו תוויות לא עקביות. דיוק ורגישות מושלמים יכולים להצביע על כך שקל מדי לחזות את נתוני הבדיקה, ושהם לא בהכרח יתאימו לשימוש כללי.
אפשר לחזור על תהליך האימון של נתוני האימון וליצור מודל חדש. אחרי שיוצרים מודל חדש, אפשר להשוות בין מדדי ההערכה של המודל הקיים לבין המודל החדש.
ההצעות הבאות יכולות לעזור לכם לשפר מודלים שמסווגים פריטים, כמו מודלים של זיהוי אובייקטים או מודלים של זיהוי:
- כדאי להוסיף עוד דוגמאות או מגוון רחב יותר של דוגמאות לנתוני האימון. לדוגמה, במודל לזיהוי אובייקטים בתמונות, אפשר לכלול תמונות עם זווית רחבה יותר, תמונות ברזולוציה גבוהה או נמוכה יותר או תמונות מנקודות מבט שונות. הנחיות נוספות זמינות במאמר בנושא הכנת נתונים.
- מומלץ להסיר סיווגים או תוויות שאין להם הרבה דוגמאות. דוגמאות לא מספיקות מונעות מהמודל ליצור תחזיות לגבי הסיווגים או התוויות האלה באופן עקבי ובביטחון.
- מכונות לא יכולות לפרש את השם של הכיתות או התוויות, והן לא מבינות את ההבדלים הדקים ביניהן, כמו 'דלת' ו-'דלת עם ידית'. צריך לספק נתונים כדי לעזור למכונות לזהות ניואנסים כאלה.
- כדי לצמצם את הבלבול במודל, כדאי להוסיף לנתונים עוד דוגמאות של חיוביים אמיתיים ושליליים אמיתיים, במיוחד דוגמאות שקרובות לגבול ההחלטה.
- מציינים את חלוקת הנתונים הרצויה (אימון, אימות ובדיקה). פלטפורמת הסוכן מקצה פריטים לכל קבוצה באופן אקראי. לכן, יכול להיות שפריטים כמעט זהים יוקצו לקבוצות האימון והאימות, מה שעלול להוביל להתאמת יתר (overfitting) ואז לביצועים נמוכים בקבוצת הבדיקה. מידע נוסף על הגדרת חלוקת נתונים משלכם זמין במאמר מידע על חלוקת נתונים למודלים של AutoML.
- אם מדדי ההערכה של המודל כוללים מטריצת בלבול, תוכלו לראות אם המודל מבלבל בין שתי תוויות, כלומר אם המודל מנבא תוויות מסוימות באופן משמעותי יותר מהתוויות האמיתיות. בודקים את הנתונים ומוודאים שהדוגמאות מסומנות בצורה נכונה.
- אם זמן האימון היה קצר (מספר שעות הצומת המקסימלי היה נמוך), יכול להיות שתקבלו מודל באיכות גבוהה יותר אם תאפשרו לו להתאמן במשך תקופה ארוכה יותר (מספר שעות הצומת המקסימלי יהיה גבוה יותר).