סקירה כללית על שירות הערכה של AI גנרטיבי

שירות ההערכה של AI גנרטיבי מספק כלים ברמה שמתאימה לארגונים להערכה אובייקטיבית של מודלים של AI גנרטיבי שמבוססת על נתונים. הוא תומך במגוון משימות פיתוח כמו העברת מודלים, עריכת הנחיות ושיפור מודלים, ומספק מידע לגביהן.

תכונות של שירות הערכת AI גנרטיבי

התכונה המרכזית של שירות ההערכה של AI גנרטיבי היא האפשרות להשתמש בקריטריונים דינמיים, שהם קבוצה של בדיקות מותאמות אישית לכל הנחיה, שקובעות אם ההנחיה עומדת בדרישות או לא. קריטריוני הערכה דומים לבדיקות יחידה בפיתוח תוכנה, והמטרה שלהם היא לשפר את ביצועי המודל במגוון משימות.

תכונות של שירות הערכת AI גנרטיבי

שירות ההערכה של AI גנרטיבי תומך בשיטות ההערכה הנפוצות הבאות:

  • קריטריונים להערכה דינמיים (מומלץ): המערכת יוצרת קבוצה ייחודית של קריטריונים להערכה עם ציון עובר או נכשל לכל הנחיה בנפרד במערך הנתונים.

  • קריטריוני הערכה סטטיים: אפשר להחיל קבוצה קבועה של קריטריונים למתן ציונים על כל ההנחיות.

  • השוואות מבוססות-מחשוב: כשנתוני האמת זמינים, אפשר להשתמש באלגוריתמים דטרמיניסטיים כמו ROUGE או BLEU.

  • פונקציות בהתאמה אישית: אפשר להגדיר לוגיקת הערכה משלכם ב-Python לדרישות מיוחדות.

יצירת מערך נתונים להערכה

אפשר ליצור מערך נתוני הערכה בשיטות הבאות:

  • מעלים קובץ שמכיל מקרים מלאים של הנחיות, או מספקים תבנית הנחיה לצד קובץ תואם של ערכי משתנים לאכלוס ההנחיות המלאות.

  • דוגמים ישירות מיומני הייצור כדי להעריך את השימוש במודל בפועל.

  • שימוש ביצירת נתונים סינתטיים כדי ליצור מספר גדול של דוגמאות עקביות לכל תבנית של הנחיה.

ממשקים נתמכים

אפשר להגדיר ולהריץ את ההערכות באמצעות הממשקים הבאים:

תרחישים לדוגמה

שירות ההערכה של AI גנרטיבי מאפשר לכם לראות את הביצועים של מודל במשימות הספציפיות שלכם ובהשוואה לקריטריונים הייחודיים שלכם. כך תוכלו לקבל תובנות חשובות שלא ניתן להסיק מטבלאות השוואה ציבוריות וממדדים כלליים. התכונה הזו תומכת במשימות פיתוח קריטיות, כולל:

  • העברות מודלים: השוואה בין גרסאות של מודלים כדי להבין את ההבדלים בהתנהגות ולשפר את ההנחיות וההגדרות בהתאם.

  • מציאת המודל הטוב ביותר: מריצים השוואות ישירות בין מודלים של Google לבין מודלים של צד שלישי על הנתונים שלכם כדי ליצור בסיס להשוואת ביצועים ולזהות את המודל שהכי מתאים לתרחיש השימוש שלכם.

  • שיפור ההנחיות: תוצאות ההערכה יכולות לעזור לכם להתאים אישית את ההנחיות. הרצה חוזרת של הערכה יוצרת לולאת משוב הדוקה, ומספקת משוב מיידי וכמותי על השינויים שביצעתם.

  • כוונון עדין של מודל: כדי להעריך את האיכות של מודל שעבר כוונון עדין, צריך להחיל קריטריוני הערכה עקביים על כל הרצה.

  • הערכת סוכן: הערכת הביצועים של סוכן באמצעות מדדים ספציפיים לסוכן, כמו עקבות של סוכן ואיכות התגובה.

תהליך העבודה של ההערכה

כדי להשלים את תהליך הבדיקה, בדרך כלל צריך לבצע את השלבים הבאים:

  • יצירת מערך נתונים להערכה: יוצרים מערך נתונים של מקרים של הנחיות שמשקפים את תרחיש השימוש הספציפי שלכם. אם אתם מתכננים להשתמש בהשוואות מבוססות-מחשוב, אתם יכולים לכלול תשובות להשוואה (ground truth).

  • הגדרת מדדי הערכה: בוחרים את המדדים שבהם רוצים להשתמש כדי למדוד את ביצועי המודל.

  • יצירת תשובות של המודל: בוחרים מודל אחד או יותר כדי ליצור תשובות למערך הנתונים. ערכת ה-SDK תומכת בכל מודל שאפשר להפעיל דרך LiteLLM, ואילו המסוף תומך במודלים של Google Gemini.

  • מריצים את ההערכה: מריצים את משימת ההערכה, שבודקת את התשובות של כל מודל בהשוואה למדדים שבחרתם.

  • פירוש התוצאות: בודקים את הציונים המצטברים ואת התשובות הבודדות כדי לנתח את ביצועי המודל.

מדדי הערכה

אלה מושגי ליבה שקשורים למדדי הערכה:

  • קריטריונים להערכה: הקריטריונים להערכת התשובה של מודל LLM או אפליקציה.

  • מדדים: ציון שמודד את פלט המודל בהשוואה לקריטריונים של דירוג.

שירות ההערכה של AI גנרטיבי מציע את הקטגוריות הבאות של מדדים:

  • מדדים מבוססי-קריטריונים: שילוב של מודלים גדולים של שפה (LLM) בתהליכי הערכה כדי לבדוק את איכות התשובות של המודל. הערכות שמבוססות על קריטריונים מתאימות למגוון משימות, במיוחד לבדיקת איכות הכתיבה, הבטיחות והיכולת לפעול לפי הוראות, שקשה להעריך באמצעות אלגוריתמים דטרמיניסטיים.

    • קריטריונים דינמיים (מומלץ): קריטריונים נוצרים באופן דינמי לכל הנחיה, כמו בדיקות יחידה. התגובות נבדקות באמצעות קבוצה ייחודית של בדיקות הצלחה או כישלון לכל הנחיה בנפרד במערך הנתונים. הקריטריונים האלה עוזרים לשמור על הרלוונטיות של ההערכה למשימה המבוקשת, ומטרתם היא לספק תוצאות אובייקטיביות, מוסברות ועקביות.

      בדרך כלל, השימוש בקריטריונים דינמיים הוא הדרך המהירה ביותר להתחיל בתהליך ההערכה, וכך לוודא שכל הערכה רלוונטית למשימה הספציפית שנבדקת.

    • קריטריונים סטטיים: הקריטריונים מוגדרים באופן מפורש ואותו קריטריון חל על כל ההנחיות. התשובות נבדקות באמצעות אותה קבוצה של בודקים מספריים שמבוססים על ניקוד. ציון מספרי יחיד (למשל 1-5) לכל הנחיה. כדאי להשתמש בקריטריונים סטטיים להערכה כשנדרשת הערכה של מימד ספציפי מאוד או כשנדרש אותו קריטריון בדיוק בכל ההנחיות.

  • השוואות מבוססות-מחשוב: הערכת התשובות באמצעות אלגוריתמים דטרמיניסטיים, בדרך כלל באמצעות נתוני אמת. ציון מספרי (למשל 0.0 עד 1.0) לכל הנחיה. כשיש נתוני אמת שאפשר להתאים לשיטה דטרמיניסטית.

  • מדדים של פונקציות בהתאמה אישית (SDK בלבד): אפשר להגדיר מדד משלכם באמצעות פונקציית Python.

דוגמה לקריטריונים מותאמים

תהליך ההערכה של כל הנחיה מתבצע באמצעות מערכת דו-שלבית:

  1. יצירת קריטריונים להערכה: השירות מנתח קודם את ההנחיה שלכם ומייצר רשימה של בדיקות ספציפיות שניתנות לאימות – הקריטריונים להערכה – שתשובה טובה צריכה לעמוד בהן.

  2. אימות קריטריון הערכה: אחרי שהמודל יוצר תשובה, השירות מעריך את התשובה לפי כל קריטריון הערכה ומספק פסיקה ברורה של Pass או Fail ונימוק.

התוצאה הסופית היא שיעור ההצלחה המצטבר ופירוט של הקריטריונים שהמודל עמד בהם. כך תוכלו לקבל תובנות מעשיות שיעזרו לכם לאבחן בעיות ולמדוד שיפורים.

המעבר מניקוד סובייקטיבי ברמה גבוהה לתוצאות בדיקה אובייקטיביות ומפורטות מאפשר לכם לאמץ מחזור פיתוח מבוסס-הערכה ולהחיל את השיטות המומלצות של הנדסת תוכנה על תהליך בניית אפליקציות AI גנרטיבי.

בדוגמה הבאה מוצגות דוגמאות לקריטריוני הערכה דינמיים שנוצרו עבור קבוצה של הנחיות:

הנחיה למשתמש: Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.

עבור ההנחיה הזו, בשלב יצירת קריטריון הערכה יכולים להיווצר קריטריוני ההערכה הבאים:

  • קריטריון 1: התשובה היא סיכום של המאמר שסופק.

  • קריטריון הערכה 2: התשובה מכילה בדיוק ארבעה משפטים.

  • קריטריון הערכה 3: התשובה שומרת על טון אופטימי.

יכול להיות שהמודל יפיק את התשובה הבאה: The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.

במהלך אימות קריטריון ההערכה, שירות ההערכה של ה-AI הגנרטיבי מעריך את התשובה לפי כל קריטריון הערכה:

  • קריטריון 1: התשובה היא סיכום של המאמר שסופק.

    • פסק דין: Pass

    • הסיבה: התשובה מסכמת בצורה מדויקת את הנקודות העיקריות.

  • קריטריון הערכה 2: התשובה מכילה בדיוק ארבעה משפטים.

    • פסק דין: Pass

    • הסיבה: התשובה מורכבת מארבעה משפטים שונים

  • קריטריון הערכה 3: התשובה שומרת על טון אופטימי.

    • פסק דין: Fail

    • הסיבה: המשפט האחרון מציג נקודה שלילית, שפוגעת בנימה האופטימית.

שיעור ההצלחה הסופי של התשובה הזו הוא 66.7%. כדי להשוות בין שני מודלים, אפשר להעריך את התגובות שלהם בהשוואה לאותה קבוצה של בדיקות שנוצרו ולהשוות בין שיעורי ההצלחה הכוללים שלהם.

איך מתחילים להשתמש בהערכות

אפשר להתחיל להשתמש בהערכות באמצעות המסוף.

לחלופין, הקוד הבא מראה איך להשלים הערכה באמצעות GenAI Client ב-Vertex AI SDK:

from vertexai import Client
from vertexai import types
import pandas as pd

client = Client(project=PROJECT_ID, location=LOCATION)

# Create an evaluation dataset
prompts_df = pd.DataFrame({
    "prompt": [
        "Write a simple story about a dinosaur",
        "Generate a poem about Vertex AI",
    ],
})

# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)

# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.RubricMetric.GENERAL_QUALITY]
)

# View the evaluation results
eval_result.show()

שירות ההערכה של AI גנרטיבי מציע שני ממשקי SDK:

  • לקוח GenAI ב-Vertex AI SDK (מומלץ) (גרסת טרום-השקה)

    from vertexai import client

    ממשק הלקוח של ה-AI הגנרטיבי הוא הממשק החדש והמומלץ להערכה, שאפשר לגשת אליו דרך מחלקת הלקוח המאוחדת. הוא תומך בכל שיטות ההערכה ומיועד לתהליכי עבודה שכוללים השוואת מודלים, הדמיה ב-Notebook ותובנות להתאמה אישית של מודלים.

  • מודול הערכה ב-Vertex AI SDK (זמינות כללית)

    from vertexai.evaluation import EvalTask

    מודול ההערכה הוא ממשק ישן יותר, שמתחזקים אותו כדי לשמור על תאימות לאחור עם תהליכי עבודה קיימים, אבל הוא כבר לא נמצא בפיתוח פעיל. הגישה אליו היא דרך הכיתה EvalTask. השיטה הזו תומכת במדדים סטנדרטיים של LLM כשופט ובהשוואות מבוססות-מחשוב, אבל היא לא תומכת בשיטות חדשות יותר להערכה, כמו קריטריונים להערכה שמותאמים באופן דינמי.

אזורים נתמכים

האזורים הבאים נתמכים בשירות ההערכה של AI גנרטיבי:

  • איווה (us-central1)

  • צפון וירג'יניה (us-east4)

  • אורגון (us-west1)

  • לאס וגאס, נבדה (us-west4)

  • בלגיה (europe-west1)

  • הולנד (europe-west4)

  • פריז, צרפת (europe-west9)

תיקיות Notebook זמינות

קישורים ל-notebook תיאור
תחילת העבודה: הערכה מהירה של AI גנרטיבי מבוא לשירות ההערכה של AI גנרטיבי.
הערכת מודלים של צד שלישי באמצעות שירות ההערכה של AI גנרטיבי המאמר הזה מראה איך להשתמש ב-Vertex Gen AI Evaluation SDK כדי להעריך סוגים שונים של מודלים של צד שלישי, כולל מודלים שאפשר לגשת אליהם באמצעות API (כמו OpenAI,‏ Anthropic), מודל כשירות (MaaS) מ-Vertex Model Garden ונקודות קצה של Bring Your Own Model (BYOM).
העברת מודלים באמצעות שירות ההערכה של AI גנרטיבי במאמר הזה מוסבר איך להשתמש ב-Vertex AI SDK לשירות הערכת AI גנרטיבי כדי להשוות בין שני מודלים של צד ראשון (למשל Gemini 2.0 Flash ו-Gemini 2.5 Flash). המאמר מתמקד בשימוש במדדים מוגדרים מראש שמבוססים על קריטריונים דינמיים, ומסביר איך תוצאות ההערכה יכולות לעזור באופטימיזציה של ההנחיות. בנוסף, נסביר על תכונות מרכזיות כמו הערכה של כמה מועמדים, ויזואליזציה בתוך המחברת והערכה אסינכרונית של קבוצות.
הערכת האיכות של יצירת תמונות לפי טקסט באמצעות שירות ההערכה של AI גנרטיבי במאמר הזה מוסבר איך להשתמש ב-Vertex AI SDK לשירות הערכת AI גנרטיבי כדי להעריך את האיכות של תמונות שנוצרו על סמך הנחיות טקסט. ההדגמה מתבססת על מדד Gecko מוגדר מראש שמתאים לשימוש עם קריטריון הערכה דינמי.
הערכת האיכות של סרטונים שנוצרו מטקסט באמצעות שירות ההערכה של AI גנרטיבי במאמר הזה מוסבר איך להשתמש ב-Vertex AI SDK לשירות הערכת AI גנרטיבי כדי להעריך את האיכות של סרטונים שנוצרו על סמך הנחיות טקסט. ההדגמה מתבססת על מדד Gecko מוגדר מראש שמתאים לשימוש עם קריטריון הערכה דינמי.

המאמרים הבאים