Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

סקירה כללית על שירות הערכה של AI גנרטיבי

שירות ההערכה של AI גנרטיבי מספק כלים ברמת הארגון להערכה אובייקטיבית ומבוססת-נתונים של מודלים של AI גנרטיבי. הוא תומך במגוון משימות פיתוח כמו העברת מודלים, עריכת הנחיות ושיפור מודלים, ומספק מידע לגביהן.

תכונות של שירות הערכת AI גנרטיבי

התכונה המרכזית של שירות ההערכה של AI גנרטיבי היא היכולת להשתמש בקריטריונים להערכה אדפטיביים, שהם קבוצה של בדיקות מותאמות אישית להצלחה או לכישלון של כל הנחיה בנפרד. קריטריונים להערכה דומים לבדיקות יחידה בפיתוח תוכנה, והמטרה שלהם היא לשפר את ביצועי המודל במגוון משימות.

תכונות של שירות הערכת AI גנרטיבי

שירות ההערכה של AI גנרטיבי תומך בשיטות ההערכה הנפוצות הבאות:

קריטריונים להערכה דינמיים (מומלץ): יצירת קבוצה ייחודית של קריטריונים להערכה עם תוצאות עובר/נכשל לכל הנחיה במערך הנתונים.
קריטריונים סטטיים: קבוצה קבועה של קריטריונים להערכה שחלה על כל ההנחיות.
השוואות מבוססות-מחשוב: כשנתוני האמת זמינים, כדאי להשתמש באלגוריתמים דטרמיניסטיים כמו ROUGE או BLEU.
פונקציות בהתאמה אישית: אפשר להגדיר לוגיקת הערכה משלכם ב-Python לדרישות מיוחדות.

יצירת מערך נתונים להערכה

אפשר ליצור מערך נתונים להערכה בדרכים הבאות:

מעלים קובץ שמכיל מקרים מלאים של הנחיות, או מספקים תבנית הנחיה לצד קובץ תואם של ערכי משתנים לאכלוס ההנחיות המלאות.
דוגמים ישירות מיומני הייצור כדי להעריך את השימוש במודל בעולם האמיתי.
שימוש ביצירת נתונים סינתטיים כדי ליצור מספר גדול של דוגמאות עקביות לכל תבנית של הנחיה.

ממשקים נתמכים

אפשר להגדיר ולהריץ את ההערכות באמצעות הממשקים הבאים:

Google Cloud המסוף: ממשק משתמש מבוסס-אינטרנט שמספק תהליך עבודה מפורט ואינטראקטיבי. ניהול מערכי נתונים, הפעלת הערכות והתעמקות בדוחות ובהמחשות אינטראקטיביים. איך מבצעים הערכה באמצעות המסוף
‫Python SDK: הפעלת הערכות באופן פרוגרמטי והצגת השוואות בין מודלים זו לצד זו ישירות בסביבת Colab או Jupyter. איך מבצעים הערכה באמצעות GenAI Client ב-Agent Platform SDK

תרחישים לדוגמה

שירות ההערכה של AI גנרטיבי מאפשר לכם לראות את הביצועים של מודל מסוים במשימות הספציפיות שלכם ובהשוואה לקריטריונים הייחודיים שלכם. כך תוכלו לקבל תובנות חשובות שלא ניתן להסיק מטבלאות השוואה ציבוריות ומנקודות השוואה כלליות. השירות הזה תומך במשימות פיתוח קריטיות, כולל:

העברות מודלים: השוואה בין גרסאות של מודלים כדי להבין את ההבדלים בהתנהגות, ולשפר את ההנחיות וההגדרות בהתאם.
מציאת המודל הטוב ביותר: מריצים השוואות ישירות בין מודלים של Google ומודלים של צד שלישי על הנתונים שלכם כדי ליצור בסיס להשוואה ולזהות את המודל שהכי מתאים לתרחיש השימוש שלכם.
שיפור ההנחיות: תוצאות ההערכה יכולות לעזור לכם להתאים אישית את ההנחיות. הרצה חוזרת של הערכה יוצרת לולאת משוב הדוקה, ומספקת משוב מיידי וכמותי על השינויים שביצעתם.
כוונון עדין של מודל: כדי להעריך את האיכות של מודל שעבר כוונון עדין, צריך להחיל קריטריוני הערכה עקביים על כל הרצה.
הערכת סוכן: הערכת הביצועים של סוכן באמצעות מדדים ספציפיים לסוכן, כמו עקבות סוכן ואיכות התגובה.

תהליך העבודה של ההערכה

כדי להשלים את תהליך הבדיקה, בדרך כלל צריך לבצע את השלבים הבאים:

יצירת מערך נתונים להערכה: יוצרים מערך נתונים של מקרים של הנחיות שמשקפים את תרחיש השימוש הספציפי שלכם. אם אתם מתכננים להשתמש במדדים שמבוססים על חישובים, אתם יכולים לכלול תשובות להשוואה (ground truth).
הגדרת מדדי הערכה: בוחרים את המדדים שבהם רוצים להשתמש כדי למדוד את ביצועי המודל.
יצירת תשובות של מודל: בוחרים מודל אחד או יותר כדי ליצור תשובות למערך הנתונים. ה-SDK של Agent Platform תומך בכל מודל שאפשר להפעיל דרך LiteLLM, ואילו המסוף תומך במודלים של Google Gemini.
מריצים את ההערכה: מריצים את משימת ההערכה, שבודקת את התשובות של כל מודל בהשוואה למדדים שבחרתם.
פירוש התוצאות: בודקים את הציונים המצטברים ואת התשובות הספציפיות כדי לנתח את הביצועים של המודל.

מדדי הערכה

אלה מושגי ליבה שקשורים למדדי הערכה:

קריטריונים להערכה: הקריטריונים להערכת התשובה של מודל LLM או אפליקציה.
מדדים: ציון שמודד את פלט המודל בהשוואה לקריטריונים של הדירוג.

שירות ההערכה של AI גנרטיבי מציע את הקטגוריות הבאות של מדדים:

מדדים מבוססי-קריטריונים: שילוב של מודלים גדולים של שפה (LLM) בתהליכי עבודה של הערכה כדי לבדוק את האיכות של התשובות של המודל. הערכות מבוססות-קריטריונים מתאימות למגוון משימות, במיוחד לאיכות הכתיבה, לבטיחות ולציות להוראות, שלעתים קרובות קשה להעריך אותן באמצעות אלגוריתמים דטרמיניסטיים.
- קריטריונים להערכה דינמיים (מומלץ): קריטריונים להערכה נוצרים באופן דינמי לכל הנחיה, כמו בדיקות יחידה. התשובות מוערכות באמצעות קבוצה ייחודית של בדיקות שעוברות או נכשלות לכל הנחיה בנפרד במערך הנתונים. הקריטריונים להערכה שומרים על הרלוונטיות של ההערכה למשימה המבוקשת, ומטרתם לספק תוצאות אובייקטיביות, עקביות וקלות להסבר.
  
  בדרך כלל, השימוש בקריטריונים דינמיים הוא הדרך המהירה ביותר להתחיל בתהליך ההערכה, וכך לוודא שכל הערכה רלוונטית למשימה הספציפית שנבדקת.
- קריטריונים סטטיים: הקריטריונים מוגדרים באופן מפורש ואותם קריטריונים חלים על כל ההנחיות. התשובות נבדקות באמצעות אותה קבוצה של בודקים מספריים שמבוססים על ניקוד. ציון מספרי יחיד (למשל 1-5) לכל הנחיה. כדאי להשתמש בקריטריונים סטטיים להערכה כשנדרשת הערכה של מימד ספציפי מאוד או כשנדרש אותו קריטריון בדיוק בכל ההנחיות.
מדדים מבוססי-חישוב: הערכת התשובות באמצעות אלגוריתמים דטרמיניסטיים, בדרך כלל באמצעות נתוני אמת. ציון מספרי (למשל 0.0 עד 1.0) לכל הנחיה. כשיש נתוני אמת שאפשר להתאים לשיטה דטרמיניסטית.
מדדים של פונקציות בהתאמה אישית (רק ב-Agent Platform SDK): אפשר להגדיר מדד משלכם באמצעות פונקציית Python.

דוגמה לקריטריונים מותאמים

תהליך ההערכה של כל הנחיה מתבצע באמצעות מערכת דו-שלבית:

יצירת קריטריונים להערכה: השירות מנתח קודם את ההנחיה שלכם ויוצר רשימה של בדיקות ספציפיות שניתנות לאימות – הקריטריונים להערכה – שהתשובה הטובה צריכה לעמוד בהן.
אימות קריטריונים להערכה: אחרי שהמודל יוצר תשובה, השירות מעריך את התשובה לפי כל קריטריון להערכה, ומספק פסיקה ברורה של Pass או Fail ונימוק.

התוצאה הסופית היא שיעור הצלחה מצטבר ופירוט של הקריטריונים שהמודל עמד בהם. כך תוכלו לקבל תובנות פרקטיות לאבחון בעיות ולמדידת שיפורים.

המעבר מניקוד סובייקטיבי ברמה גבוהה לתוצאות בדיקה אובייקטיביות ומפורטות מאפשר לכם לאמץ מחזור פיתוח מבוסס-הערכה ולהחיל את השיטות המומלצות של הנדסת תוכנה על תהליך בניית אפליקציות AI גנרטיבי.

בדוגמה הבאה מוצגות דוגמאות לקריטריוני הערכה דינמיים שנוצרו עבור קבוצה של הנחיות:

הנחיית משתמש: Write a four-sentence summary of the provided article about renewable energy, maintaining an optimistic tone.

בהנחיה הזו, בשלב יצירת קריטריון הערכה יכולים להיווצר קריטריוני ההערכה הבאים:

קריטריון הערכה 1: התשובה היא סיכום של המאמר שסופק.
קריטריון הערכה 2: התשובה מכילה בדיוק ארבעה משפטים.
קריטריון הערכה 3: התשובה שומרת על טון אופטימי.

יכול להיות שהמודל יפיק את התשובה הבאה: The article highlights significant growth in solar and wind power. These advancements are making clean energy more affordable. The future looks bright for renewables. However, the report also notes challenges with grid infrastructure.

במהלך אימות הקריטריונים, שירות ההערכה של ה-AI הגנרטיבי מעריך את התשובה לפי כל קריטריון:

קריטריון הערכה 1: התשובה היא סיכום של המאמר שסופק.
- פסק דין: Pass
- הסיבה: התשובה מסכמת בצורה מדויקת את הנקודות העיקריות.
קריטריון הערכה 2: התשובה מכילה בדיוק ארבעה משפטים.
- פסק דין: Pass
- הסיבה: התשובה מורכבת מארבעה משפטים שונים
קריטריון הערכה 3: התשובה שומרת על טון אופטימי.
- פסק דין: Fail
- הסיבה: המשפט האחרון מציג נקודה שלילית, שפוגעת בנימה האופטימית.

שיעור ההצלחה הסופי של התשובה הזו הוא 66.7%. כדי להשוות בין שני מודלים, אפשר להעריך את התגובות שלהם בהשוואה לאותה קבוצה של בדיקות שנוצרו ולהשוות בין שיעורי ההצלחה הכוללים שלהם.

איך מתחילים להשתמש בהערכות

אפשר להתחיל להשתמש בהערכות באמצעות המסוף.

לחלופין, הקוד הבא מראה איך להשלים הערכה באמצעות GenAI Client ב-Agent Platform SDK:

from vertexai import Client
from vertexai import types
import pandas as pd

client = Client(project=PROJECT_ID, location=LOCATION)

# Create an evaluation dataset
prompts_df = pd.DataFrame({
    "prompt": [
        "Write a simple story about a dinosaur",
        "Generate a poem about Agent Platform",
    ],
})

# Get responses from one or multiple models
eval_dataset = client.evals.run_inference(model="gemini-2.5-flash", src=prompts_df)

# Define the evaluation metrics and run the evaluation job
eval_result = client.evals.evaluate(
    dataset=eval_dataset,
    metrics=[types.RubricMetric.GENERAL_QUALITY]
)

# View the evaluation results
eval_result.show()

שירות ההערכה של AI גנרטיבי מציע שני ממשקי Agent Platform SDK:

לקוח GenAI ב-Agent Platform SDK (מומלץ) (גרסת טרום-השקה)

from vertexai import client

ממשק הלקוח של ה-AI הגנרטיבי הוא הממשק החדש יותר והמומלץ להערכה. אפשר לגשת אליו דרך מחלקת הלקוח המאוחדת. הוא תומך בכל שיטות ההערכה ומיועד לתהליכי עבודה שכוללים השוואה בין מודלים, הדמיה במחברת ותובנות להתאמה אישית של מודלים.
מודול הערכה ב-Agent Platform SDK (זמינות כללית)

from vertexai.evaluation import EvalTask

מודול ההערכה הוא ממשק ישן יותר, שמתחזקים אותו כדי לשמור על תאימות לאחור עם תהליכי עבודה קיימים, אבל הוא כבר לא נמצא בפיתוח פעיל. אפשר לגשת אליו דרך המחלקה EvalTask. השיטה הזו תומכת במדדים סטנדרטיים של LLM כשופט ובמדדים מבוססי-חישוב, אבל היא לא תומכת בשיטות הערכה חדשות יותר כמו רובריקות אדפטיביות.

אזורים נתמכים

האזורים הבאים נתמכים בשירות ההערכה של AI גנרטיבי:

איווה (us-central1)
קרוליינה הדרומית (us-east1)
צפון וירג'יניה (us-east4)
קולומבוס, אוהיו (us-east5)
דאלאס, טקסס (us-south1)
אורגון (us-west1)
לאס וגאס, נבאדה (us-west4)
ורשה, פולין (europe-central2)
פינלנד (europe-north1)
מדריד, ספרד (europe-southwest1)
בלגיה (europe-west1)
הולנד (europe-west4)
מילאנו, איטליה (europe-west8)
פריז, צרפת (europe-west9)
גלובלי (global)

תיקיות Notebook זמינות

קישורים ל-notebook	תיאור
תחילת העבודה: הערכה מהירה של AI גנרטיבי	מבוא לשירות ההערכה של AI גנרטיבי.
הערכת מודלים של צד שלישי באמצעות שירות ההערכה של AI גנרטיבי	ב-Codelab הזה נדגים איך להשתמש ב-Agent Platform SDK כדי להעריך סוגים שונים של מודלים של צד שלישי, כולל מודלים שאפשר לגשת אליהם באמצעות API (כמו OpenAI,‏ Anthropic), מודל כשירות (MaaS) מ-Vertex Model Garden ונקודות קצה של Bring Your Own Model (BYOM).
העברת מודלים באמצעות שירות ההערכה של AI גנרטיבי	המאמר הזה מסביר איך להשתמש ב-Agent Platform SDK בשביל שירות ההערכה של AI גנרטיבי כדי להשוות בין שני מודלים של צד ראשון (כמו Gemini 2.0 Flash ו-Gemini 2.5 Flash). המאמר מתמקד בשימוש במדדים מוגדרים מראש שמבוססים על קריטריונים גמישים, ומסביר איך תוצאות ההערכה יכולות לעזור באופטימיזציה של ההנחיות. בנוסף, מוסברות תכונות מרכזיות כמו הערכה של כמה מועמדים, ויזואליזציה בתוך המחברת והערכה אסינכרונית של קבוצות.
הערכת האיכות של יצירת תמונות לפי טקסט באמצעות שירות ההערכה של AI גנרטיבי	בשיעור הזה נדגים איך להשתמש ב-Vertex AI SDK לשירות הערכת AI גנרטיבי כדי להעריך את איכות התמונות שנוצרו על סמך הנחיות טקסטואליות. נדגים שימוש במדד Gecko המוגדר מראש שמבוסס על קריטריונים להערכה.
הערכת האיכות של סרטונים שנוצרו מטקסט באמצעות שירות ההערכה של AI גנרטיבי	במאמר הזה נסביר איך להשתמש ב-Agent Platform SDK בשביל שירות ההערכה של AI גנרטיבי כדי להעריך את האיכות של סרטונים שנוצרו על סמך הנחיות טקסטואליות. הוא מדגים שימוש במדד Gecko מוגדר מראש שמבוסס על קריטריונים להערכה שניתנים להתאמה.

סקירה כללית על שירות הערכה של AI גנרטיבי קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

תכונות של שירות הערכת AI גנרטיבי

יצירת מערך נתונים להערכה

ממשקים נתמכים

תרחישים לדוגמה

תהליך העבודה של ההערכה

מדדי הערכה

דוגמה לקריטריונים מותאמים

איך מתחילים להשתמש בהערכות

אזורים נתמכים

תיקיות Notebook זמינות

המאמרים הבאים

סקירה כללית על שירות הערכה של AI גנרטיבי