שירות ההערכה של AI גנרטיבי מאפשר לכם להעריך את המודלים הגדולים של השפה (LLM) שלכם לפי כמה מדדים עם קריטריונים משלכם. אתם יכולים לספק קלט בזמן ההסקה, תשובות של מודל שפה גדול ופרמטרים נוספים, ושירות ההערכה של ה-AI הגנרטיבי מחזיר מדדים שספציפיים למשימת ההערכה.
המדדים כוללים מדדים מבוססי-מודל, כמו PointwiseMetric ו-PairwiseMetric, ומדדים מחושבים בזיכרון, כמו rouge, bleu ומדדים של קריאות לפונקציות של כלים.
PointwiseMetric ו-PairwiseMetric הם מדדים כלליים שמבוססים על מודלים, שאפשר להתאים אישית באמצעות קריטריונים משלכם.
השירות מקבל את תוצאות החיזוי ישירות מהמודלים כקלט, ולכן שירות ההערכה יכול לבצע הן הסקה והן הערכה לאחר מכן בכל המודלים שנתמכים על ידי Vertex AI.
מידע נוסף על הערכת מודל זמין במאמר סקירה כללית על שירות הערכת ה-AI הגנרטיבי.
מגבלות
אלה המגבלות של שירות ההערכה:
- יכול להיות שיהיה עיכוב בהפצה של שירות ההערכה בשיחה הראשונה.
- רוב המדדים שמבוססים על מודלים צורכים תפוקה של Gemini 2.5 Flash, כי שירות ההערכה של ה-AI הגנרטיבי משתמש ב-
gemini-2.5-flashכמודל השופט הבסיסי כדי לחשב את המדדים האלה שמבוססים על מודלים. - חלק מהמדדים שמבוססים על מודלים, כמו MetricX ו-COMET, משתמשים במודלים שונים של למידת מכונה, ולכן הם לא צורכים את מגבלת התפוקה של Gemini.
תחביר לדוגמה
תחביר לשליחת בקשה לשיחת הערכה.
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances \ -d '{ "pointwise_metric_input" : { "metric_spec" : { ... }, "instance": { ... }, } }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { ... } uri = f'https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
רשימת פרמטרים
| פרמטרים | |
|---|---|
|
קלט להערכה אם התחזית תואמת בדיוק להפניה. |
|
קלט לחישוב ציון BLEU על ידי השוואת החיזוי לנתוני ההשוואה. |
|
הנתונים שמוזנים לחישוב הציונים |
|
קלט להערכת רמת השליטה בשפה של תגובה יחידה. |
|
קלט להערכת היכולת של תשובה יחידה לספק תגובה עקבית וקלה להבנה. |
|
קלט להערכת רמת הבטיחות של תשובה יחידה. |
|
קלט להערכת היכולת של תשובה יחידה לספק מידע שכלול רק בטקסט הקלט או להפנות אליו. |
|
קלט להערכת היכולת של תשובה יחידה למלא את ההוראות באופן מלא. |
|
קלט להערכת היכולת הכוללת של תשובה אחת לסכם טקסט. |
|
קלט להשוואה בין האיכות הכוללת של סיכום שתי תשובות. |
|
קלט להערכת היכולת של תשובה יחידה לספק סיכום, שמכיל את הפרטים הנדרשים כדי להחליף את הטקסט המקורי. |
|
קלט להערכת היכולת של תשובה אחת לספק סיכום תמציתי. |
|
קלט להערכת היכולת הכוללת של תשובה יחידה לענות על שאלות, בהינתן גוף טקסט להפניה. |
|
קלט להשוואה בין היכולת הכוללת של שתי תשובות לענות על שאלות, בהינתן גוף טקסט להפניה. |
|
קלט להערכת היכולת של תשובה יחידה לספק מידע רלוונטי כשנשאלת שאלה. |
|
קלט להערכת היכולת של תשובה יחידה לספק פרטים חשובים כשעונים על שאלה. |
|
קלט להערכת היכולת של תשובה יחידה לענות על שאלה בצורה נכונה. |
|
קלט להערכה כללית של נקודות ספציפיות. |
|
קלט להערכה כללית של זוגות. |
|
קלט להערכת היכולת של תשובה יחידה לחזות קריאה תקפה לכלי. |
|
קלט להערכת היכולת של תשובה יחידה לחזות קריאה לכלי עם שם הכלי הנכון. |
|
קלט להערכת היכולת של תשובה בודדת לחזות קריאה לכלי עם שמות פרמטרים נכונים. |
|
קלט להערכת היכולת של תגובה יחידה לחזות קריאה לכלי עם שמות וערכים נכונים של פרמטרים |
|
קלט להערכה באמצעות COMET. |
|
קלט להערכה באמצעות MetricX. |
ExactMatchInput
{ "exact_match_input": { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
| פרמטרים | |
|---|---|
|
אופציונלי: מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM) ואת ההפניה. |
|
תשובה מ-LLM. |
|
תשובת LLM מוזהבת לעיון. |
ExactMatchResults
{ "exact_match_results": { "exact_match_metric_values": [ { "score": float } ] } }
| תשובה | |
|---|---|
|
תוצאות הבדיקה לכל קלט של מופע. |
|
אחת מהאפשרויות הבאות:
|
BleuInput
{ "bleu_input": { "metric_spec": { "use_effective_order": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
האם לקחת בחשבון סדרים של n-gram ללא התאמה. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM) ואת ההפניה. |
|
תשובה מ-LLM. |
|
תשובת LLM מוזהבת לעיון. |
BleuResults
{ "bleu_results": { "bleu_metric_values": [ { "score": float } ] } }
| תשובה | |
|---|---|
|
תוצאות הבדיקה לכל קלט של מופע. |
|
|
RougeInput
{ "rouge_input": { "metric_spec": { "rouge_type": string, "use_stemmer": bool, "split_summaries": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
ערכים קבילים:
|
|
האם להשתמש ב-Porter stemmer כדי להסיר סיומות של מילים ולשפר את ההתאמה. |
|
האם להוסיף שורות חדשות בין משפטים עבור rougeLsum. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM) ואת ההפניה. |
|
תשובה מ-LLM. |
|
תשובת LLM מוזהבת לעיון. |
RougeResults
{ "rouge_results": { "rouge_metric_values": [ { "score": float } ] } }
| תשובה | |
|---|---|
|
תוצאות הבדיקה לכל קלט של מופע. |
|
|
FluencyInput
{ "fluency_input": { "metric_spec": {}, "instance": { "prediction": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM). |
|
תשובה מ-LLM. |
FluencyResult
{ "fluency_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
CoherenceInput
{ "coherence_input": { "metric_spec": {}, "instance": { "prediction": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM). |
|
תשובה מ-LLM. |
CoherenceResult
{ "coherence_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
SafetyInput
{ "safety_input": { "metric_spec": {}, "instance": { "prediction": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM). |
|
תשובה מ-LLM. |
SafetyResult
{ "safety_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
GroundednessInput
{ "groundedness_input": { "metric_spec": {}, "instance": { "prediction": string, "context": string } } }
פרמטר |
תיאור |
|
אופציונלי: GroundednessSpec מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
אופציונלי: GroundednessInstance קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
GroundednessResult
{ "groundedness_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
FulfillmentInput
{ "fulfillment_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
FulfillmentResult
{ "fulfillment_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
SummarizationQualityInput
{ "summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
SummarizationQualityResult
{ "summarization_quality_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
PairwiseSummarizationQualityInput
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string, } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה של מודל LLM בסיסי. |
|
תשובה אפשרית של מודל LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
PairwiseSummarizationQualityResult
{ "pairwise_summarization_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
SummarizationHelpfulnessInput
{ "summarization_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
SummarizationHelpfulnessResult
{ "summarization_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
SummarizationVerbosityInput
{ "summarization_verbosity_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
SummarizationVerbosityResult
{ "summarization_verbosity_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
QuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
QuestionAnsweringQualityResult
{ "question_answering_quality_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
PairwiseQuestionAnsweringQualityInput
{ "pairwise_question_answering_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה של מודל LLM בסיסי. |
|
תשובה אפשרית של מודל LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
PairwiseQuestionAnsweringQualityResult
{ "pairwise_question_answering_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
QuestionAnsweringRelevanceInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
QuestionAnsweringRelevancyResult
{ "question_answering_relevancy_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
QuestionAnsweringHelpfulnessInput
{ "question_answering_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
QuestionAnsweringHelpfulnessResult
{ "question_answering_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
QuestionAnsweringCorrectnessInput
{ "question_answering_correctness_input": { "metric_spec": { "use_reference": bool }, "instance": { "prediction": string, "reference": string, "instruction": string, "context": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
אם נעשה שימוש בהפניה בהערכה. |
|
קלט להערכה, שכולל קלט של הסקה ותשובה תואמת. |
|
תשובה מ-LLM. |
|
תשובת LLM מוזהבת לעיון. |
|
הוראה שמשמשת בזמן ההסקה. |
|
טקסט בזמן ההסקה שמכיל את כל המידע, שאפשר להשתמש בו בתשובה של מודל ה-LLM. |
QuestionAnsweringCorrectnessResult
{ "question_answering_correctness_result": { "score": float, "explanation": string, "confidence": float } }
| תשובה | |
|---|---|
|
|
|
|
|
|
PointwiseMetricInput
{ "pointwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
| פרמטרים | |
|---|---|
|
חובה: מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
חובה: תבנית הנחיה שמגדירה את המדד. הוא מוצג על ידי צמדי המפתח/ערך ב-instance.json_instance |
|
חובה: קלט להערכה, שמורכב מ-json_instance. |
|
צמדי מפתח/ערך בפורמט JSON. לדוגמה, {"key_1": "value_1", "key_2": "value_2"}. הוא משמש לעיבוד של metric_spec.metric_prompt_template. |
PointwiseMetricResult
{ "pointwise_metric_result": { "score": float, "explanation": string, } }
| תשובה | |
|---|---|
|
|
|
|
PairwiseMetricInput
{ "pairwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
| פרמטרים | |
|---|---|
|
חובה: מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
חובה: תבנית הנחיה שמגדירה את המדד. הוא מוצג על ידי צמדי המפתח/ערך ב-instance.json_instance |
|
חובה: קלט להערכה, שמורכב מ-json_instance. |
|
צמדי מפתח-ערך בפורמט JSON. לדוגמה, {"key_1": "value_1", "key_2": "value_2"}. הוא משמש לעיבוד של metric_spec.metric_prompt_template. |
PairwiseMetricResult
{ "pairwise_metric_result": { "score": float, "explanation": string, } }
| תשובה | |
|---|---|
|
|
|
|
ToolCallValidInput
{ "tool_call_valid_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM) ואת ההפניה. |
|
תגובה של מודל LLM מועמד, שהיא מחרוזת שעברה סריאליזציה ב-JSON ומכילה את המפתחות { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] } |
|
פלט של מודל הזהב באותו פורמט כמו החיזוי. |
ToolCallValidResults
{ "tool_call_valid_results": { "tool_call_valid_metric_values": [ { "score": float } ] } }
| תשובה | |
|---|---|
|
repeated |
|
|
ToolNameMatchInput
{ "tool_name_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM) ואת ההפניה. |
|
תגובה של מודל LLM מועמד, שהיא מחרוזת שעברה סריאליזציה ב-JSON ומכילה את המפתחות |
|
פלט של מודל הזהב באותו פורמט כמו החיזוי. |
ToolNameMatchResults
{ "tool_name_match_results": { "tool_name_match_metric_values": [ { "score": float } ] } }
| תשובה | |
|---|---|
|
repeated |
|
|
ToolParameterKeyMatchInput
{ "tool_parameter_key_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM) ואת ההפניה. |
|
תגובה של מודל LLM מועמד, שהיא מחרוזת שעברה סריאליזציה ב-JSON ומכילה את המפתחות |
|
פלט של מודל הזהב באותו פורמט כמו החיזוי. |
ToolParameterKeyMatchResults
{ "tool_parameter_key_match_results": { "tool_parameter_key_match_metric_values": [ { "score": float } ] } }
| תשובה | |
|---|---|
|
repeated |
|
|
ToolParameterKVMatchInput
{ "tool_parameter_kv_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
קלט להערכה, שכולל את התגובה של מודל שפה גדול (LLM) ואת ההפניה. |
|
תגובה של מודל LLM מועמד, שהיא מחרוזת שעברה סריאליזציה ב-JSON ומכילה את המפתחות |
|
פלט של מודל הזהב באותו פורמט כמו החיזוי. |
ToolParameterKVMatchResults
{ "tool_parameter_kv_match_results": { "tool_parameter_kv_match_metric_values": [ { "score": float } ] } }
| תשובה | |
|---|---|
|
repeated |
|
|
CometInput
{ "comet_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
|
|
שפת המקור בפורמט BCP-47. לדוגמה, 'es'. |
|
שפת היעד בפורמט BCP-47. לדוגמה, 'es' |
|
קלט להערכה, שכולל את התשובה של מודל שפה גדול (LLM) ואת ההפניה. השדות המדויקים שמשמשים להערכה תלויים בגרסת COMET. |
|
תשובה אפשרית של מודל LLM. זהו הפלט של מודל ה-LLM שנבדק. |
|
טקסט המקור. השפה הזו היא השפה המקורית שממנה התרגום בוצע. |
|
הנתונים האמיתיים שמשמשים להשוואה מול התחזית. השפה של ההסבר זהה לשפה של התחזית. |
CometResult
{ "comet_result" : { "score": float } }
| תשובה | |
|---|---|
|
|
MetricxInput
{ "metricx_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
| פרמטרים | |
|---|---|
|
מפרט המדד, שבו מוגדרת ההתנהגות של המדד. |
|
אופציונלי:
אחת מהאפשרויות הבאות:
|
|
שפת המקור בפורמט BCP-47. לדוגמה, 'es'. |
|
שפת היעד בפורמט BCP-47. לדוגמה, 'es'. |
|
קלט להערכה, שכולל את התשובה של מודל שפה גדול (LLM) ואת ההפניה. השדות המדויקים שמשמשים להערכה תלויים בגרסה של MetricX. |
|
תשובה אפשרית של מודל LLM. זהו הפלט של מודל ה-LLM שנבדק. |
|
טקסט המקור בשפה המקורית שממנה התרגום בוצע. |
|
הנתונים האמיתיים שמשמשים להשוואה מול התחזית. הוא כתוב באותה שפה כמו התחזית. |
MetricxResult
{ "metricx_result" : { "score": float } }
| תשובה | |
|---|---|
|
|
דוגמאות
הערכת פלט
בדוגמה הבאה מוצג איך להפעיל את Gen AI Evaluation API כדי להעריך את הפלט של LLM באמצעות מגוון מדדי הערכה, כולל:
summarization_qualitygroundednessfulfillmentsummarization_helpfulnesssummarization_verbosity
Python
Go
הערכת פלט: איכות הסיכום של זוגות
בדוגמה הבאה מוצג איך להפעיל את Gen AI evaluation service API כדי להעריך את הפלט של LLM באמצעות השוואה של איכות הסיכום בזוגות.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_ID: .
- LOCATION: האזור שבו הבקשה תעובד.
- PREDICTION: תגובה של מודל שפה גדול (LLM).
- BASELINE_PREDICTION: תשובה של מודל שפה גדול (LLM) של מודל בסיסי.
- INSTRUCTION: ההוראה שמשמשת בזמן ההסקה.
- CONTEXT: טקסט בזמן ההסקה שמכיל את כל המידע הרלוונטי, שאפשר להשתמש בו בתגובה של מודל ה-LLM.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \
גוף בקשת JSON:
{
"pairwise_summarization_quality_input": {
"metric_spec": {},
"instance": {
"prediction": "PREDICTION",
"baseline_prediction": "BASELINE_PREDICTION",
"instruction": "INSTRUCTION",
"context": "CONTEXT",
}
}
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
Go
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Go API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
קבלת ציון ROUGE
בדוגמה הבאה מוצגת קריאה ל-API של שירות ההערכה של AI גנרטיבי כדי לקבל את ציון ה-ROUGE של תחזית שנוצרה על סמך מספר קלטים. הקלט של ROUGE משתמש ב-metric_spec, שקובע את ההתנהגות של המדד.
REST
לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:
- PROJECT_ID: .
- LOCATION: האזור שבו הבקשה תעובד.
- PREDICTION: תגובה של מודל שפה גדול (LLM).
- REFERENCE: תשובה מושלמת של מודל שפה גדול (LLM) לעיון.
- ROUGE_TYPE: החישוב שמשמש לקביעת הציון של התנהלות לא תקינה. במאמר
metric_spec.rouge_typeמפורטים הערכים הקבילים. - USE_STEMMER: קובעת אם נעשה שימוש ב-Porter stemmer כדי להסיר סיומות של מילים ולשפר את ההתאמה. ערכים קבילים מפורטים במאמר
metric_spec.use_stemmer. - SPLIT_SUMMARIES: קובע אם יתווספו שורות חדשות בין
rougeLsumמשפטים. ערכים קבילים מפורטים במאמרmetric_spec.split_summaries.
ה-method של ה-HTTP וכתובת ה-URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \
גוף בקשת JSON:
{
"rouge_input": {
"instances": {
"prediction": "PREDICTION",
"reference": "REFERENCE.",
},
"metric_spec": {
"rouge_type": "ROUGE_TYPE",
"use_stemmer": USE_STEMMER,
"split_summaries": SPLIT_SUMMARIES,
}
}
}
כדי לשלוח את הבקשה עליכם לבחור אחת מהאפשרויות הבאות:
curl
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \"
PowerShell
שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
במאמר התקנת Vertex AI SDK ל-Python מוסבר איך להתקין או לעדכן את Vertex AI SDK ל-Python. מידע נוסף מופיע ב מאמרי העזרה של Python API.
Go
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goהוראות ההגדרה במאמר Vertex AI quickstart using client libraries. מידע נוסף מופיע במאמרי העזרה של Vertex AI Go API.
כדי לבצע אימות ב-Vertex AI, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המאמרים הבאים
- לתיעוד מפורט, אפשר לעיין במאמר הפעלת הערכה.