Method: projects.locations.collections.dataStores.trainCustomModel

מאמנת מודל בהתאמה אישית.

בקשת HTTP

POST https://discoveryengine.googleapis.com/v1alpha/{dataStore=projects/*/locations/*/collections/*/dataStores/*}:trainCustomModel

כתובת ה-URL כתובה בתחביר של gRPC Transcoding.

פרמטרים של נתיב

פרמטרים
dataStore

string

חובה. שם המשאב של מאגר הנתונים, למשל projects/*/locations/global/collections/default_collection/dataStores/default_data_store. השדה הזה משמש לזיהוי מאגר הנתונים שבו יאומנו המודלים.

גוף הבקשה

גוף הבקשה מכיל נתונים במבנה הבא:

ייצוג ב-JSON
{
  "modelType": string,
  "errorConfig": {
    object (ImportErrorConfig)
  },
  "modelId": string,

  // Union field training_input can be only one of the following:
  "gcsTrainingInput": {
    object (GcsTrainingInput)
  }
  // End of list of possible types for union field training_input.
}
שדות
modelType

string

המודל שאותו רוצים לאמן. הערכים הנתמכים הם:

  • search-tuning: כוונון עדין של מערכת החיפוש על סמך הנתונים שסופקו.
errorConfig

object (ImportErrorConfig)

המיקום הרצוי של השגיאות שמתרחשות במהלך הטמעת הנתונים והאימון.

modelId

string

אם לא מספקים מזהה ייחודי אוניברסלי (UUID), המערכת יוצרת אותו.

שדה איחוד training_input. קלט לאימון המודל. הערך training_input יכול להיות רק אחד מהבאים:
gcsTrainingInput

object (GcsTrainingInput)

קלט לאימון ב-Cloud Storage.

גוף התשובה

אם הפעולה בוצעה ללא שגיאות, גוף התגובה יכיל מופע של Operation.

היקפי הרשאות

נדרש אחד מהיקפי ההרשאות הבאים של OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/discoveryengine.readwrite

ניתן למצוא מידע נוסף כאן: Authentication Overview.

הרשאות IAM

נדרשת הרשאת IAM הבאה במשאב dataStore:

  • discoveryengine.dataStores.trainCustomModel

מידע נוסף מופיע במאמרי העזרה בנושא IAM.

GcsTrainingInput

קלט של נתוני אימון ב-Cloud Storage.

ייצוג ב-JSON
{
  "corpusDataPath": string,
  "queryDataPath": string,
  "trainDataPath": string,
  "testDataPath": string
}
שדות
corpusDataPath

string

נתוני הקורפוס של Cloud Storage שיכולים להיות משויכים לנתוני האימון. הפורמט של נתיב הנתונים הוא gs://<bucket_to_data>/<jsonl_file_name>. קובץ JSONL או NDJSON שמופרד בתו שורה חדשה.

במודל להתאמה אישית של חיפושים, כל שורה צריכה לכלול את המזהה, הכותרת והטקסט. לדוגמה: {"Id": "doc1", title: "relevant doc", "text": "relevant text"}

queryDataPath

string

נתוני השאילתות ב-GCS שאפשר לשייך לנתוני האימון. הפורמט של נתיב הנתונים הוא gs://<bucket_to_data>/<jsonl_file_name>. קובץ JSONL או NDJSON שמופרד בתו שורה חדשה.

במודל להתאמת חיפוש, כל שורה צריכה לכלול את המזהה והטקסט. דוגמה: {"Id": "query1", "text": "example query"}

trainDataPath

string

נתיב נתוני האימון ב-Cloud Storage, שהפורמט שלו צריך להיות gs://<bucket_to_data>/<tsv_file_name>. הקובץ צריך להיות בפורמט TSV. כל שורה צריכה לכלול את docId,‏ queryId וציון (מספר).

במודל לשיפור החיפוש, הכותרת של קובץ ה-TSV צריכה להיות query-id corpus-id score. הניקוד צריך להיות מספר בטווח [0, inf+). ככל שהמספר גדול יותר, כך הצמד רלוונטי יותר. דוגמה:

  • query-id\tcorpus-id\tscore
  • query1\tdoc1\t1
testDataPath

string

נתוני בדיקה של Cloud Storage. אותו פורמט כמו trainDataPath. אם לא תציינו חלוקה, המערכת תבצע חלוקה אקראית של 80/20 בין נתוני האימון לנתוני הבדיקה ב-trainDataPath.