Method: projects.locations.collections.dataStores.trainCustomModel

Addestra un modello personalizzato.

Richiesta HTTP

POST https://discoveryengine.googleapis.com/v1alpha/{dataStore=projects/*/locations/*/collections/*/dataStores/*}:trainCustomModel

L'URL utilizza la sintassi di transcodifica gRPC.

Parametri del percorso

Parametri
dataStore

string

Obbligatorio. Il nome della risorsa del datastore, ad esempio projects/*/locations/global/collections/default_collection/dataStores/default_data_store. Questo campo viene utilizzato per identificare il datastore in cui addestrare i modelli.

Corpo della richiesta

Il corpo della richiesta contiene dati con la seguente struttura:

Rappresentazione JSON
{
  "modelType": string,
  "errorConfig": {
    object (ImportErrorConfig)
  },
  "modelId": string,

  // Union field training_input can be only one of the following:
  "gcsTrainingInput": {
    object (GcsTrainingInput)
  }
  // End of list of possible types for union field training_input.
}
Campi
modelType

string

Modello da addestrare. I valori supportati sono:

  • search-tuning: ottimizzazione del sistema di ricerca in base ai dati forniti.
errorConfig

object (ImportErrorConfig)

La posizione desiderata degli errori riscontrati durante l'importazione e l'addestramento dei dati.

modelId

string

Se non viene fornito, verrà generato un UUID.

Campo unione training_input. Input di addestramento del modello. training_input può essere solo uno dei seguenti tipi:
gcsTrainingInput

object (GcsTrainingInput)

Input di addestramento di Cloud Storage.

Corpo della risposta

In caso di esito positivo, il corpo della risposta contiene un'istanza di Operation.

Ambiti di autorizzazione

Richiede uno dei seguenti ambiti OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/discoveryengine.readwrite
  • https://www.googleapis.com/auth/discoveryengine.serving.readwrite

Per saperne di più, consulta la Authentication Overview.

Autorizzazioni IAM

Richiede la seguente autorizzazione IAM per la risorsa dataStore:

  • discoveryengine.dataStores.trainCustomModel

Per saperne di più, consulta la documentazione di IAM.

GcsTrainingInput

Input dei dati di addestramento di Cloud Storage.

Rappresentazione JSON
{
  "corpusDataPath": string,
  "queryDataPath": string,
  "trainDataPath": string,
  "testDataPath": string
}
Campi
corpusDataPath

string

I dati del corpus di Cloud Storage che potrebbero essere associati ai dati di addestramento. Il formato del percorso dei dati è gs://<bucket_to_data>/<jsonl_file_name>. Un file jsonl/ndjson delimitato da una nuova riga.

Per il modello di ottimizzazione della ricerca, ogni riga deve avere ID, titolo e testo. Esempio: {"Id": "doc1", title: "relevant doc", "text": "relevant text"}

queryDataPath

string

I dati delle query gcs che potrebbero essere associati ai dati di addestramento. Il formato del percorso dei dati è gs://<bucket_to_data>/<jsonl_file_name>. Un file jsonl/ndjson delimitato da una nuova riga.

Per il modello di ottimizzazione della ricerca, ogni riga deve avere ID e testo. Esempio: {"Id": "query1", "text": "example query"}

trainDataPath

string

Il percorso dei dati di addestramento di Cloud Storage il cui formato deve essere gs://<bucket_to_data>/<tsv_file_name>. Il file deve essere in formato TSV. Ogni riga deve avere docId, queryId e punteggio (numero).

Per il modello di ottimizzazione della ricerca, deve avere l'intestazione del file TSV con l'ID della query, l'ID del corpus e il punteggio. Il punteggio deve essere un numero in [0, inf+). Maggiore è il numero, più pertinente è la coppia. Esempio:

  • query-id\tcorpus-id\tscore
  • query1\tdoc1\t1
testDataPath

string

Dati di test di Cloud Storage. Stesso formato di trainDataPath. Se non viene fornito, verrà eseguita una suddivisione casuale 80/20 di addestramento/test su trainDataPath.