Method: projects.locations.collections.dataStores.trainCustomModel

Trainiert ein benutzerdefiniertes Modell.

HTTP-Anfrage

POST https://discoveryengine.googleapis.com/v1beta/{dataStore=projects/*/locations/*/collections/*/dataStores/*}:trainCustomModel

Die URL verwendet die Syntax der gRPC-Transcodierung.

Pfadparameter

Parameter
dataStore

string

Erforderlich. Der Ressourcenname des Datenspeichers, z. B. projects/*/locations/global/collections/default_collection/dataStores/default_data_store. Mit diesem Feld wird der Datenspeicher angegeben, in dem die Modelle trainiert werden sollen.

Anfragetext

Der Anfragetext enthält Daten mit folgender Struktur:

JSON-Darstellung
{
  "modelType": string,
  "errorConfig": {
    object (ImportErrorConfig)
  },
  "modelId": string,

  // Union field training_input can be only one of the following:
  "gcsTrainingInput": {
    object (GcsTrainingInput)
  }
  // End of list of possible types for union field training_input.
}
Felder
modelType

string

Das zu trainierende Modell. Unterstützte Werte:

  • search-tuning: Das Suchsystem wird anhand der bereitgestellten Daten optimiert.
errorConfig

object (ImportErrorConfig)

Der gewünschte Ort für Fehler, die während der Datenerfassung und des Trainings auftreten.

modelId

string

Wenn nicht angegeben, wird eine UUID generiert.

Union-Feld training_input. Modelltrainingseingabe. Für training_input ist nur einer der folgenden Werte zulässig:
gcsTrainingInput

object (GcsTrainingInput)

Cloud Storage-Trainingseingabe.

Antworttext

Wenn der Vorgang erfolgreich abgeschlossen wurde, enthält der Antworttext eine Instanz von Operation.

Autorisierungsbereiche

Erfordert einen der folgenden OAuth-Bereiche:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/discoveryengine.readwrite

Weitere Informationen finden Sie unter Authentication Overview.

IAM-Berechtigungen

Erfordert die folgende IAM-Berechtigung für die Ressource dataStore:

  • discoveryengine.dataStores.trainCustomModel

Weitere Informationen finden Sie in der IAM-Dokumentation.

GcsTrainingInput

Cloud Storage-Eingabe für Trainingsdaten.

JSON-Darstellung
{
  "corpusDataPath": string,
  "queryDataPath": string,
  "trainDataPath": string,
  "testDataPath": string
}
Felder
corpusDataPath

string

Die Cloud Storage-Korpusdaten, die mit Trainingsdaten verknüpft werden könnten. Das Datenpfadformat ist gs://<bucket_to_data>/<jsonl_file_name>. Eine durch Zeilenumbruch getrennte JSONL-/NDJSON-Datei.

Für das Modell zur Suchoptimierung sollte jede Zeile die ID, den Titel und den Text enthalten. Beispiel: {"Id": "doc1", title: "relevant doc", "text": "relevant text"}

queryDataPath

string

Die GCS-Abfragedaten, die mit Trainingsdaten verknüpft werden könnten. Das Datenpfadformat ist gs://<bucket_to_data>/<jsonl_file_name>. Eine durch Zeilenumbruch getrennte JSONL-/NDJSON-Datei.

Bei einem Modell zur Optimierung der Suche sollte jede Zeile die ID und den Text enthalten. Beispiel: {"Id": "query1", "text": "example query"}

trainDataPath

string

Cloud Storage-Pfad für Trainingsdaten, dessen Format gs://<bucket_to_data>/<tsv_file_name> sein sollte. Die Datei muss das TSV-Format haben. Jede Zeile sollte die docId, die queryId und den Wert (Zahl) enthalten.

Für das Modell zur Optimierung der Suche sollte die TSV-Datei die Spaltenüberschriften „query-id“, „corpus-id“ und „score“ enthalten. Der Wert muss eine Zahl in [0, inf+) sein. Je größer die Zahl, desto relevanter ist das Paar. Beispiel:

  • query-id\tcorpus-id\tscore
  • query1\tdoc1\t1
testDataPath

string

Cloud Storage-Testdaten. Dasselbe Format wie „trainDataPath“. Wenn nicht angegeben, wird eine zufällige 80/20-Aufteilung in Trainings- und Testdaten für „trainDataPath“ durchgeführt.