Method: projects.locations.collections.dataStores.trainCustomModel

Trainiert ein benutzerdefiniertes Modell.

HTTP-Anfrage

POST https://discoveryengine.googleapis.com/v1alpha/{dataStore=projects/*/locations/*/collections/*/dataStores/*}:trainCustomModel

Die URL verwendet die Syntax der gRPC-Transcodierung.

Pfadparameter

Parameter
dataStore

string

Erforderlich. Der Ressourcenname des Datenspeichers, z. B. projects/*/locations/global/collections/default_collection/dataStores/default_data_store. Mit diesem Feld wird der Datenspeicher angegeben, in dem die Modelle trainiert werden sollen.

Anfragetext

Der Anfragetext enthält Daten mit folgender Struktur:

JSON-Darstellung
{
  "modelType": string,
  "errorConfig": {
    object (ImportErrorConfig)
  },
  "modelId": string,

  // Union field training_input can be only one of the following:
  "gcsTrainingInput": {
    object (GcsTrainingInput)
  }
  // End of list of possible types for union field training_input.
}
Felder
modelType

string

Das zu trainierende Modell. Unterstützte Werte sind:

  • search-tuning: Das Suchsystem wird anhand der bereitgestellten Daten abgestimmt.
errorConfig

object (ImportErrorConfig)

Der gewünschte Speicherort für Fehler, die während der Datenaufnahme und des Trainings aufgetreten sind.

modelId

string

Wenn nicht angegeben, wird eine UUID generiert.

Union-Feld training_input. Eingabe für das Modelltraining. Für training_input ist nur einer der folgenden Werte zulässig:
gcsTrainingInput

object (GcsTrainingInput)

Cloud Storage-Trainingseingabe.

Antworttext

Wenn der Vorgang erfolgreich abgeschlossen wurde, enthält der Antworttext eine Instanz von Operation.

Autorisierungsbereiche

Erfordert einen der folgenden OAuth-Bereiche:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/discoveryengine.readwrite

Weitere Informationen finden Sie unter Authentication Overview.

IAM-Berechtigungen

Erfordert die folgende IAM-Berechtigung für die Ressource dataStore:

  • discoveryengine.dataStores.trainCustomModel

Weitere Informationen finden Sie in der IAM-Dokumentation.

GcsTrainingInput

Cloud Storage-Eingabe für Trainingsdaten.

JSON-Darstellung
{
  "corpusDataPath": string,
  "queryDataPath": string,
  "trainDataPath": string,
  "testDataPath": string
}
Felder
corpusDataPath

string

Die Cloud Storage-Korpusdaten, die mit Trainingsdaten verknüpft werden könnten. Das Datenpfadformat ist gs://<bucket_to_data>/<jsonl_file_name>. Eine durch Zeilenumbruch getrennte JSONL-/NDJSON-Datei.

Bei einem Modell zur Suchabstimmung sollte jede Zeile die ID, den Titel und den Text enthalten. Beispiel: {"Id": "doc1", title: "relevant doc", "text": "relevant text"}

queryDataPath

string

Die GCS-Abfragedaten, die mit Trainingsdaten verknüpft werden könnten. Das Datenpfadformat ist gs://<bucket_to_data>/<jsonl_file_name>. Eine durch Zeilenumbruch getrennte JSONL-/NDJSON-Datei.

Bei einem Modell zur Suchabstimmung sollte jede Zeile die ID und den Text enthalten. Beispiel: {"Id": "query1", "text": "example query"}

trainDataPath

string

Cloud Storage-Pfad für Trainingsdaten, dessen Format gs://<bucket_to_data>/<tsv_file_name> sein sollte. Die Datei muss das TSV-Format haben. Jede Zeile sollte die „docId“, die „queryId“ und den „score“ (Zahl) enthalten.

Bei einem Modell zur Suchabstimmung sollte die TSV-Datei die Spaltenüberschriften „query-id“, „corpus-id“ und „score“ enthalten. Der Score muss eine Zahl im Intervall [0, inf+) sein. Je größer die Zahl ist, desto relevanter ist das Paar. Beispiel:

  • query-id\tcorpus-id\tscore
  • query1\tdoc1\t1
testDataPath

string

Cloud Storage-Testdaten. Dasselbe Format wie „trainDataPath“. Wenn nicht angegeben, wird für „trainDataPath“ eine zufällige 80/20-Aufteilung in Trainings- und Testdaten vorgenommen.