Method: projects.locations.collections.dataStores.trainCustomModel

Entraîne un modèle personnalisé.

Requête HTTP

POST https://discoveryengine.googleapis.com/v1beta/{dataStore=projects/*/locations/*/collections/*/dataStores/*}:trainCustomModel

L'URL utilise la syntaxe de transcodage gRPC.

Paramètres de chemin d'accès

Paramètres
dataStore

string

Obligatoire. Nom de ressource du data store, par exemple projects/*/locations/global/collections/default_collection/dataStores/default_data_store. Ce champ permet d'identifier le data store dans lequel entraîner les modèles.

Corps de la requête

Le corps de la requête contient des données présentant la structure suivante :

Représentation JSON
{
  "modelType": string,
  "errorConfig": {
    object (ImportErrorConfig)
  },
  "modelId": string,

  // Union field training_input can be only one of the following:
  "gcsTrainingInput": {
    object (GcsTrainingInput)
  }
  // End of list of possible types for union field training_input.
}
Champs
modelType

string

Modèle à entraîner. Les valeurs compatibles sont :

  • search-tuning : affiner le système de recherche en fonction des données fournies.
errorConfig

object (ImportErrorConfig)

Emplacement souhaité des erreurs survenues lors de l'ingestion et de l'entraînement des données.

modelId

string

Si vous n'en fournissez pas, un UUID sera généré.

Champ d'union training_input. Entrées pour l'entraînement de modèle. training_input ne peut être qu'un des éléments suivants :
gcsTrainingInput

object (GcsTrainingInput)

Entrée d'entraînement Cloud Storage.

Corps de la réponse

Si la requête aboutit, le corps de la réponse contient une instance de Operation.

Niveaux d'accès des autorisations

Nécessite l'un des champs d'application OAuth suivants :

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/discoveryengine.readwrite

Pour plus d'informations, consultez la Authentication Overview.

Autorisations IAM

Nécessite l'autorisation IAM suivante sur la ressource dataStore :

  • discoveryengine.dataStores.trainCustomModel

Pour en savoir plus, consultez la documentation IAM.

GcsTrainingInput

Entrée des données d'entraînement Cloud Storage.

Représentation JSON
{
  "corpusDataPath": string,
  "queryDataPath": string,
  "trainDataPath": string,
  "testDataPath": string
}
Champs
corpusDataPath

string

Données du corpus Cloud Storage pouvant être associées aux données d'entraînement. Le format du chemin d'accès aux données est gs://<bucket_to_data>/<jsonl_file_name>. Fichier JSONL/NDJSON délimité par un retour à la ligne.

Pour le modèle d'optimisation de la recherche, chaque ligne doit comporter l'ID, le titre et le texte. Exemple : {"Id": "doc1", title: "relevant doc", "text": "relevant text"}

queryDataPath

string

Données de requête GCS pouvant être associées aux données d'entraînement. Le format du chemin d'accès aux données est gs://<bucket_to_data>/<jsonl_file_name>. Fichier JSONL/NDJSON délimité par un retour à la ligne.

Pour le modèle d'optimisation de la recherche, chaque ligne doit comporter l'ID et le texte. Exemple : {"Id": "query1", "text": "exemple de requête"}

trainDataPath

string

Chemin d'accès Cloud Storage des données d'entraînement dont le format doit être gs://<bucket_to_data>/<tsv_file_name>. Le fichier doit être au format TSV. Chaque ligne doit comporter l'ID du document, l'ID de la requête et le score (nombre).

Pour le modèle d'optimisation de la recherche, l'en-tête du fichier TSV doit contenir l'ID de requête, l'ID de corpus et le score. Le score doit être un nombre compris dans [0, inf+). Plus le nombre est élevé, plus la paire est pertinente. Exemple :

  • query-id\tcorpus-id\tscore
  • query1\tdoc1\t1
testDataPath

string

Données de test Cloud Storage. Même format que trainDataPath. Si aucune valeur n'est fournie, une répartition aléatoire 80/20 entre les données d'entraînement et de test sera effectuée sur trainDataPath.