Method: projects.locations.collections.dataStores.trainCustomModel

Treina um modelo personalizado.

Solicitação HTTP

POST https://discoveryengine.googleapis.com/v1alpha/{dataStore=projects/*/locations/*/collections/*/dataStores/*}:trainCustomModel

O URL usa a sintaxe de transcodificação gRPC.

Parâmetros de caminho

Parâmetros
dataStore

string

Obrigatório. O nome do recurso do repositório de dados, como projects/*/locations/global/collections/default_collection/dataStores/default_data_store. Esse campo é usado para identificar o repositório de dados em que os modelos serão treinados.

Corpo da solicitação

O corpo da solicitação contém dados com a seguinte estrutura:

Representação JSON
{
  "modelType": string,
  "errorConfig": {
    object (ImportErrorConfig)
  },
  "modelId": string,

  // Union field training_input can be only one of the following:
  "gcsTrainingInput": {
    object (GcsTrainingInput)
  }
  // End of list of possible types for union field training_input.
}
Campos
modelType

string

Modelo a ser treinado. Os valores aceitos são:

  • search-tuning: ajuste fino do sistema de pesquisa com base nos dados fornecidos.
errorConfig

object (ImportErrorConfig)

O local desejado dos erros ocorridos durante a ingestão e o treinamento de dados.

modelId

string

Se não for fornecido, um UUID será gerado.

Campo de união training_input. Entrada de treinamento do modelo. training_input pode ser apenas de um dos tipos a seguir:
gcsTrainingInput

object (GcsTrainingInput)

Entrada de treinamento do Cloud Storage.

Corpo da resposta

Se a solicitação for bem-sucedida, o corpo da resposta conterá uma instância de Operation.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/discoveryengine.readwrite

Para mais informações, consulte Authentication Overview.

Permissões do IAM

Requer a seguinte permissão do IAM no recurso dataStore:

  • discoveryengine.dataStores.trainCustomModel

Para mais informações, consulte a documentação do IAM.

GcsTrainingInput

Entrada de dados de treinamento do Cloud Storage.

Representação JSON
{
  "corpusDataPath": string,
  "queryDataPath": string,
  "trainDataPath": string,
  "testDataPath": string
}
Campos
corpusDataPath

string

Os dados do corpus do Cloud Storage que podem ser associados aos dados de treinamento. O formato do caminho de dados é gs://<bucket_to_data>/<jsonl_file_name>. Um arquivo jsonl/ndjson delimitado por nova linha.

Para o modelo de ajuste de pesquisa, cada linha precisa ter o ID, o título e o texto. Exemplo: {"Id": "doc1", title: "relevant doc", "text": "relevant text"}

queryDataPath

string

Os dados de consulta do GCS que podem ser associados aos dados de treinamento. O formato do caminho de dados é gs://<bucket_to_data>/<jsonl_file_name>. Um arquivo jsonl/ndjson delimitado por nova linha.

Para o modelo de ajuste de pesquisa, cada linha precisa ter o ID e o texto. Exemplo: {"Id": "query1", "text": "example query"}

trainDataPath

string

Caminho dos dados de treinamento do Cloud Storage cujo formato deve ser gs://<bucket_to_data>/<tsv_file_name>. O arquivo precisa estar no formato TSV. Cada linha precisa ter o docId, o queryId e a pontuação (número).

Para o modelo de ajuste de pesquisa, ele precisa ter a consulta-id corpus-id score como cabeçalho do arquivo TSV. A pontuação precisa ser um número em [0, inf+). Quanto maior o número, mais relevante é o par. Exemplo:

  • query-id\tcorpus-id\tscore
  • query1\tdoc1\t1
testDataPath

string

Dados de teste do Cloud Storage. Mesmo formato de "trainDataPath". Se não for fornecido, uma divisão aleatória de treinamento/teste de 80/20 será realizada em "trainDataPath".