GcsSource

Localização do Cloud Storage para conteúdo de entrada.

Representação JSON
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
Campos
inputUris[]

string

Obrigatório. URIs do Cloud Storage para introduzir ficheiros. Cada URI pode ter até 2000 carateres. Os URIs podem corresponder ao caminho completo do objeto (por exemplo, gs://bucket/directory/object.json) ou a um padrão que corresponda a um ou mais ficheiros, como gs://bucket/directory/*.json.

Uma solicitação pode conter, no máximo, 100 ficheiros (ou 100 000 ficheiros se dataSchema for content). Cada ficheiro pode ter até 2 GB (ou 100 MB se dataSchema for content).

dataSchema

string

O esquema a usar quando analisar os dados da origem.

Valores suportados para importações de documentos:

  • document (predefinição): um JSON Document por linha. Cada documento tem de ter um Document.id válido.
  • content: dados não estruturados (por exemplo, PDF, HTML). Cada ficheiro correspondente a inputUris torna-se um documento, com o ID definido como os primeiros 128 bits de SHA256(URI) codificados como uma string hexadecimal.
  • custom: um JSON de dados personalizado por linha num formato arbitrário que esteja em conformidade com o Schema definido do armazenamento de dados. Só pode ser usado pelo vertical da loja de dados GENERIC.
  • csv: um ficheiro CSV com um cabeçalho em conformidade com o Schema definido da loja de dados. Cada entrada após o cabeçalho é importada como um documento. Só pode ser usado pela vertical GENERIC Data Store.

Valores suportados para importações de eventos de utilizadores:

  • user_event (predefinição): um JSON UserEvent por linha.