GcsSource

Ubicación de Cloud Storage para el contenido de entrada.

Representación JSON
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
Campos
inputUris[]

string

Obligatorio. Son los URIs de Cloud Storage para los archivos de entrada. Cada URI puede tener hasta 2,000 caracteres. Los URIs pueden coincidir con la ruta de acceso completa del objeto (por ejemplo, gs://bucket/directory/object.json) o con un patrón que coincida con uno o más archivos, como gs://bucket/directory/*.json.

Una solicitud puede contener hasta 100 archivos (o 100,000 archivos si dataSchema es content). Cada archivo puede tener hasta 2 GB (o 100 MB si dataSchema es content).

dataSchema

string

Es el esquema que se usará cuando se analicen los datos de la fuente.

Valores admitidos para las importaciones de documentos:

  • document (predeterminado): Un objeto Document JSON por línea. Cada documento debe tener un Document.id válido.
  • content: Datos no estructurados (p.ej., PDF, HTML). Cada archivo que coincide con inputUris se convierte en un documento, con el ID establecido en los primeros 128 bits de SHA256(URI) codificados como una cadena hexadecimal.
  • custom: Un objeto JSON de datos personalizados por fila en formato arbitrario que se ajusta al Schema definido del almacén de datos. Solo puede usarlo la vertical de almacén de datos GENÉRICO.
  • csv: Es un archivo CSV con un encabezado que se ajusta al Schema definido del almacén de datos. Cada entrada después del encabezado se importa como un documento. Solo puede usarlo la vertical de almacén de datos GENÉRICO.

Valores admitidos para las importaciones de eventos de usuario:

  • user_event (predeterminado): Un objeto UserEvent JSON por línea.