GcsSource

Emplacement Cloud Storage pour le contenu d'entrée.

Représentation JSON
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
Champs
inputUris[]

string

Obligatoire. URI Cloud Storage pour les fichiers d'entrée. Chaque URI peut comporter jusqu'à 2 000 caractères. Les URI peuvent correspondre au chemin d'accès complet à l'objet (par exemple, gs://bucket/directory/object.json) ou à un modèle correspondant à un ou plusieurs fichiers, comme gs://bucket/directory/*.json.

Une requête peut contenir au maximum 100 fichiers (ou 100 000 fichiers si dataSchema est défini sur content). Chaque fichier peut avoir une taille maximale de 2 Go (ou 100 Mo si dataSchema est défini sur content).

dataSchema

string

Schéma à utiliser lors de l'analyse des données de la source.

Valeurs acceptées pour les importations de documents :

  • document (par défaut) : un Document JSON par ligne. Chaque document doit comporter un Document.id valide.
  • content : données non structurées (par exemple, PDF, HTML). Chaque fichier correspondant à inputUris devient un document, dont l'ID est défini sur les 128 premiers bits de SHA256(URI) encodés sous forme de chaîne hexadécimale.
  • custom : un JSON de données personnalisées par ligne dans un format arbitraire conforme à la Schema définie du data store. Cette fonctionnalité ne peut être utilisée que par le secteur vertical "GENERIC Data Store".
  • csv : fichier CSV avec un en-tête conforme à la Schema définie du data store. Chaque entrée après l'en-tête est importée en tant que document. Cette option ne peut être utilisée que par le secteur d'activité "GENERIC Data Store".

Valeurs acceptées pour les importations d'événements utilisateur :

  • user_event (par défaut) : un UserEvent JSON par ligne.