GcsSource

Emplacement Cloud Storage pour le contenu d'entrée.

Représentation JSON
{
  "inputUris": [
    string
  ],
  "dataSchema": string
}
Champs
inputUris[]

string

Obligatoire. URI Cloud Storage des fichiers d'entrée. Chaque URI peut comporter jusqu'à 2 000 caractères. Les URI peuvent correspondre au chemin d'accès complet de l'objet (par exemple, gs://bucket/directory/object.json) ou à un modèle correspondant à un ou plusieurs fichiers, tel que gs://bucket/directory/*.json.

Une requête peut contenir au maximum 100 fichiers (ou 100 000 fichiers si dataSchema est content). Chaque fichier peut atteindre 2 Go (ou 100 Mo si dataSchema est content).

dataSchema

string

Schéma à utiliser lors de l'analyse des données à partir de la source.

Valeurs acceptées pour les importations de documents :

  • document (par défaut) : un Document JSON par ligne. Chaque document doit comporter un Document.id valide.
  • content : données non structurées (par exemple, PDF, HTML). Chaque fichier correspondant à inputUris devient un document, dont l'ID est défini sur les 128 premiers bits de SHA256(URI) encodés sous forme de chaîne hexadécimale.
  • custom : un JSON de données personnalisées par ligne au format arbitraire, conforme au Schema défini du data store. Cette option ne peut être utilisée que par la verticale GENERIC datastore.
  • csv : un fichier CSV avec un en-tête conforme au Schema du data store. Chaque entrée après l'en-tête est importée en tant que document. Cette option ne peut être utilisée que par le secteur d'activité GENERIC Data Store.

Valeurs acceptées pour les importations d'événements utilisateur :

  • user_event (par défaut) : un UserEvent JSON par ligne.