Importer des données de manière groupée avec le pipeline d'ingestion Cloud Storage

Ce document explique comment effectuer une importation groupée, ce qui déclenche le pipeline d'ingestion Cloud Storage en arrière-plan.

Options de prétraitement

L'importation groupée fournit actuellement trois options de prétraitement :

  1. Importation groupée sans prétraitement : déclenche l'API runPipeline avec GcsIngestPipeline sans traiter les documents avec les processeurs Document AI.

  2. Extraire des entités avec les processeurs Document AI : ceci déclenche l'API runPipeline avec GcsIngestWithDocAiProcessorsPipeline. Le pipeline appelle d'abord le processeur Document AI donné, puis ingère les documents avec les résultats traités.

  3. Classer les types de documents et extraire les entités pour chaque type : déclenche également l'API runPipeline avec GcsIngestWithDocAiProcessorsPipeline, qui appelle d'abord un classifieur. Ensuite, pour chaque type de document, vous pouvez spécifier un schéma et un processeur correspondants pour traiter ces types de documents spécifiques. Ils sont ingérés avec les résultats et définis sur ce schéma.

Chacun des types de prétraitement correspond aux options suivantes dans l'interface utilisateur :

Étape 0

Exemple : Déclencher une importation groupée avec un processeur OCR

Cet exemple illustre la deuxième utilisation du pipeline.

Créer un processeur OCR et obtenir l'ID du processeur

Si vous avez déjà créé un processeur OCR, il vous suffit de le trouver dans la liste des processeurs, d'accéder à la page de détails du processeur et d'obtenir l'ID du processeur.

Si vous n'en avez pas créé, procédez comme suit :

  1. En haut de la liste des processeurs, cliquez sur Galerie de processeurs :

    Étape 4

  2. Recherchez le processeur OCR dans les documents dans la galerie, puis en bas de la fiche, cliquez sur Créer un processeur:

    Étape 5

  3. Saisissez un nom à afficher pour le processeur :

    Étape 6

  4. Cliquez sur Créer , puis lorsque vous êtes redirigé vers la page Détails du processeur , recherchez l'ID :

    Étape 7

    Vous devez copier ces informations dans les champs d'entrée de la vue d'importation groupée.

Déclencher une importation groupée

  1. Ouvrez la vue d'importation groupée.

    À côté de Ajouter, cliquez sur Importation groupée :

    Étape 1

  2. Recherchez le processeur approprié.

    1. Sélectionnez la deuxième option de prétraitement.

    2. Choisissez un schéma, puis spécifiez un processeur et un chemin de bucket Cloud Storage pour enregistrer les résultats de l'extraction au format JSON.

  3. Recherchez l'ID du processeur via le lien dans le texte de description :

    Étape 2

  4. Déclenchez l'importation :

    1. Une fois l'ID du processeur copié à l'étape précédente, spécifiez les champs d'entrée. Le chemin du bucket du fichier source peut être un bucket, un dossier ou un sous-dossier dans le bucket.

    2. Lorsque les champs d'entrée sont valides, pour déclencher l'importation groupée, en haut à droite, cliquez sur Importer.

Vérifier la progression sur la page d'état

Une fois l'importation groupée déclenchée, vous êtes redirigé vers la page de suivi de l'état :

Étape 9

Le premier tableau affiche tous les documents en attente ou traités. Une fois ingéré, le document n'est plus listé dans le premier tableau. Les documents qui n'ont pas pu être importés apparaissent dans le deuxième tableau. À droite, les statistiques indiquent le nombre de documents ingérés, en échec et en attente.

Étape 10

Une fois la tâche terminée, la page d'état affiche 100 % sans aucun document en attente :

Étape 11

Examiner les documents importés

  1. Recherchez les documents nouvellement ingérés en revenant à la vue de recherche. Cliquez sur le logo Document AI Warehouse ou sur Rechercher dans la barre de navigation en haut :

    Étape 12

  2. Ouvrez l'un des documents nouvellement ingérés en cliquant sur son nom. Dans le lecteur de documents, vous pouvez ouvrir la vue IA.

    Étape 13

  3. Accédez à l'onglet Bloc de texte. Les résultats de l'OCR sont stockés dans le document :

    Étape 13

Étape suivante

Mettez à jour les documents existants avec l'extraction à l'aide du pipeline Document AI.