Pipeline "Process-with-Document-AI"

Le pipeline "Traiter avec Document AI" permet aux utilisateurs de traiter des documents existants avec un processeur Document AI et de mettre à jour les propriétés des documents avec les nouvelles entités extraites.

Prérequis

Avant de commencer, vous avez besoin des éléments suivants :

  1. Un processeur Document AI prêt à l'emploi dans le même projet Google Cloud.

    • Si vous n'en avez pas, suivez la procédure pour en créer un. Vous pouvez choisir de créer n'importe quel type, à condition que le type de processeur corresponde au type de document.
  2. Dossiers Cloud Storage dédiés au stockage des documents exportés et traités.

    • Assurez-vous que les dossiers sont vides avant de démarrer le pipeline.
  3. Schéma avec des mappages entre les entités Document AI et les propriétés Document AI Warehouse.

    • Sans ce mappage, les entités nouvellement extraites risquent de ne pas être correctement converties en entités Document AI Warehouse.

    • Pour ajouter des mappages au schéma, suivez Définir des schémas avec le mappage.

Exécuter le pipeline

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

La liste documents contient les noms de ressources des documents à traiter. Le chemin d'accès au dossier Cloud Storage export_folder_path est utilisé pour stocker les documents exportés avant leur envoi au processeur. Pour en savoir plus sur les champs du corps de la requête, consultez la documentation de l'API.

Cette commande renvoie un nom de ressource pour une opération de longue durée. Avec ce nom de ressource, vous pouvez suivre la progression du pipeline en passant à l'étape suivante.

Obtenir le résultat d'une opération de longue durée

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Étapes suivantes

Accédez à l'UI Document AI Warehouse ou appelez l'API document:get pour vérifier si les documents ont bien été mis à jour.