Pipeline "Exporter vers Workbench"

Vous pouvez transférer des documents de Document AI Warehouse vers Document AI Workbench à l'aide du pipeline d'exportation vers Workbench. Le pipeline exporte les documents vers un dossier Cloud Storage, puis les importe dans un ensemble de données Document AI. Vous fournissez le dossier Cloud Storage et l'ensemble de données Document AI.

Prérequis

Avant de commencer, vous avez besoin des éléments suivants :

  • Dans le même projet Google Cloud , suivez la procédure pour créer un processeur.
  • Dédiez un dossier Cloud Storage vide au stockage des documents exportés.

  • Sur la page du processeur personnalisé, cliquez sur Configurer votre ensemble de données, puis sur Continuer pour initialiser l'ensemble de données.

Exécuter le pipeline

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

Le ratio de répartition entre l'entraînement et les tests peut être spécifié dans le champ training_split_ratio sous la forme d'un nombre à virgule flottante. Par exemple, pour un ensemble de 10 documents, si le ratio est spécifié comme 0.8, 8 documents seront ajoutés à l'ensemble d'entraînement et les 2 documents restants à l'ensemble de test.

Cette commande renvoie un nom de ressource pour une opération de longue durée. Utilisez-le pour suivre la progression du pipeline à l'étape suivante.

Obtenir le résultat d'une opération de longue durée

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Étape suivante

  • Accédez à Document AI pour vérifier les documents exportés.