Pipeline di esportazione in Workbench

Puoi trasferire documenti da Document AI Warehouse a Document AI Workbench utilizzando la pipeline di esportazione in Workbench. La pipeline esporta i documenti in una cartella Cloud Storage, quindi li importa in un set di dati Document AI. Fornisci la cartella Cloud Storage e il set di dati Document AI.

Prerequisiti

Prima di iniziare, devi disporre di quanto segue:

  • Nello stesso progetto Google Cloud , segui i passaggi per creare un processore.
  • Dedica una cartella Cloud Storage vuota all'archiviazione dei documenti esportati.

  • Nella pagina del processore personalizzato, fai clic su Configura il set di dati e poi su Continua per inizializzare il set di dati.

esegui la pipeline.

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

Il rapporto di suddivisione tra addestramento e test può essere specificato nel campo training_split_ratio come numero in virgola mobile. Ad esempio, per un insieme di 10 documenti, se il rapporto è specificato come 0.8, 8 documenti verranno aggiunti al set di addestramento e i 2 rimanenti al set di test.

Questo comando restituisce il nome di una risorsa per un'operazione a lunga esecuzione. Utilizzalo per monitorare l'avanzamento della pipeline nel passaggio successivo.

Ottieni il risultato dell'operazione a lunga esecuzione

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Passaggio successivo

  • Vai a Document AI per controllare i documenti esportati.