Pipeline „In Workbench exportieren“

Mit der Pipeline „In Workbench exportieren“ können Sie Dokumente aus Document AI Warehouse in Document AI Workbench übertragen. Die Pipeline exportiert die Dokumente in einen Cloud Storage-Ordner und importiert sie dann in ein Document AI-Dataset. Sie geben den Cloud Storage-Ordner und das Document AI-Dataset an.

Vorbereitung

Für den Start ist Folgendes erforderlich:

  • Google Cloud Erstellen Sie im selben Projekt einen Prozessor. Folgen Sie dazu dieser Anleitung.
  • Weisen Sie einen leeren Cloud Storage-Ordner zum Speichern exportierter Dokumente zu.

  • Klicken Sie auf der Seite für den benutzerdefinierten Prozessor auf Dataset konfigurieren und dann auf Weiter, um das Dataset zu initialisieren.

Pipeline ausführen

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

Das Aufteilungsverhältnis für Training und Tests kann im Feld training_split_ratio als Gleitkommazahl angegeben werden. Wenn das Verhältnis beispielsweise für eine Gruppe von 10 Dokumenten als 0.8 angegeben ist, werden 8 Dokumente dem Trainings-Dataset und die restlichen 2 Dokumente dem Test-Dataset hinzugefügt.

Dieser Befehl gibt einen Ressourcennamen für einen Vorgang mit langer Ausführungszeit zurück. Damit können Sie im nächsten Schritt den Fortschritt der Pipeline verfolgen.

Ergebnis eines Vorgangs mit langer Ausführungszeit abrufen

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Nächster Schritt

  • Rufen Sie Document AI auf, um die exportierten Dokumente zu prüfen.