Sie können Dokumente aus Document AI Warehouse mit der Pipeline „Nach Workbench exportieren“ in die Document AI Workbench übertragen. Die Pipeline exportiert die Dokumente in einen Cloud Storage-Ordner und importiert sie dann in ein Document AI-Dataset. Sie geben den Cloud Storage-Ordner und das Document AI-Dataset an.
Vorbereitung
Für den Start ist Folgendes erforderlich:
- Folgen Sie im selben Google Cloud Projekt der Anleitung zum Erstellen eines Prozessors .
Erstellen Sie einen leeren Cloud Storage-Ordner zum Speichern exportierter Dokumente.
Klicken Sie auf der Seite des benutzerdefinierten Prozessors auf Dataset konfigurieren und dann auf Weiter, um das Dataset zu initialisieren.
Pipeline ausführen
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer ${AUTH_TOKEN}" \ --data '{ "name": "projects/PROJECT_NUMBER/locations/LOCATION", "export_cdw_pipeline": { "documents": [ "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT", ], "export_folder_path": "gs://CLOUD STORAGE FOLDER", "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset", "training_split_ratio": RATIO, }, "request_metadata": { "user_info": { "id": "user:USER EMAIL ADDRESS", } }}'
Das Aufteilungsverhältnis für Training und Tests kann im Feld training_split_ratio als Gleitkommazahl angegeben werden. Wenn das Verhältnis beispielsweise für einen Satz von 10 Dokumenten als 0.8 angegeben wird, werden 8 Dokumente dem Trainings-Dataset und die restlichen 2 Dokumente dem Test-Dataset hinzugefügt.
Dieser Befehl gibt einen Ressourcennamen für einen Vorgang mit langer Ausführungszeit zurück. Verwenden Sie ihn, um den Fortschritt der Pipeline im nächsten Schritt zu verfolgen.
Ergebnis des Vorgangs mit langer Ausführungszeit abrufen
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"Nächster Schritt
- Rufen Sie Document AI auf, um die exportierten Dokumente zu prüfen.