Pipeline „Mit Document AI verarbeiten“

Mit der Pipeline „Mit Document AI verarbeiten“ können Nutzer vorhandene Dokumente mit einem Document AI-Prozessor verarbeiten und die Dokumentattribute mit den neu extrahierten Entitäten aktualisieren.

Vorbereitung

Für den Start ist Folgendes erforderlich:

  1. Ein Document AI-Prozessor, der im selben Google Cloud-Projekt bereit ist.

    • Wenn Sie keinen Prozessor haben, erstellen Sie einen. Sie können einen beliebigen Typ erstellen, sofern der Prozessortyp mit dem Dokumenttyp übereinstimmt.
  2. Dedizierte Cloud Storage-Ordner zum Speichern exportierter und verarbeiteter Dokumente.

    • Achten Sie darauf, dass die Ordner leer sind, bevor Sie die Pipeline starten.
  3. Ein Schema mit Zuordnungen zwischen Document AI-Entitäten und Document AI Warehouse-Properties.

Pipeline ausführen

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

Die Liste documents enthält die Ressourcennamen der zu verarbeitenden Dokumente. Der Cloud Storage-Ordnerpfad export_folder_path wird verwendet, um die exportierten Dokumente zu speichern, bevor sie an den Prozessor gesendet werden. Weitere Informationen zu den Feldern im Anfragetext finden Sie in der API-Dokumentation.

Dieser Befehl gibt einen Ressourcennamen für einen Vorgang mit langer Ausführungszeit zurück. Mit diesem Ressourcennamen können Sie den Fortschritt der Pipeline im nächsten Schritt verfolgen.

Ergebnis eines Vorgangs mit langer Ausführungszeit abrufen

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Nächste Schritte

Rufen Sie die Document AI Warehouse-Benutzeroberfläche auf oder rufen Sie die document:get API auf, um zu prüfen, ob Dokumente erfolgreich aktualisiert wurden.