Pipeline Process-with-Document-AI

O pipeline "Processar com a Document AI" permite que os usuários processem documentos atuais com um processador da Document AI e atualizem as propriedades do documento com as entidades recém-extraídas.

Pré-requisitos

Antes de começar, os seguintes itens são necessários:

  1. Um processador da Document AI pronto no mesmo projeto do Google Cloud.

    • Se você não tiver um, siga as etapas para criar um. Você pode criar qualquer tipo, desde que o tipo de processador corresponda ao tipo de documento.
  2. Pastas dedicadas do Cloud Storage para armazenar documentos exportados e processados.

    • Verifique se as pastas estão vazias antes de iniciar o pipeline.
  3. Um esquema com mapeamentos entre entidades da Document AI e propriedades do Warehouse da Document AI.

    • As entidades recém-extraídas podem não ser convertidas corretamente em entidades do Document AI Warehouse sem esse mapeamento.

    • Para adicionar mapeamentos ao esquema, siga Definir esquemas com mapeamento.

Executar o pipeline

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

A lista documents contém os nomes de recursos dos documentos a serem processados. O caminho da pasta do Cloud Storage export_folder_path é usado para armazenar os documentos exportados antes de serem enviados ao processador. Para mais informações sobre os campos do corpo da solicitação, consulte a documentação da API.

Esse comando retorna um nome de recurso para uma operação de longa duração. Com esse nome de recurso, é possível acompanhar o progresso do pipeline seguindo a próxima etapa.

Receber o resultado de uma operação de longa duração

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Próximas etapas

Acesse a interface do Document AI Warehouse ou chame a API document:get para verificar se os documentos foram atualizados.