Pipeline de exportação para o Workbench

É possível transferir documentos do Document AI Warehouse para o Document AI Workbench usando o pipeline de exportação para o Workbench. O pipeline exporta os documentos para uma pasta do Cloud Storage e os importa para um conjunto de dados da Document AI. Você fornece a pasta do Cloud Storage e o conjunto de dados da Document AI.

Pré-requisitos

Antes de começar, os seguintes itens são necessários:

  • No mesmo projeto Google Cloud , siga as etapas para criar um processador .
  • Dedique uma pasta vazia do Cloud Storage para armazenar os documentos exportados.

  • Na página do processador personalizado, clique em Configurar seu conjunto de dados e em Continuar para inicializar o conjunto de dados.

Executar o pipeline

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

A proporção de divisão de treinamento e teste pode ser especificada no campo training_split_ratio como um número de ponto flutuante. Por exemplo, para um conjunto de 10 documentos, se a proporção for especificada como 0.8, 8 documentos serão adicionados ao conjunto de treinamento e os 2 restantes ao conjunto de teste.

Esse comando retorna um nome de recurso para uma operação de longa duração. Use-o para acompanhar o progresso do pipeline na próxima etapa.

Receber o resultado de uma operação de longa duração

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Próxima etapa

  • Acesse a Document AI para ver os documentos exportados.