É possível transferir documentos do Document AI Warehouse para o Document AI Workbench usando o pipeline de exportação para o Workbench. O pipeline exporta os documentos para uma pasta do Cloud Storage e os importa para um conjunto de dados da Document AI. Você fornece a pasta do Cloud Storage e o conjunto de dados da Document AI.
Pré-requisitos
Antes de começar, os seguintes itens são necessários:
- No mesmo projeto Google Cloud , siga as etapas para criar um processador .
Dedique uma pasta vazia do Cloud Storage para armazenar os documentos exportados.
Na página do processador personalizado, clique em Configurar seu conjunto de dados e em Continuar para inicializar o conjunto de dados.
Executar o pipeline
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer ${AUTH_TOKEN}" \ --data '{ "name": "projects/PROJECT_NUMBER/locations/LOCATION", "export_cdw_pipeline": { "documents": [ "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT", ], "export_folder_path": "gs://CLOUD STORAGE FOLDER", "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset", "training_split_ratio": RATIO, }, "request_metadata": { "user_info": { "id": "user:USER EMAIL ADDRESS", } }}'
A proporção de divisão de treinamento e teste pode ser especificada no campo training_split_ratio como um número de ponto flutuante. Por exemplo, para um conjunto de 10 documentos, se a proporção for especificada como 0.8, 8 documentos serão adicionados ao conjunto de treinamento e os 2 restantes ao conjunto de teste.
Esse comando retorna um nome de recurso para uma operação de longa duração. Use-o para acompanhar o progresso do pipeline na próxima etapa.
Receber o resultado de uma operação de longa duração
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"Próxima etapa
- Acesse a Document AI para ver os documentos exportados.