Canalización de exportación a Workbench

Puedes transferir documentos de Document AI Warehouse a Document AI Workbench con la canalización de exportación a Workbench. La canalización exporta los documentos a una carpeta de Cloud Storage y, luego, los importa a un conjunto de datos de Document AI. Proporcionas la carpeta de Cloud Storage y el conjunto de datos de Document AI.

Requisitos previos

Antes de comenzar, necesitas lo siguiente:

  • En el mismo proyecto Google Cloud , sigue los pasos para crear un procesador .
  • Dedica una carpeta vacía de Cloud Storage para almacenar los documentos exportados.

  • En la página del procesador personalizado, haz clic en Configurar tu conjunto de datos y, luego, en Continuar para inicializar el conjunto de datos.

Ejecuta la canalización

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

La proporción de división de entrenamiento y prueba se puede especificar en el campo training_split_ratio como un número de punto flotante. Por ejemplo, para un conjunto de 10 documentos, si la proporción se especifica como 0.8, se agregarán 8 documentos al conjunto de entrenamiento y los 2 restantes al conjunto de prueba.

Este comando devuelve un nombre de recurso para una operación de larga duración. Úsalo para hacer un seguimiento del progreso de la canalización en el siguiente paso.

Obtén el resultado de la operación de larga duración

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Próximo paso

  • Ve a Document AI para consultar los documentos exportados.