Pipeline Ekspor-ke-Workbench

Anda dapat mentransfer dokumen dari Document AI Warehouse ke Document AI Workbench menggunakan pipeline ekspor-ke-Workbench. Pipeline mengekspor dokumen ke folder Cloud Storage, lalu mengimpornya ke set data Document AI. Anda memberikan folder Cloud Storage dan set data Document AI.

Prasyarat

Sebelum memulai, Anda memerlukan hal berikut:

  • Dalam Google Cloud project yang sama, ikuti langkah-langkah untuk membuat prosesor .
  • Siapkan folder Cloud Storage kosong untuk menyimpan dokumen yang diekspor.

  • Di halaman pemroses kustom, klik Konfigurasi Set Data Anda, lalu klik Lanjutkan untuk menginisialisasi set data.

Menjalankan pipeline

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

Rasio pemisahan pelatihan dan pengujian dapat ditentukan di kolom training_split_ratio sebagai angka floating point. Misalnya, untuk sekumpulan 10 dokumen, jika rasio ditentukan sebagai 0.8, 8 dokumen akan ditambahkan ke set pelatihan dan 2 dokumen sisanya ke set pengujian.

Perintah ini menampilkan nama resource untuk operasi yang berjalan lama. Gunakan ID tersebut untuk melacak progres pipeline pada langkah berikutnya.

Mendapatkan hasil operasi yang berjalan lama

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

Langkah berikutnya

  • Buka Document AI Anda untuk memeriksa dokumen yang diekspor.