Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Export-to-Workbench パイプライン

Document AI ウェアハウスから Document AI ワークベンチにドキュメントを転送するには、export-to-Workbench パイプラインを使用します。このパイプラインは、ドキュメントを Cloud Storage フォルダにエクスポートしてから、Document AI データセットにインポートします。Cloud Storage フォルダと Document AI データセットを指定します。

前提条件

始める前に、次のものが必要になります。

同じ Google Cloud プロジェクトで、プロセッサを作成する手順に沿って操作します。
エクスポートされたドキュメントを保存するための空の Cloud Storage フォルダを用意します。
カスタムプロセッサのページで、[データセットを構成]、[続行] の順にクリックして、データセットを初期化します。

パイプラインの実行

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

トレーニングとテストの分割比率は、training_split_ratio フィールドで浮動小数点数として指定できます。たとえば、10 個のドキュメントのセットで、比率が 0.8 と指定されている場合、8 個のドキュメントがトレーニングセットに追加され、残りの 2 個のドキュメントがテストセットに追加されます。

このコマンドは、長時間実行オペレーションのリソース名を返します。次のステップで、これを使用してパイプラインの進行状況を追跡します。

長時間実行オペレーションの結果を取得する

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

次のステップ

Document AI に移動して、エクスポートしたドキュメントを確認します。

Export-to-Workbench パイプライン コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

前提条件

パイプラインの実行

REST

長時間実行オペレーションの結果を取得する

REST

次のステップ

Export-to-Workbench パイプライン