Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ドキュメントを Document AI Workbench にエクスポートする

このドキュメントでは、Document AI Warehouse から Document AI Workbench のカスタムドキュメントエクストラクタ（CDE）のデータセットにドキュメントをエクスポートする方法について説明します。

CDE を使用すると、ドキュメントエクストラクタを作成できます。ドキュメントをプロセッサデータセットにインポートし、ラベルを付けてからモデルをトレーニングします。選択したドキュメントを CDE のデータセットにエクスポートすると、Document AI Warehouse でドキュメントを管理または検索してデータセットを構築できます。

Document AI Workbench で CDE を作成する

CDE の作成方法の詳細な手順については、こちらの公式ガイドをご覧ください。このガイドでは、主な手順について説明します。

プロセッサリストから CDE を作成する

[My processors] ページに移動し、[Create Custom Processor] をクリックします。
[Custom Document Extractor] カードで [Create Processor] を選択します。
表示名を入力して [Create] をクリックします。

CDE はすぐに作成されます。

CDE のデータセットを設定する

プロセッサの詳細ページで、[Set Dataset Location] をクリックします。
データセットにドキュメントを保存するバケットパスを指定します。

構成が完了するまで数分かかります。完了すると、詳細ページにバケットパスと数が表示されます。

Workbench へのエクスポートパイプラインをトリガーするには、上記のプロセッサ ID が必要です。

Workbench へのエクスポートパイプラインをトリガーする

エクスポートするドキュメントを選択し、アクションバーで [Export to Document AI Workbench] をクリックします。

注: 現在、選択できるドキュメントの最大数は 3,000 です。検索結果のドキュメント数が 3,000 を超える場合、[Select All Search Results] は無効になります。検索結果のドキュメント数を減らすには、検索条件またはフィルタ条件を絞り込みます。
入力パラメータを入力し、CDE からプロセッサ ID をコピーしてダイアログに貼り付けて、パイプラインをトリガーします。

ドキュメントをエクスポートする前に一時的に保存するには、ステージングバケットパスが必要です。データの分割 を使用すると、ドキュメントをトレーニングセットまたはテストセットにランダムに配置できます。分割の比率は、この値に基づいています。

[Export] をクリックすると、パイプラインジョブがトリガーされます。
ステータスを追跡します。

パイプラインをトリガーすると、ステータストラッキングページが表示されます。現在、このページには進行状況のトラッキングはありません。ジョブが完了するまで、ステータスページに [保留中] と表示されます。
結果を確認します。
1. ジョブが完了すると、成功したドキュメントと失敗したドキュメントが表示されます。
2. ドキュメントが正しくエクスポートされているかどうかを確認するには、CDE の詳細ページに戻ります。
3. パイプラインの実行前にページを開いている場合は、更新して更新された統計情報を確認します。トレーニングセットとテストセットの分布は、データ分割の比率に基づいています。
4. ドキュメントの詳細を表示するには、[Train] タブに移動します。

次のステップ

runPipeline API の詳細を確認する。