ドキュメントを Document AI Workbench にエクスポートする

このドキュメントでは、Document AI Warehouse から Document AI Workbench のカスタム ドキュメント エクストラクタ(CDE)のデータセットにドキュメントをエクスポートする方法について説明します。

CDE を使用すると、ドキュメント エクストラクタを作成できます。ドキュメントをプロセッサ データセットにインポートし、ラベルを付けてからモデルをトレーニングします。選択したドキュメントを CDE のデータセットにエクスポートすると、Document AI Warehouse でドキュメントを管理または検索してデータセットを構築できます。

Document AI Workbench で CDE を作成する

CDE の作成方法の詳細な手順については、こちらの公式 ガイドをご覧ください。このガイドでは、主な手順について説明します。

プロセッサ リストから CDE を作成する

  1. [My processors] ページに移動し、[Create Custom Processor] をクリックします。

    ステップ 1

  2. [Custom Document Extractor] カードで [Create Processor] を選択します。

    ステップ 2

  3. 表示名を入力して [Create] をクリックします。

    ステップ 3

CDE はすぐに作成されます。

CDE のデータセットを設定する

  1. プロセッサの詳細ページで、[Set Dataset Location] をクリックします。

    ステップ 4

  2. データセットにドキュメントを保存するバケットパスを指定します。

    ステップ 5

    構成が完了するまで数分かかります。完了すると、詳細ページにバケットパスと数が表示されます。

    ステップ 6

    Workbench へのエクスポート パイプラインをトリガーするには、上記のプロセッサ ID が必要です。

Workbench へのエクスポート パイプラインをトリガーする

  1. エクスポートするドキュメントを選択し、アクションバーで [Export to Document AI Workbench] をクリックします。

    ステップ 7

  2. 入力パラメータを入力し、CDE からプロセッサ ID をコピーしてダイアログに貼り付けて、パイプラインをトリガーします。

    ドキュメントをエクスポートする前に一時的に保存するには、ステージング バケットパスが必要です。データの分割 を使用すると、ドキュメントをトレーニング セットまたはテストセットにランダムに配置できます。分割の比率は、この値に基づいています。

    ステップ 8

    [Export] をクリックすると、パイプライン ジョブがトリガーされます。

  3. ステータスを追跡します。

    パイプラインをトリガーすると、ステータス トラッキング ページが表示されます。現在、このページには進行状況のトラッキングはありません。ジョブが完了するまで、ステータス ページに [保留中] と表示されます。

    ステップ 9

  4. 結果を確認します。

    1. ジョブが完了すると、成功したドキュメントと失敗したドキュメントが表示されます。

      ステップ 10

    2. ドキュメントが正しくエクスポートされているかどうかを確認するには、CDE の詳細ページに戻ります。

      ステップ 11

    3. パイプラインの実行前にページを開いている場合は、更新して更新された統計情報を確認します。トレーニング セットとテストセットの分布は、データ分割の比率に基づいています。

    4. ドキュメントの詳細を表示するには、[Train] タブに移動します。

      ステップ 12

次のステップ

runPipeline API の詳細を確認する。