制限

このドキュメントでは、Document AI に適用されるシステムの上限について説明します。割り当てとは異なり、システムの上限は変更できません。

コンテンツの上限

次のコンテンツの上限は、すべての Document AI プロセッサに適用されます。

コンテンツの上限
画像の最大解像度
(PDF ファイルには適用されません)
4,000 万ピクセル(画像に複数のページが含まれている場合はページごと)
オンライン処理リクエストの最大ファイルサイズ 40 MB
バッチ処理リクエストの最大ファイルサイズ 1 GB
バッチ処理リクエストあたりのファイル数 5,000 ファイル

プロセッサの上限

上限は現在のリストで定義されています。

抽出プロセッサ

プロセッサ 上限
カスタム エクストラクタ
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 200
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30
Form パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 100
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30
レイアウト パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 500
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30

分類プロセッサ

プロセッサ 上限
カスタム分類器
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 200
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30
カスタム スプリッター
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 1000
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30

デジタル化プロセッサ

プロセッサ 上限
Enterprise Document OCR(光学式文字認識)
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 500
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30

事前トレーニング済みプロセッサ

プロセッサ 上限
銀行明細書パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 30
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30
W2 パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 15
最大ページ数(画像なしモードのオンライン/同期リクエスト): 15
米国パスポート パーサー
最大ページ数(オンライン/同期リクエスト): 2
最大ページ数(バッチ/オフライン/非同期リクエスト): 2
最大ページ数(画像なしモードのオンライン/同期リクエスト): 2
光熱費パーサー
最大ページ数(オンライン/同期リクエスト): 10
最大ページ数(バッチ/オフライン/非同期リクエスト): 200
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30
身分証明書パーサー
最大ページ数(オンライン/同期リクエスト): 2
最大ページ数(バッチ/オフライン/非同期リクエスト): 2
最大ページ数(画像なしモードのオンライン/同期リクエスト): 2
支払い明細パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 50
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30
米国運転免許証パーサー
最大ページ数(オンライン/同期リクエスト): 2
最大ページ数(バッチ/オフライン/非同期リクエスト): 2
最大ページ数(画像なしモードのオンライン/同期リクエスト): 2
経費パーサー
最大ページ数(オンライン/同期リクエスト): 10
最大ページ数(バッチ/オフライン/非同期リクエスト): 10
最大ページ数(画像なしモードのオンライン/同期リクエスト): 10
請求書パーサー
最大ページ数(オンライン/同期リクエスト): 15
最大ページ数(バッチ/オフライン/非同期リクエスト): 200
最大ページ数(画像なしモードのオンライン/同期リクエスト): 30

Document AI の制限事項

Document AI には現在、次の制限があります。

条件 安定版リリース 2023 年 7 月
データセット
  • ドキュメントの合計数: 最大 30,000
  • ページの合計数: 最大 250,000
処理時間
    バッチジョブは非同期で処理され、 リアルタイム アプリケーション向けに設計されていません。ほとんどのジョブは、実行の開始後 12 ~ 24 時間 以内に完了します(キュー時間は含まれません)。24 時間が経過すると、未完了のジョブはキャンセルされます。完了したリクエストに対してのみ課金されます。
ドキュメントのインポート
  • インポートあたりのドキュメント数: 最大 5,000
  • ドキュメントあたりのページ数: 最大 200
カスタム ドキュメント エクストラクタ(CDE)をトレーニングする際の上限 モデルベースのトレーニング (GA)
  • トレーニング データセットの上限: 25,000 ドキュメント、100,000 ページ
  • トレーニング データセットの最小値: 10 個のドキュメントごとに少なくとも 1 つのラベルに各ラベルが存在する必要があります
  • テスト データセットの上限: 2,000 ドキュメント、8,000 ページ
  • テスト データセットの最小値: 少なくとも 10 個のドキュメントにすべてのラベルが存在する必要があります
  • ドキュメントあたりのページ数: 最大 200

テンプレートベースのトレーニング(GA)
  • トレーニング データセットの上限: 300 ドキュメント、300 ページ
  • トレーニング データセットの最小値: 少なくとも 3 個のドキュメントにすべてのラベルが存在する必要があります
  • テスト データセットの上限: 2,000 ドキュメント、8,000 ページ
  • テスト データセットの最小値: 少なくとも 3 個のドキュメントにすべてのラベルが存在する必要があります
  • ドキュメントあたりのページ数: 最大 20
カスタム ドキュメント分類器(CDC)またはカスタム ドキュメント スプリッター(CDS)をトレーニングする際の上限
  • トレーニング データセットの上限: 30,000 ドキュメント、100,000 ページ
  • トレーニング データセットの最小値: 少なくとも 10 個のドキュメントにすべてのラベルが存在する必要があります
  • テスト データセットの上限: 2,000 ドキュメント、8,000 ページ
  • テスト データセットの最小値: 少なくとも 2 個のドキュメントにすべてのラベルが存在する必要があります
  • ドキュメントあたりのページ数: 最大 200
ラベル付け
  • まず、ドキュメント ラベルが定義された最小トレーニングしきい値と評価しきい値を満たしていることを確認します。
  • レイアウトが異なるドキュメントのモデルのパフォーマンスの評価を開始するには、少なくとも 100 個のドキュメントにラベルを付けます。具体的には、トレーニングで 50 個のドキュメント、評価で 50 個のドキュメントに各ラベルが存在することを確認します。
  • 許容されるラベル(フィールド)の最大数: 150
  • ラベルサイズの制限(文字数): 長いアイテムは十分にサポートされていませんが、明示的な制限はありません。ドキュメントを 800 ~ 1,000 トークンのチャンクに分割し、チャンク間で 100 ~ 200 トークンを重複させます。(重複する領域よりも長いアイテムでは、品質の問題が発生する可能性があります)。
  • ドキュメント内のラベルの出現回数: 制限なし
地理的な対象範囲
  • 一般的にサポートされているリージョン: 米国、EU(マルチリージョン)
  • アクセスが制限されているリージョン: ドイツ、シンガポール、英国、カナダ、インド、オーストラリア