Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Document AI の概要

このドキュメントでは、Document AI の使用方法に関する基本的なコンセプトについて説明します。他のドキュメントやクイックスタートに進む前に、このページをお読みください。

ドキュメント処理ワークフローを自動化する

世界中の企業が、情報を保存して伝達するためにドキュメントに大きく依存しています。この情報を活用するには、デジタル化が必要になることがよくあります。ただし、通常は時間のかかる手動プロセスで行われます。

次に例を示します。

電子書籍リーダー用の書籍のデジタル化。
医療機関での問診票の処理。
経費精算書の検証のための領収書と請求書の解析。
身分証明書に基づく本人確認。
ローンの承認のための税務書類からの収入情報の抽出。
主要なビジネス契約条件の契約内容の把握。

これらのワークフローでは、ドキュメントから生のテキストを取得し、必要なデータ（フィールドまたはエンティティ）に対応する特定のテキストを抽出します。ただし、ドキュメントの種類ごとに構造とレイアウトが異なり、フィールドのパターンは特定のユースケースによって異なります。

Document AI のコンポーネント

Document AI は、ドキュメント処理と理解ドキュメントから非構造化データを取り出して構造化データ（データベースに適した特定のフィールド）に変換し、ドキュメントを簡単に理解、分析、利用できるようにするプラットフォームです。

Document AI は、Vertex AI 内のプロダクトの上に構築されており、生成 AI を使用して、ML の専門知識がなくても、スケーラブルなエンドツーエンドのクラウドベースのドキュメント処理アプリケーションを作成できます。

Document AI を使用すると、次のことができます。

OCR を使用してドキュメントをデジタル化 し、テキスト、レイアウト、さまざまなアドオン（画質検出（読みやすさ用）、傾き補正（完全自動））を取得します。
ドキュメントファイルからテキストとレイアウト情報を抽出し、エンティティを正規化します。
構造化フォームと通常の表でKey-Value ペア（kvp）を識別 します。たとえば、Name: Jill Smith は kvp です。
ドキュメントタイプを分類して、抽出や保存などのダウンストリームプロセスを推進します。
ドキュメントをタイプごとに分割して分類します。たとえば、複数の実際のドキュメントを含む PDF ファイルなどです。
ドキュメントと予測のレビューなどの自動ラベリング、スキーマ管理、データセット管理機能を使用して、ファインチューニングとモデル評価で使用するデータセットを準備 します。
Cloud Storage、BigQuery、Agent Search などのプロダクトと統合 して、ドキュメントとメタデータの保存、検索、整理、管理、分析を行います。

この図は、Document AI でサポートされている主要なドキュメント処理ステップと、それらの接続方法を示しています。

docai-overview-1

プロセッサ

Document AI プロセッサは、ドキュメントファイルと、ドキュメント処理と理解のアクションを実行する ML モデルの間にあります。プロセッサはドキュメントの分類、分割、解析、分析に使用されます。

プロジェクトごとに、独自のプロセッサインスタンスを作成する必要があります。 Google Cloud

プロセッサは次のいずれかのカテゴリに分類されます。

デジタル化: OCR。
抽出: カスタムエクストラクタ、Form パーサー、レイアウトパーサー、事前トレーニング済みパーサー。
分類: カスタム分類器とカスタムスプリッター。

Document AI で利用できる全プロセッサタイプについては、すべてのプロセッサと詳細の一覧をご確認ください。

どのプロセッサを使用するべきか？

特定のアプリケーションで使用するプロセッサタイプを決定するための一般的なガイドラインは次のとおりです。

カテゴリ	ユースケース	プロセッサタイプ
デジタル化	ドキュメントからテキストとレイアウト情報を抽出します。	Enterprise Document OCR
	ドキュメントのスキャン画像の品質（読みやすさ）を分析します。	画像品質分析が有効になっている Enterprise Document OCR
	カスタムプロセッサの条件を満たさないカスタムドキュメントからエンティティを抽出します。
抽出	ドキュメント内の構造化フォームから表または kvp を抽出します。	Form パーサー
	ドキュメント内のテキスト、表、リストなどの要素を抽出し、コンテキストを認識したチャンクを返します。	レイアウトパーサー
	カスタムプロセッサの条件を満たすカスタムドキュメントからエンティティを抽出します。	カスタムエクストラクタを作成する
	特殊なドキュメントタイプからエンティティを抽出します。	事前トレーニング済みプロセッサ（品質を向上させるためにアップトレーニング）。
分類	ドキュメントを分類します。	カスタム分類器を作成する
分類	ドキュメントを分割します。	カスタムスプリッターを作成する

この図は、各ユースケースに最適なプロセッサを判断するのに役立ちます。

docai-overview-2

Document AI プロセッサを使用する

Document AI を使用してドキュメントの処理を開始する主な手順は次のとおりです。

ユースケースに適したプロセッサを選択 します。
- 各プロセッサの詳細については、すべてのプロセッサと詳細の一覧をご覧ください。
プロセッサを作成するには、 Google Cloud コンソールまたは Document AI API を使用します。
- Document AI は、ドキュメントを送信できる予測エンドポイント を作成します。
- 詳細な手順については、プロセッサを作成するをご覧ください。
トレーニングデータとテストデータを使用してプロセッサをトレーニング するか、既存のプロセッサの上に新しい（事前トレーニング済み）プロセッサバージョンをアップトレーニングします。
- 詳細な手順については、プロセッサをトレーニングするをご覧ください。
処理するドキュメントを送信 します。
- Document AI はドキュメントを処理し、抽出された構造化情報を含む 1 つ以上の Document オブジェクトを返します。
- 詳細な手順については、処理リクエストを送信すると処理レスポンスを処理するをご覧ください。

Document AI を試す