このドキュメントでは、作成、取得、一覧表示、更新、削除などのオペレーションを含め、Document AI ウェアハウスでドキュメント スキーマを管理する方法について説明します。
ドキュメント スキーマとは
各ドキュメントは特定のドキュメント タイプであり、スキーマで指定されます。
ドキュメント スキーマは、Document AI ウェアハウス内でのドキュメント タイプ(請求書や給与明細書など)の構造を定義します。管理者はここでさまざまなデータタイプのプロパティ(テキスト | 数値 | 日付 | 列挙値)を指定します。
プロパティは、抽出されたデータ、分類タグ、または AI ユーザーや人間ユーザーがドキュメントに追加したその他のビジネス タグを表すために使用されます(例: Invoice_Amount(数値)、Due_Date(日付)、Supplier_Name(テキスト))。
プロパティの属性: 各プロパティは次のように宣言できます。
フィルタ可能 - 検索結果のフィルタに使用できます
検索可能 - 検索クエリで検索できるようにインデックス登録されている
必須 -
requiredは、プロパティがドキュメントに存在することを確認するために使用されます(プロパティが必須でない限り、ほとんどのプロパティをrequired = falseとして保存することをおすすめします)。
拡張可能なスキーマ: 編集権限を持つエンドユーザーが、ドキュメントに新しいスキーマ プロパティを追加 / 削除する必要がある場合があります。これは、Key-Value ペアのリストである「MAP プロパティ」でサポートされています。
MAP プロパティの各 Key-Value ペアは、データ型(Text | Numeric | Date | Enumeration)にできます。
たとえば、請求書には次の Key-Value ペアを含むマップ プロパティ「Invoice_Entities」が含まれている場合があります。
Invoice_Amount(数値)1000
Due_Date(日付)12/24/2021
Supplier_Name(テキスト)ABC Corp
スキーマの不変性: スキーマまたはスキーマ プロパティは追加できますが、現時点では編集や削除はできないため、スキーマを慎重に定義してください。
始める前に
始める前に、クイックスタート ページを完了していることを確認してください。
スキーマの作成
ドキュメント スキーマを作成します。
REST
curl --location --request POST --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--data '{
"display_name": "Test Doc Schema",
"property_definitions": [
{
"name": "plaintiff",
"display_name": "Plaintiff",
"is_searchable": true,
"is_repeatable": true,
"text_type_options": {}
}
]
}'Python
詳細については、Document AI Warehouse Python API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
詳細については、Document AI Warehouse Java API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
詳細については、Document AI Warehouse Node.js API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
スキーマを取得する
ドキュメント スキーマの詳細を取得します。
REST
curl --request GET --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/{document_schema_id} \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8"Python
詳細については、Document AI Warehouse Python API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
詳細については、Document AI Warehouse Java API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
詳細については、Document AI Warehouse Node.js API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
スキーマのリスト取得
ドキュメント スキーマを一覧表示します。
REST
curl --request GET --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8"Python
詳細については、Document AI Warehouse Python API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
詳細については、Document AI Warehouse Java API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
スキーマを削除する
ドキュメント スキーマを削除します。
REST
curl --request DELETE --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/{document_schema_id} \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8"Python
詳細については、Document AI Warehouse Python API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
詳細については、Document AI Warehouse Java API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
詳細については、Document AI Warehouse Node.js API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
スキーマを更新する
ドキュメント スキーマを更新します。現在、更新ロジックは新しいプロパティ定義の追加のみをサポートしています。新しいドキュメント スキーマには、既存のスキーマに存在するすべてのプロパティ定義を含める必要があります。
サポート対象:
- 既存のプロパティの場合、ユーザーはメタデータ設定
is_repeatable、is_metadata、is_requiredを変更できます。 - 既存の ENUM プロパティの場合、ユーザーは新しい ENUM の可能な値を追加したり、既存の ENUM の可能な値を削除したりできます。
EnumTypeOptions.validation_check_disabledフラグを更新して、検証チェックを無効にできます。検証チェックは、CreateDocumentAPI を呼び出すときに、ドキュメントで指定された ENUM 値が、プロパティ定義で定義された ENUM 値の範囲内にあることを確認するために使用されます。 - 新しいプロパティ定義の追加がサポートされています。
- 既存のプロパティの場合、ユーザーはメタデータ設定
サポート対象外:
- 既存のスキーマでは、
display_nameとdocument_is_folderの更新は許可されていません。 - 既存のプロパティでは、
name、display_name、value_type_optionsの更新は許可されません。
- 既存のスキーマでは、
REST
curl --request PATCH --url https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/documentSchemas/{document_schema_id} \
--header "Authorization: Bearer $(gcloud auth print-access-token)" \
--header "Content-Type: application/json; charset=UTF-8" \
--data '{
"document_schema": {
"display_name": "Test Doc Schema",
"property_definitions": [
{
"name": "plaintiff",
"display_name": "Plaintiff",
"is_repeatable": true,
"text_type_options": {}
}
]
}
}'Python
詳細については、Document AI Warehouse Python API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
詳細については、Document AI Warehouse Java API リファレンス ドキュメントをご覧ください。
Document AI Warehouse に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
次のステップ
- ドキュメントの管理方法については、ドキュメントの管理に進んでください。