支持的功能

本页面介绍了 Document AI Warehouse 支持的功能和限制。

主要特性

功能 说明 支持
管理访问权限控制 控制哪些用户有权访问 Document AI Warehouse 中的哪些资源,以及他们拥有何种级别的访问权限。
管理文档架构 文档架构用于定义 Document AI Warehouse 中文档类型(例如,账单或工资单)的结构,管理员可以在其中指定不同数据类型(文本 | 数值 | 日期 | 枚举)的属性。
管理文档 提供用于创建、提取、更新和删除文档的操作。 Document AI Warehouse 使用文档作为数据模型来整理现实世界中的文档(例如 PDF 或 .txt)及其关联的属性。
将文档整理到文件夹中 文件夹充当容器,用于对文档进行分组和添加标签。用户可以将文档附加到多个文件夹,而一个文件夹可以包含多个文档。
搜索文档
  • 全文搜索(文本搜索)
    • 它能够识别满足查询条件的自然语言文档,并可选择按与查询的相关性对这些文档进行排序。借助 Document AI Warehouse,客户可以在搜索请求中以字符串格式指定查询。
  • 属性过滤(客户元数据过滤)
    • 如果您想使用某个属性来包含或排除搜索中的一部分文档,请将该属性标记为可过滤。例如,您可能会将表示“供应商”的属性设为可过滤,因为用户希望搜索特定供应商的账单。
高级搜索 Document AI Warehouse 提供了一项名为“自定义同义词”的功能,可让客户为其特定网域提供自己的同义词

支持的文件

有关支持的格式MIME 类型的完整详情。

格式 支持的 API 界面手动上传 界面渲染 raw_document_file_type/content_category used
联合图像专家组 (JPEG/JPG) CONTENT_CATEGORY_IMAGE
标记图像文件格式 (tif/tiff) 文件应以 TIFF 文件的形式手动上传 RAW_DOCUMENT_FILE_TYPE_TIFF
Microsoft Word (doc/docx) 文件应以 docx 文件的形式手动上传。 RAW_DOCUMENT_FILE_TYPE_DOCX
Microsoft Excel 文件 (xls/xlsx) RAW_DOCUMENT_FILE_TYPE_XLSX
Microsoft PowerPoint 文件 (ppt/pptx) RAW_DOCUMENT_FILE_TYPE_PPTX
便携式文档格式 (pdf) RAW_DOCUMENT_FILE_TYPE_PDF
纯文本 (txt) RAW_DOCUMENT_FILE_TYPE_TEXT
便携式网络图形 (png) CONTENT_CATEGORY_IMAGE
位图 (bmp) CONTENT_CATEGORY_IMAGE
图形交换格式 (gif) CONTENT_CATEGORY_IMAGE
超文本 (HTML) RAW_DOCUMENT_FILE_TYPE_TEXT
XML (xml) RAW_DOCUMENT_FILE_TYPE_TEXT
富文本格式 (rtf) RAW_DOCUMENT_FILE_TYPE_UNSPECIFIED

正在预配

功能 稳定版 普通 快速
界面服务
Google Cloud 控制台

处理文档

功能 稳定版 普通 快速
通过界面上传文件
批量上传

API 客户端库

Document AI Warehouse 的客户端库有助于支持编写与 Google Cloud集成的自定义代码。所有服务均可通过客户端库访问。

稳定版 普通 快速
Java
Python