Vision Warehouse 是一种 API,可让开发者将非结构化媒体内容(流式视频、图片和批量视频)的存储和基于 AI 的搜索功能集成到现有工具和应用中。
Vision Warehouse 是 Gemini Enterprise Agent Platform Vision 的主要组件。 它充当存储库,并为多种数据类型和用例提供高级搜索功能。具体而言:
- 流式视频:您可以使用 Gemini Enterprise Agent Platform Vision 平台应用或 Vision Warehouse API 导入实时视频流和实时视频分析 数据,并使用 Vision Warehouse API 或 Google Cloud 控制台搜索图片。
- 图片:您可以使用 Vision Warehouse API 导入图片和元数据,使用 Vision Warehouse API 分析图片,并使用 Vision Warehouse API 或 Google Cloud 控制台搜索图片。
- 批量视频:您可以使用 Vision Warehouse API 导入批量视频和元数据,使用 Vision Warehouse API 分析 批量视频,并使用 Vision Warehouse API 或 Google Cloud 控制台搜索批量视频。
API 资源概览

Storage API 资源
语料库:一种用于存储特定类型媒体素材资源的容器。您可以创建多个语料库来整理不同类型的媒体素材资源。
素材资源:存储在语料库中的媒体对象。素材资源可以是图片、批量视频或视频流。 语料库通常包含许多相同类型的素材资源。您可以指定与素材资源关联的注释。您还可以将素材资源分组到集合中进行管理。
集合:语料库中的一种资源,充当素材资源引用的容器。
注释:用户提供的元数据或从 Gemini Enterprise Agent Platform Vision 派生的与素材资源关联的数据。一个素材资源可以有多个注释。
- 示例 1:为批量视频素材资源指定名为“video-title”的文本注解。
- 示例 2:将 Gemini Enterprise Agent Platform Vision 模型中的分析数据存储为注释。例如,不同视频时间帧中的对象识别标签可以存储为注释。
数据架构:定义如何在语料库中解读注解。数据架构定义一种注解类型及其搜索策略。每个注解都必须与数据架构相关联。
Search API 资源
索引 (适用于图片和批量视频垂直领域):一种语料库级资源,是分析后的素材资源和注释的受管理表示形式。索引可以视为嵌入向量和语义限制的数据集,用于表示媒体内容的含义。索引可以部署到索引端点以进行搜索。
索引端点 (适用于图片和批量视频垂直领域):一种用于提供 Vision Warehouse 索引的受管理环境。索引端点提供用于发送搜索请求的单一访问点。
搜索配置:存储影响搜索行为和搜索结果的各种属性。
- 分面属性(适用于流式视频垂直领域):创建配置以启用基于分面的直方图搜索结果。
- 搜索条件属性(适用于流式视频和批量视频垂直领域):在自定义搜索条件与一个或多个数据架构键之间创建映射。
上位词搜索:一种特定类型的搜索配置,可让您自定义搜索服务识别字词上位词的能力。例如,用户可以将“animal”指定为“cat”和“dog”的上位词。搜索“animal”时,系统还会返回索引数据中包含“cat”和“dog”的结果。
支持的语言
批量视频仓库和图片仓库支持以下语言进行语义搜索:
- 英语
- 西班牙语
- 葡萄牙语
- 法语
- 日语
- 中文
流式仓库没有语言限制。