- 资源:DataStore
- JSON 表示法
- ContentConfig
- AdvancedSiteSearchConfig
- LanguageInfo
- NaturalLanguageQueryUnderstandingConfig
- Mode
- BillingEstimation
- WorkspaceConfig
- 类型
- DocumentProcessingConfig
- ChunkingConfig
- LayoutBasedChunkingConfig
- ParsingConfig
- DigitalParsingConfig
- OcrParsingConfig
- LayoutParsingConfig
- HealthcareFhirConfig
- ServingConfigDataStore
- ConfigurableBillingApproach
- 方法
资源:DataStore
DataStore 在 DataStore 级别捕获全局设置和配置。
JSON 表示法 |
---|
{ "name": string, "displayName": string, "industryVertical": enum ( |
字段 | |
---|---|
name |
不可变。标识符。数据存储区的完整资源名称。格式: 此字段必须是采用 UTF-8 编码的字符串,长度上限为 1024 个字符。 |
displayName |
必需。数据存储区显示名。 此字段必须是 UTF-8 编码的字符串,长度限制为 128 个字符。否则,系统会返回 INVALID_ARGUMENT 错误。 |
industryVertical |
不可变。数据存储区注册的行业垂直领域。 |
solutionTypes[] |
数据存储区注册的解决方案。每种
|
defaultSchemaId |
仅限输出。与此数据存储区关联的默认 |
contentConfig |
不可变。数据存储区的内容配置。如果未设置此字段,服务器行为将默认为 |
createTime |
仅限输出。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
advancedSiteSearchConfig |
可选。高级网站搜索的配置。 |
languageInfo |
DataStore 的语言信息。 |
naturalLanguageQueryUnderstandingConfig |
可选。自然语言查询理解的配置。 |
kmsKeyName |
仅限输入。创建时用于保护此 DataStore 的 KMS 密钥。 必须针对需要遵守 CMEK 组织政策保护的请求进行设置。 如果此字段已设置并成功处理,则 DataStore 将受 cmekConfig 字段中指示的 KMS 密钥保护。 |
cmekConfig |
仅限输出。DataStore 的 CMEK 相关信息。 |
billingEstimation |
仅限输出。用于结算的数据大小估算。 |
aclEnabled |
不可变。 当为 目前,ACL 仅在 |
workspaceConfig |
用于存储工作区数据的数据存储区类型配置的配置。当 |
documentProcessingConfig |
文档理解和丰富功能的配置。 |
startingSchema |
在配置 此字段仅供 系统会根据有关架构的某些规则验证所提供的架构。如需了解详情,请参阅此文档。 |
healthcareFhirConfig |
可选。 |
servingConfigDataStore |
可选。在 DataStore 级层存储投放配置。 |
identityMappingStore |
不可变。关联的 |
isInfobotFaqDataStore |
可选。如果设置,则此 DataStore 为 Infobot FAQ DataStore。 |
configurableBillingApproach |
可选。可配置结算方式的配置。请参阅 |
ContentConfig
数据存储区的内容配置。
枚举 | |
---|---|
CONTENT_CONFIG_UNSPECIFIED |
默认值。 |
NO_CONTENT |
仅包含没有任何 Document.content 的文档。 |
CONTENT_REQUIRED |
仅包含具有 Document.content 的文档。 |
PUBLIC_WEBSITE |
数据存储区用于公开网站搜索。 |
GOOGLE_WORKSPACE |
数据存储区用于工作区搜索。工作区数据存储区的详细信息在 WorkspaceConfig 中指定。 |
AdvancedSiteSearchConfig
高级网站搜索的配置数据。
JSON 表示法 |
---|
{ "disableInitialIndex": boolean, "disableAutomaticRefresh": boolean } |
字段 | |
---|---|
disableInitialIndex |
如果设置为 true,则为 DataStore 停用初始索引编制。 |
disableAutomaticRefresh |
如果设置为 true,则会为 DataStore 停用自动刷新。 |
LanguageInfo
DataStore 的语言信息。
JSON 表示法 |
---|
{ "languageCode": string, "normalizedLanguageCode": string, "language": string, "region": string } |
字段 | |
---|---|
languageCode |
DataStore 的语言代码。 |
normalizedLanguageCode |
仅限输出。这是 languageCode 的规范化形式。例如: |
language |
仅限输出。normalizedLanguageCode 的语言部分。例如: |
region |
仅限输出。标准化 languageCode 的地区部分(如果有)。例如: |
NaturalLanguageQueryUnderstandingConfig
自然语言查询理解的配置。
JSON 表示法 |
---|
{
"mode": enum ( |
字段 | |
---|---|
mode |
自然语言查询理解模式。如果此字段未设置,行为将默认为 |
模式
自然语言查询理解模式。当 NaturalLanguageQueryUnderstandingConfig.Mode 为 ENABLED 时,如果 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 为 ENABLED,则会为搜索请求启用自然语言理解功能。
枚举 | |
---|---|
MODE_UNSPECIFIED |
默认值。 |
DISABLED |
自然语言查询理解功能已停用。 |
ENABLED |
自然语言查询理解已启用。 |
BillingEstimation
每个数据存储区的数据大小估计值。
JSON 表示法 |
---|
{ "structuredDataSize": string, "unstructuredDataSize": string, "websiteDataSize": string, "structuredDataUpdateTime": string, "unstructuredDataUpdateTime": string, "websiteDataUpdateTime": string } |
字段 | |
---|---|
structuredDataSize |
结构化数据的数据大小(以字节为单位)。 |
unstructuredDataSize |
非结构化数据的数据大小(以字节为单位)。 |
websiteDataSize |
网站的数据大小(以字节为单位)。 |
structuredDataUpdateTime |
结构化数据的上次更新时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
unstructuredDataUpdateTime |
非结构化数据的上次更新时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
websiteDataUpdateTime |
网站的上次更新时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
WorkspaceConfig
用于存储工作区数据的数据存储区类型配置的配置
JSON 表示法 |
---|
{
"type": enum ( |
字段 | |
---|---|
type |
Google Workspace 数据源。 |
dasherCustomerId |
模糊处理的 Dasher 客户 ID。 |
superAdminServiceAccount |
可选。将用于生成访问令牌的工作区的超级用户服务账号。目前,我们仅将其用于原生 Google 云端硬盘连接器数据注入。 |
superAdminEmailAddress |
可选。将用于生成访问令牌的工作区的超级管理员电子邮件地址。目前,我们仅将其用于原生 Google 云端硬盘连接器数据注入。 |
类型
指定相应 DataStore 支持的 Workspace 应用类型
枚举 | |
---|---|
TYPE_UNSPECIFIED |
默认值为未指定的工作区类型。 |
GOOGLE_DRIVE |
Workspace 数据存储区包含云端硬盘数据 |
GOOGLE_MAIL |
Workspace 数据存储区包含邮件数据 |
GOOGLE_SITES |
Workspace 数据存储区包含 Google 协作平台数据 |
GOOGLE_CALENDAR |
Workspace 数据存储区包含日历数据 |
GOOGLE_CHAT |
Workspace 数据存储区包含 Chat 数据 |
GOOGLE_GROUPS |
Workspace 数据存储区包含 Google 群组数据 |
GOOGLE_KEEP |
Workspace 数据存储区包含 Keep 数据 |
GOOGLE_PEOPLE |
Workspace 数据存储区包含人员数据 |
DocumentProcessingConfig
DataStore
的单例资源。如果在创建 DataStore
时该字段为空,且 DataStore
设置为 DataStore.ContentConfig.CONTENT_REQUIRED
,则默认解析器将默认使用数字解析器。
JSON 表示法 |
---|
{ "name": string, "chunkingConfig": { object ( |
字段 | |
---|---|
name |
文档处理配置的完整资源名称。格式: |
chunkingConfig |
分块模式是否已启用。 |
defaultParsingConfig |
默认文档解析器的配置。如果未指定,我们将按默认 DigitalParsingConfig 进行配置,并且默认解析配置将应用于文档解析的所有文件类型。 |
parsingConfigOverrides |
从文件类型到覆盖默认解析配置的映射(基于文件类型)。支持的密钥:
|
ChunkingConfig
分块配置的配置。
JSON 表示法 |
---|
{ // Union field |
字段 | |
---|---|
联合字段 chunk_mode 。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项: |
|
layoutBasedChunkingConfig |
基于布局的分块的配置。 |
LayoutBasedChunkingConfig
基于布局的分块的配置。
JSON 表示法 |
---|
{ "chunkSize": integer, "includeAncestorHeadings": boolean } |
字段 | |
---|---|
chunkSize |
每个块的令牌大小限制。 支持的值:100-500(含)。默认值:500。 |
includeAncestorHeadings |
是否在从文档中间部分创建的分块中附加不同级别的标题,以防止丢失上下文。 默认值:False。 |
ParsingConfig
应用于特定类型的文档解析器的相关配置。
JSON 表示法 |
---|
{ // Union field |
字段 | |
---|---|
联合字段 type_dedicated_config 。文档处理类型的配置。type_dedicated_config 只能是下列其中一项: |
|
digitalParsingConfig |
已应用于数字解析器的配置。 |
ocrParsingConfig |
应用于 OCR 解析器的配置。目前,此功能仅适用于 PDF 文件。 |
layoutParsingConfig |
应用于布局解析器的配置。 |
DigitalParsingConfig
此类型没有字段。
文档的数字化解析配置。
OcrParsingConfig
文档的 OCR 解析配置。
JSON 表示法 |
---|
{ "enhancedDocumentElements": [ string ], "useNativeText": boolean } |
字段 | |
---|---|
enhancedDocumentElements[] |
[已弃用] 此字段已弃用。如需使用其他增强型文档元素处理功能,请切换到 |
useNativeText |
如果为 true,则在包含原生文本的网页上使用原生文本,而不是 OCR 文本。 |
LayoutParsingConfig
文档的布局解析配置。
JSON 表示法 |
---|
{ "enableTableAnnotation": boolean, "enableImageAnnotation": boolean, "structuredContentTypes": [ string ], "excludeHtmlElements": [ string ], "excludeHtmlClasses": [ string ], "excludeHtmlIds": [ string ], "enableGetProcessedDocument": boolean } |
字段 | |
---|---|
enableTableAnnotation |
可选。如果为 true,系统会在解析期间,将基于 LLM 的注解添加到表格。 |
enableImageAnnotation |
可选。如果为 true,系统会在解析期间,将基于 LLM 的注解添加到图片。 |
structuredContentTypes[] |
可选。包含要从文档中提取的必需结构类型。支持的值:
|
excludeHtmlElements[] |
可选。要从已解析的内容中排除的 HTML 元素的列表。 |
excludeHtmlClasses[] |
可选。要从解析的内容中排除的 HTML 类列表。 |
excludeHtmlIds[] |
可选。要从已解析的内容中排除的 HTML ID 列表。 |
enableGetProcessedDocument |
可选。如果为 true,则处理后的文档将可用于 GetProcessedDocument API。 |
HealthcareFhirConfig
针对 HEALTHCARE_FHIR
垂直行业的数据存储区配置。
JSON 表示法 |
---|
{ "enableConfigurableSchema": boolean, "enableStaticIndexingForBatchIngestion": boolean } |
字段 | |
---|---|
enableConfigurableSchema |
是否为 如果设置为 |
enableStaticIndexingForBatchIngestion |
是否为 如果设置为 |
ServingConfigDataStore
在 DataStore 级别存储有关服务配置的信息。
JSON 表示法 |
---|
{ "disabledForServing": boolean } |
字段 | |
---|---|
disabledForServing |
可选。如果设置为 true,则 DataStore 将无法用于处理搜索请求。 |
ConfigurableBillingApproach
可配置结算方式的配置。
枚举 | |
---|---|
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED |
默认值。适用于 Spark 和非 Spark 不可配置的结算方式。 |
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE |
对于非嵌入存储空间,使用订阅基础费用 + 超额使用费结算方式来结算索引核心费用。 |
CONFIGURABLE_CONSUMPTION_EMBEDDING |
使用按用量付费的嵌入式存储空间加购项。 |
方法 |
|
---|---|
|
使用关键字建议补全指定的用户输入内容。 |
|
创建 DataStore 。 |
|
删除 DataStore 。 |
|
获取 DataStore 。 |
|
获取 SiteSearchEngine 。 |
|
列出与项目关联的所有 DataStore 。 |
|
更新 DataStore |
|
训练自定义模型。 |