REST Resource: projects.locations.collections.dataStores

资源:DataStore

DataStore 在 DataStore 级别捕获全局设置和配置。

JSON 表示法
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "idpConfig": {
    object (IdpConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
字段
name

string

不可变。标识符。数据存储区的完整资源名称。格式:projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}

此字段必须是采用 UTF-8 编码的字符串,长度上限为 1024 个字符。

displayName

string

必需。数据存储区显示名。

此字段必须是 UTF-8 编码的字符串,长度限制为 128 个字符。否则,系统会返回 INVALID_ARGUMENT 错误。

industryVertical

enum (IndustryVertical)

不可变。数据存储区注册的行业垂直领域。

solutionTypes[]

enum (SolutionType)

数据存储区注册的解决方案。每种 industryVertical 的可用解决方案:

  • MEDIASOLUTION_TYPE_RECOMMENDATIONSOLUTION_TYPE_SEARCH
  • SITE_SEARCH:系统会自动注册 SOLUTION_TYPE_SEARCH。其他解决方案无法加入。
defaultSchemaId

string

仅限输出。与此数据存储区关联的默认 Schema 的 ID。

contentConfig

enum (ContentConfig)

不可变。数据存储区的内容配置。如果未设置此字段,服务器行为将默认为 ContentConfig.NO_CONTENT

createTime

string (Timestamp format)

仅限输出。DataStore 的创建时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

可选。高级网站搜索的配置。

languageInfo

object (LanguageInfo)

DataStore 的语言信息。

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

可选。自然语言查询理解的配置。

kmsKeyName

string

仅限输入。创建时用于保护此 DataStore 的 KMS 密钥。

必须针对需要遵守 CMEK 组织政策保护的请求进行设置。

如果此字段已设置并成功处理,则 DataStore 将受 cmekConfig 字段中指示的 KMS 密钥保护。

cmekConfig

object (CmekConfig)

仅限输出。DataStore 的 CMEK 相关信息。

idpConfig

object (IdpConfig)

仅限输出。数据存储区级身份提供方配置。

billingEstimation

object (BillingEstimation)

仅限输出。用于结算的数据大小估算。

aclEnabled

boolean

不可变。DataStore 中的数据是否具有 ACL 信息。如果设置为 true,则源数据必须具有 ACL。当通过 DocumentService.ImportDocuments 方法提取数据时,系统会提取 ACL。

当为 DataStore 启用 ACL 时,无法通过调用 DocumentService.GetDocumentDocumentService.ListDocuments 来访问 Document

目前,ACL 仅在 GENERIC 行业垂直领域中支持,且内容配置为非 PUBLIC_WEBSITE

workspaceConfig

object (WorkspaceConfig)

用于存储工作区数据的数据存储区类型配置的配置。当 DataStore.content_config 设置为 DataStore.ContentConfig.GOOGLE_WORKSPACE 时,必须设置此参数。

documentProcessingConfig

object (DocumentProcessingConfig)

文档理解和丰富功能的配置。

startingSchema

object (Schema)

在配置 DataStore 时要使用的起始架构。如果未设置,系统将使用默认的垂直专业化架构。

此字段仅供 dataStores.create API 使用,如果用于其他 API,则会被忽略。此字段将从所有 API 响应(包括 dataStores.create API)中省略。如需检索 DataStore 的架构,请改用 SchemaService.GetSchema API。

系统会根据有关架构的某些规则验证所提供的架构。如需了解详情,请参阅此文档

healthcareFhirConfig

object (HealthcareFhirConfig)

可选。HEALTHCARE_FHIR 垂直领域的配置。

servingConfigDataStore

object (ServingConfigDataStore)

可选。在 DataStore 级层存储投放配置。

identityMappingStore

string

不可变。关联的 IdentityMappingStore 的完全限定资源名称。此字段只能针对具有 THIRD_PARTYGSUITE IdP 的 aclEnabled DataStore 进行设置。格式:projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}

isInfobotFaqDataStore

boolean

可选。如果设置,则此 DataStore 为 Infobot FAQ DataStore。

configurableBillingApproach

enum (ConfigurableBillingApproach)

可选。可配置结算方式的配置。请参阅

AdvancedSiteSearchConfig

高级网站搜索的配置数据。

JSON 表示法
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
字段
disableInitialIndex

boolean

如果设置为 true,则为 DataStore 停用初始索引编制。

disableAutomaticRefresh

boolean

如果设置为 true,则会为 DataStore 停用自动刷新。

LanguageInfo

DataStore 的语言信息。

JSON 表示法
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
字段
languageCode

string

DataStore 的语言代码。

normalizedLanguageCode

string

仅限输出。这是 languageCode 的规范化形式。例如:en-GBen_GBen-UKen-gb 的 languageCode 将具有 en-GB 的 normalizedLanguageCode。

language

string

仅限输出。normalizedLanguageCode 的语言部分。例如:en-US -> enzh-Hans-HK -> zhen -> en

region

string

仅限输出。标准化 languageCode 的地区部分(如果有)。例如:en-US -> USzh-Hans-HK -> HKen -> ``。

NaturalLanguageQueryUnderstandingConfig

自然语言查询理解的配置。

JSON 表示法
{
  "mode": enum (Mode)
}
字段
mode

enum (Mode)

自然语言查询理解模式。如果此字段未设置,行为将默认为 NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED

模式

自然语言查询理解模式。当 NaturalLanguageQueryUnderstandingConfig.Mode 为 ENABLED 时,如果 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 为 ENABLED,则会为搜索请求启用自然语言理解功能。

枚举
MODE_UNSPECIFIED 默认值。
DISABLED 自然语言查询理解功能已停用。
ENABLED 自然语言查询理解已启用。

BillingEstimation

每个数据存储区的数据大小估计值。

JSON 表示法
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
字段
structuredDataSize

string (int64 format)

结构化数据的数据大小(以字节为单位)。

unstructuredDataSize

string (int64 format)

非结构化数据的数据大小(以字节为单位)。

websiteDataSize

string (int64 format)

网站的数据大小(以字节为单位)。

structuredDataUpdateTime

string (Timestamp format)

结构化数据的上次更新时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

unstructuredDataUpdateTime

string (Timestamp format)

非结构化数据的上次更新时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

websiteDataUpdateTime

string (Timestamp format)

网站的上次更新时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

WorkspaceConfig

用于存储工作区数据的数据存储区类型配置的配置

JSON 表示法
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
字段
type

enum (Type)

Google Workspace 数据源。

dasherCustomerId

string

模糊处理的 Dasher 客户 ID。

superAdminServiceAccount

string

可选。将用于生成访问令牌的工作区的超级用户服务账号。目前,我们仅将其用于原生 Google 云端硬盘连接器数据注入。

superAdminEmailAddress

string

可选。将用于生成访问令牌的工作区的超级管理员电子邮件地址。目前,我们仅将其用于原生 Google 云端硬盘连接器数据注入。

DocumentProcessingConfig

DataStore 的单例资源。如果在创建 DataStore 时该字段为空,且 DataStore 设置为 DataStore.ContentConfig.CONTENT_REQUIRED,则默认解析器将默认使用数字解析器。

JSON 表示法
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
字段
name

string

文档处理配置的完整资源名称。格式:projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig

chunkingConfig

object (ChunkingConfig)

分块模式是否已启用。

defaultParsingConfig

object (ParsingConfig)

默认文档解析器的配置。如果未指定,我们将按默认 DigitalParsingConfig 进行配置,并且默认解析配置将应用于文档解析的所有文件类型。

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

从文件类型到覆盖默认解析配置的映射(基于文件类型)。支持的密钥:

  • pdf:替换 PDF 文件的解析配置,支持数字解析、OCR 解析或布局解析。
  • html:替换 HTML 文件的解析配置,仅支持数字解析和布局解析。
  • docx:替换 DOCX 文件的解析配置,仅支持数字解析和布局解析。
  • pptx:替换 PPTX 文件的解析配置,仅支持数字解析和布局解析。
  • xlsm:替换 XLSM 文件的解析配置,仅支持数字解析和布局解析。
  • xlsx:替换 XLSX 文件的解析配置,仅支持数字解析和布局解析。

ChunkingConfig

分块配置的配置。

JSON 表示法
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
字段
联合字段 chunk_mode。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

基于布局的分块的配置。

LayoutBasedChunkingConfig

基于布局的分块的配置。

JSON 表示法
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
字段
chunkSize

integer

每个块的令牌大小限制。

支持的值:100-500(含)。默认值:500。

includeAncestorHeadings

boolean

是否在从文档中间部分创建的分块中附加不同级别的标题,以防止丢失上下文。

默认值:False。

ParsingConfig

应用于特定类型的文档解析器的相关配置。

JSON 表示法
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
字段
联合字段 type_dedicated_config。文档处理类型的配置。type_dedicated_config 只能是下列其中一项:
digitalParsingConfig

object (DigitalParsingConfig)

已应用于数字解析器的配置。

ocrParsingConfig

object (OcrParsingConfig)

应用于 OCR 解析器的配置。目前,此功能仅适用于 PDF 文件。

layoutParsingConfig

object (LayoutParsingConfig)

应用于布局解析器的配置。

DigitalParsingConfig

此类型没有字段。

文档的数字化解析配置。

OcrParsingConfig

文档的 OCR 解析配置。

JSON 表示法
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
字段
enhancedDocumentElements[]
(deprecated)

string

[已弃用] 此字段已弃用。如需使用其他增强型文档元素处理功能,请切换到 layoutParsingConfig

useNativeText

boolean

如果为 true,则在包含原生文本的网页上使用原生文本,而不是 OCR 文本。

LayoutParsingConfig

文档的布局解析配置。

JSON 表示法
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
字段
enableTableAnnotation

boolean

可选。如果为 true,系统会在解析期间,将基于 LLM 的注解添加到表格。

enableImageAnnotation

boolean

可选。如果为 true,系统会在解析期间,将基于 LLM 的注解添加到图片。

structuredContentTypes[]

string

可选。包含要从文档中提取的必需结构类型。支持的值:

  • shareholder-structure
excludeHtmlElements[]

string

可选。要从已解析的内容中排除的 HTML 元素的列表。

excludeHtmlClasses[]

string

可选。要从解析的内容中排除的 HTML 类列表。

excludeHtmlIds[]

string

可选。要从已解析的内容中排除的 HTML ID 列表。

enableGetProcessedDocument

boolean

可选。如果为 true,则处理后的文档将可用于 GetProcessedDocument API。

ServingConfigDataStore

在 DataStore 级别存储有关服务配置的信息。

JSON 表示法
{
  "disabledForServing": boolean
}
字段
disabledForServing

boolean

可选。如果设置为 true,则 DataStore 将无法用于处理搜索请求。

ConfigurableBillingApproach

可配置结算方式的配置。

枚举
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED 默认值。适用于 Spark 和非 Spark 不可配置的结算方式。
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE 对于非嵌入存储空间,使用订阅基础费用 + 超额使用费结算方式来结算索引核心费用。
CONFIGURABLE_CONSUMPTION_EMBEDDING 使用按用量付费的嵌入式存储空间加购项。

方法

completeQuery

使用关键字建议补全指定的用户输入内容。

create

创建 DataStore

delete

删除 DataStore

get

获取 DataStore

getCompletionConfig

获取 CompletionConfig

getDocumentProcessingConfig

获取 DocumentProcessingConfig

getSiteSearchEngine

获取 SiteSearchEngine

list

列出与项目关联的所有 DataStore

patch

更新 DataStore

trainCustomModel

训练自定义模型。

updateCompletionConfig

更新 CompletionConfig

updateDocumentProcessingConfig

更新 DocumentProcessingConfig