REST Resource: projects.locations.collections.dataStores

資源:DataStore

DataStore 會在 DataStore 層級擷取全域設定和設定檔。

JSON 表示法
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach),
  "configurableBillingApproachUpdateTime": string
}
欄位
name

string

不可變更。ID。資料儲存庫的完整資源名稱。格式:projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}

這個欄位必須是 UTF-8 編碼的字串,長度上限為 1024 個字元。

displayName

string

這是必要旗標,資料儲存庫顯示名稱。

這個欄位必須是 UTF-8 編碼的字串,長度上限為 128 個半形字元。否則會傳回 INVALID_ARGUMENT 錯誤。

industryVertical

enum (IndustryVertical)

不可變更。資料儲存庫註冊的產業類別。

solutionTypes[]

enum (SolutionType)

資料儲存庫註冊的解決方案。各industryVertical適用的解決方案:

  • MEDIASOLUTION_TYPE_RECOMMENDATIONSOLUTION_TYPE_SEARCH
  • SITE_SEARCHSOLUTION_TYPE_SEARCH會自動註冊。其他解決方案無法註冊。
defaultSchemaId

string

僅供輸出。與這個資料儲存庫相關聯的預設 Schema ID。

contentConfig

enum (ContentConfig)

不可變更。資料儲存庫的內容設定。如未設定這個欄位,伺服器行為預設為 ContentConfig.NO_CONTENT

createTime

string (Timestamp format)

僅供輸出。DataStore的建立時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 正規化,並使用 0、3、6 或 9 個小數位數,也接受「Z」以外的偏移量。範例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

選用。進階站內搜尋的設定。

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

選用。自然語言查詢理解設定。

kmsKeyName

string

僅限輸入。建立這個 DataStore 時,用來保護資料的 KMS 金鑰。

如果要求必須遵守 CMEK 組織政策保護措施,則必須設定這項參數。

如果這個欄位已設定並順利處理,DataStore 就會受到 KMS 金鑰保護,如 cmekConfig 欄位所示。

cmekConfig

object (CmekConfig)

僅供輸出。DataStore 的 CMEK 相關資訊。

billingEstimation

object (BillingEstimation)

僅供輸出。預估帳單的資料大小。

aclEnabled

boolean

不可變更。DataStore 中的資料是否含有 ACL 資訊。如果設為 true,來源資料必須有存取控制清單。使用 DocumentService.ImportDocuments 方法擷取資料時,系統會擷取 ACL。

如果為 DataStore 啟用 ACL,就無法透過呼叫 DocumentService.GetDocumentDocumentService.ListDocuments 存取 Document

目前 ACL 僅支援 GENERIC 產業,且內容設定不含 PUBLIC_WEBSITE

workspaceConfig

object (WorkspaceConfig)

設定,用於儲存工作區資料的資料儲存庫類型設定。如果 DataStore.content_config 設為 DataStore.ContentConfig.GOOGLE_WORKSPACE,就必須設定這個屬性。

documentProcessingConfig

object (DocumentProcessingConfig)

設定文件解讀和擴充功能。

startingSchema

object (Schema)

佈建這個 DataStore 時要使用的開始結構定義。如未設定,系統會使用預設的垂直領域專用結構化資料。

這個欄位僅供 dataStores.create API 使用,如果用於其他 API,系統會忽略這個欄位。所有 API 回應 (包括 dataStores.create API) 都會省略這個欄位。如要擷取 DataStore 的結構定義,請改用 SchemaService.GetSchema API。

系統會根據結構定義的特定規則驗證您提供的結構定義。詳情請參閱這份文件

healthcareFhirConfig

object (HealthcareFhirConfig)

選用。HEALTHCARE_FHIR 直向的設定。

servingConfigDataStore

object (ServingConfigDataStore)

選用。在 DataStore 層級儲存放送設定。

identityMappingStore

string

不可變更。相關聯 IdentityMappingStore 的完整資源名稱。這個欄位只能為 aclEnabled DataStore 設定 THIRD_PARTYGSUITE IdP。格式:projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}

isInfobotFaqDataStore

boolean

選用。如果設定,這個 DataStore 就是 Infobot 常見問題 DataStore。

configurableBillingApproach

enum (ConfigurableBillingApproach)

選用。可設定帳單方式的設定。請參閱

configurableBillingApproachUpdateTime

string (Timestamp format)

僅供輸出。上次更新可設定的計費方式的時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 正規化,並使用 0、3、6 或 9 個小數位數,也接受「Z」以外的偏移量。範例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

ContentConfig

資料儲存庫的內容設定。

列舉
CONTENT_CONFIG_UNSPECIFIED 預設值。
NO_CONTENT 只包含沒有任何 Document.content 的文件。
CONTENT_REQUIRED 只包含含有 Document.content 的文件。
PUBLIC_WEBSITE 資料儲存庫用於搜尋公開網站。
GOOGLE_WORKSPACE 資料儲存庫用於工作區搜尋。工作區資料儲存區的詳細資料會指定在 WorkspaceConfig 中。

AdvancedSiteSearchConfig

進階站內搜尋的設定資料。

JSON 表示法
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
欄位
disableInitialIndex

boolean

如果設為 true,系統會停用 DataStore 的初始索引。

disableAutomaticRefresh

boolean

如果設為 true,系統會停用 DataStore 的自動重新整理功能。

NaturalLanguageQueryUnderstandingConfig

自然語言查詢理解設定。

JSON 表示法
{
  "mode": enum (Mode)
}
欄位
mode

enum (Mode)

自然語言查詢理解模式。如果未設定這個欄位,預設行為會是「NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED」。

模式

自然語言查詢理解模式。如果 NaturalLanguageQueryUnderstandingConfig.Mode 為 ENABLED,且 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 為 ENABLED,系統就會為搜尋要求啟用自然語言理解功能。

列舉
MODE_UNSPECIFIED 預設值。
DISABLED 自然語言查詢理解功能已停用。
ENABLED 已啟用自然語言查詢理解功能。

BillingEstimation

預估每個資料儲存庫的資料大小。

JSON 表示法
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
欄位
structuredDataSize

string (int64 format)

結構化資料的大小 (以位元組為單位)。

unstructuredDataSize

string (int64 format)

非結構化資料的大小 (以位元組為單位)。

websiteDataSize

string (int64 format)

網站的資料大小 (以位元組為單位)。

structuredDataUpdateTime

string (Timestamp format)

結構化資料的上次更新時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 正規化,並使用 0、3、6 或 9 個小數位數,也接受「Z」以外的偏移量。範例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

unstructuredDataUpdateTime

string (Timestamp format)

非結構化資料的上次更新時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 正規化,並使用 0、3、6 或 9 個小數位數,也接受「Z」以外的偏移量。範例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

websiteDataUpdateTime

string (Timestamp format)

網站的上次更新時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 正規化,並使用 0、3、6 或 9 個小數位數,也接受「Z」以外的偏移量。範例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

WorkspaceConfig

設定,用於儲存工作區資料的資料儲存庫類型設定

JSON 表示法
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
欄位
type

enum (Type)

Google Workspace 資料來源。

dasherCustomerId

string

經過模糊處理的 Dasher 客戶 ID。

superAdminServiceAccount

string

選用。用於產生存取權權杖的工作區超級管理員服務帳戶。目前我們只會將其用於原生 Google 雲端硬碟連接器資料擷取。

superAdminEmailAddress

string

選用。用於產生存取權杖的工作區超級管理員電子郵件地址。目前我們只會將其用於原生 Google 雲端硬碟連接器資料擷取。

類型

指定這個資料儲存庫支援的 Workspace 應用程式類型

列舉
TYPE_UNSPECIFIED 預設值為未指定的工作區類型。
GOOGLE_DRIVE Workspace 資料儲存庫包含雲端硬碟資料
GOOGLE_MAIL Workspace 資料儲存庫包含郵件資料
GOOGLE_SITES Workspace 資料儲存庫包含 Google 協作平台資料
GOOGLE_CALENDAR Workspace 資料儲存庫包含 Google 日曆資料
GOOGLE_CHAT Workspace 資料儲存空間包含 Chat 資料
GOOGLE_GROUPS Workspace 資料儲存庫包含群組資料
GOOGLE_KEEP Workspace 資料儲存庫包含 Keep 資料
GOOGLE_PEOPLE Workspace 資料儲存庫包含人員資料

DocumentProcessingConfig

DataStore 的單例資源。如果建立 DataStore 時為空白,且 DataStore 設為 DataStore.ContentConfig.CONTENT_REQUIRED,預設剖析器會預設為數位剖析器。

JSON 表示法
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
欄位
name

string

文件處理設定的完整資源名稱。格式:projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig

chunkingConfig

object (ChunkingConfig)

是否啟用分塊模式。

defaultParsingConfig

object (ParsingConfig)

預設文件剖析器的設定。如未指定,系統會將其設為預設的 DigitalParsingConfig,並將預設的剖析設定套用至文件剖析的所有檔案類型。

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

從檔案類型對應,根據檔案類型覆寫預設的剖析設定。支援的索引鍵:

  • pdf:覆寫 PDF 檔案的剖析設定,支援數位剖析、OCR 剖析或版面配置剖析。
  • html:覆寫 HTML 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • docx:覆寫 DOCX 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • pptx:覆寫 PPTX 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • xlsm:覆寫 XLSM 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • xlsx:覆寫 XLSX 檔案的剖析設定,僅支援數位剖析和版面配置剖析。

ChunkingConfig

區塊設定的設定。

JSON 表示法
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
欄位
聯集欄位 chunk_mode。定義分塊行為的其他設定。chunk_mode 只能是下列其中一個設定:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

根據版面配置分塊的設定。

LayoutBasedChunkingConfig

根據版面配置分塊的設定。

JSON 表示法
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
欄位
chunkSize

integer

每個區塊的權杖大小上限。

支援的值:100 到 500 (含)。預設值為 500。

includeAncestorHeadings

boolean

是否要在文件中間的分塊中附加不同層級的標題,以免遺失脈絡。

預設值為 False。

ParsingConfig

套用至特定類型文件剖析器的相關設定。

JSON 表示法
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
欄位
聯集欄位 type_dedicated_config。文件處理類型設定。type_dedicated_config 只能是下列其中一個設定:
digitalParsingConfig

object (DigitalParsingConfig)

套用至數位剖析器的設定。

ocrParsingConfig

object (OcrParsingConfig)

套用至 OCR 剖析器的設定。目前僅適用於 PDF 檔案。

layoutParsingConfig

object (LayoutParsingConfig)

套用至版面配置剖析器的設定。

DigitalParsingConfig

這個類型沒有任何欄位。

文件的數位剖析設定。

OcrParsingConfig

文件的 OCR 剖析設定。

JSON 表示法
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
欄位
enhancedDocumentElements[]
(deprecated)

string

[已淘汰] 這個欄位已淘汰,如要使用額外的強化文件元素處理功能,請切換至 layoutParsingConfig

useNativeText

boolean

如果設為 True,系統會使用原生文字,而不是含有原生文字的網頁上的 OCR 文字。

LayoutParsingConfig

文件的版面配置剖析設定。

JSON 表示法
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "enableLlmLayoutParsing": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
欄位
enableTableAnnotation

boolean

選用。如果設為 true,系統會在剖析期間,將 LLM 註解加到表格。

enableImageAnnotation

boolean

選用。如果設為 true,系統會在剖析期間,將 LLM 註解加到圖片。

enableLlmLayoutParsing

boolean

選用。如為 true,系統會使用 LLM 調整 PDF 版面配置。

structuredContentTypes[]

string

選用。包含要從文件中擷取的必要結構類型。支援的值:

  • shareholder-structure
excludeHtmlElements[]

string

選用。要從剖析內容中排除的 HTML 元素清單。

excludeHtmlClasses[]

string

選用。要從剖析內容中排除的 HTML 類別清單。

excludeHtmlIds[]

string

選用。要從剖析內容中排除的 HTML ID 清單。

enableGetProcessedDocument

boolean

選用。如為 true,處理過的文件會提供給 GetProcessedDocument API。

HealthcareFhirConfig

設定 HEALTHCARE_FHIR 垂直領域的資料儲存庫。

JSON 表示法
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean,
  "initialFilterGroups": [
    string
  ]
}
欄位
enableConfigurableSchema

boolean

是否要為 HEALTHCARE_FHIR 垂直啟用可設定的結構定義。

如果設為 true,即可擴充預先定義的醫療照護 FHIR 結構定義,進一步自訂搜尋和篩選條件。

enableStaticIndexingForBatchIngestion

boolean

是否要為 HEALTHCARE_FHIR 批次擷取啟用靜態索引。

如果設為 true,系統會以靜態索引模式處理批次擷取作業,雖然速度較慢,但能處理較大的資料量。

initialFilterGroups[]

string

選用。做為初始病患篩選條件基礎的群組資源名稱,格式為 projects/{projectId}/locations/{locationId}/datasets/{datasetId}/fhirStores/{fhir_store_id}/fhir/Group/{groupId}。篩選器群組必須是「Group」類型的 FHIR 資源名稱,篩選器會從群組的直接成員 (即 Patient 資源) 建構而成。

ServingConfigDataStore

儲存服務設定相關資訊 (位於 DataStore 層級)。

JSON 表示法
{
  "disabledForServing": boolean
}
欄位
disabledForServing

boolean

選用。如果設為 true,DataStore 就無法處理搜尋要求。

ConfigurableBillingApproach

可設定帳單方式的設定。

列舉
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED 預設值。適用於 Spark 和非 Spark 無法設定的計費方式。
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE 針對非嵌入式儲存空間的索引核心,使用訂閱方案基本費用 + 超額費用計費。
CONFIGURABLE_CONSUMPTION_EMBEDDING 嵌入式儲存空間外掛程式採用隨用隨付的用量計費方式。

方法

completeQuery

以建議的關鍵字完成指定的使用者輸入內容。

create

建立 DataStore

delete

刪除 DataStore

get

取得 DataStore

getSiteSearchEngine

取得 SiteSearchEngine

list

列出與專案相關聯的所有 DataStore

patch

更新 DataStore

trainCustomModel

訓練自訂模型。