REST Resource: projects.locations.collections.dataStores

資源:DataStore

DataStore 會在 DataStore 層級擷取全域設定和設定檔。

JSON 表示法
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
欄位
name

string

不可變動。ID。資料儲存庫的完整資源名稱。格式:projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}

這個欄位必須是 UTF-8 編碼的字串,長度上限為 1024 個字元。

displayName

string

這是必要旗標,資料儲存庫顯示名稱。

這個欄位必須是 UTF-8 編碼的字串,長度上限為 128 個半形字元。否則,系統會傳回 INVALID_ARGUMENT 錯誤。

industryVertical

enum (IndustryVertical)

不可變動。資料儲存庫註冊的產業類別。

solutionTypes[]

enum (SolutionType)

資料儲存庫註冊的解決方案。各industryVertical適用的解決方案:

  • MEDIASOLUTION_TYPE_RECOMMENDATIONSOLUTION_TYPE_SEARCH
  • SITE_SEARCHSOLUTION_TYPE_SEARCH會自動註冊。其他解決方案無法註冊。
defaultSchemaId

string

僅供輸出。與這個資料儲存庫相關聯的預設 Schema ID。

contentConfig

enum (ContentConfig)

不可變動。資料儲存庫的內容設定。如未設定這個欄位,伺服器行為會預設為 ContentConfig.NO_CONTENT

createTime

string (Timestamp format)

僅供輸出。DataStore 的建立時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

(選用步驟) 進階站內搜尋的設定。

languageInfo

object (LanguageInfo)

DataStore 的語言資訊。

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

(選用步驟) 自然語言查詢理解設定。

kmsKeyName

string

僅限輸入。建立這個 DataStore 時,用來保護資料的 KMS 金鑰。

如果要求必須遵守 CMEK 機構政策保護措施,則必須設定這項參數。

如果這個欄位已設定並順利處理,DataStore 就會受到 KMS 金鑰保護,如 cmekConfig 欄位所示。

cmekConfig

object (CmekConfig)

僅供輸出。DataStore 的 CMEK 相關資訊。

billingEstimation

object (BillingEstimation)

僅供輸出。預估帳單的資料量。

aclEnabled

boolean

不可變動。DataStore 中的資料是否含有 ACL 資訊。如果設為 true,來源資料必須有存取控制清單。當資料由 DocumentService.ImportDocuments 方法擷取時,ACL 也會一併擷取。

DataStore 啟用 ACL 後,就無法透過呼叫 DocumentService.GetDocumentDocumentService.ListDocuments 存取 Document

目前 ACL 僅支援 GENERIC 產業,且內容設定不含 PUBLIC_WEBSITE

workspaceConfig

object (WorkspaceConfig)

設定檔,用於儲存工作區資料的資料儲存庫類型設定。如果 DataStore.content_config 設為 DataStore.ContentConfig.GOOGLE_WORKSPACE,就必須設定這個屬性。

documentProcessingConfig

object (DocumentProcessingConfig)

設定文件解讀和擴充功能。

startingSchema

object (Schema)

佈建這個 DataStore 時要使用的開始結構定義。如未設定,系統會使用預設的垂直領域專用結構定義。

這個欄位僅供 dataStores.create API 使用,如果用於其他 API,系統會忽略這個欄位。所有 API 回應 (包括 dataStores.create API) 都會省略這個欄位。如要擷取 DataStore 的結構定義,請改用 SchemaService.GetSchema API。

系統會根據結構定義的特定規則驗證提供的結構定義。詳情請參閱這份文件

healthcareFhirConfig

object (HealthcareFhirConfig)

(選用步驟) HEALTHCARE_FHIR 直向的設定。

servingConfigDataStore

object (ServingConfigDataStore)

(選用步驟) 在 DataStore 層級儲存服務設定。

identityMappingStore

string

不可變動。相關聯 IdentityMappingStore 的完整資源名稱。這個欄位只能為 aclEnabled DataStore 設定 THIRD_PARTYGSUITE IdP。格式:projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}

isInfobotFaqDataStore

boolean

(選用步驟) 如果設定,這個 DataStore 就是 Infobot 常見問題 DataStore。

configurableBillingApproach

enum (ConfigurableBillingApproach)

(選用步驟) 可設定的帳單方式設定。請參閱

ContentConfig

資料儲存庫的內容設定。

列舉
CONTENT_CONFIG_UNSPECIFIED 預設值。
NO_CONTENT 只包含沒有任何 Document.content 的文件。
CONTENT_REQUIRED 只包含含有 Document.content 的文件。
PUBLIC_WEBSITE 資料儲存庫用於搜尋公開網站。
GOOGLE_WORKSPACE 資料儲存庫用於工作區搜尋。工作區資料儲存區的詳細資料會指定在 WorkspaceConfig 中。

AdvancedSiteSearchConfig

進階站內搜尋的設定資料。

JSON 表示法
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
欄位
disableInitialIndex

boolean

如果設為 true,系統會停用 DataStore 的初始索引。

disableAutomaticRefresh

boolean

如果設為 true,系統會停用 DataStore 的自動重新整理功能。

LanguageInfo

DataStore 的語言資訊。

JSON 表示法
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
欄位
languageCode

string

DataStore 的語言代碼。

normalizedLanguageCode

string

僅供輸出。這是 languageCode 的正規化形式。例如:en-GBen_GBen-UKen-gb 的 languageCode 會有 en-GB 的 normalizedLanguageCode。

language

string

僅供輸出。normalizedLanguageCode 的語言部分。E.g.: en-US -> enzh-Hans-HK -> zhen -> en

region

string

僅供輸出。標準化 LanguageCode 的區域部分 (如有)。E.g.: en-US -> USzh-Hans-HK -> HKen -> ``。

NaturalLanguageQueryUnderstandingConfig

自然語言查詢理解設定。

JSON 表示法
{
  "mode": enum (Mode)
}
欄位
mode

enum (Mode)

自然語言查詢理解模式。如未設定這個欄位,預設行為會是「NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED」。

模式

自然語言查詢理解模式。如果 NaturalLanguageQueryUnderstandingConfig.Mode 為 ENABLED,且 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 為 ENABLED,系統就會為搜尋要求啟用自然語言理解功能。

列舉
MODE_UNSPECIFIED 預設值。
DISABLED 自然語言查詢理解功能已停用。
ENABLED 已啟用自然語言查詢理解功能。

BillingEstimation

預估每個資料儲存庫的資料大小。

JSON 表示法
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
欄位
structuredDataSize

string (int64 format)

結構化資料的大小 (以位元組為單位)。

unstructuredDataSize

string (int64 format)

非結構化資料的大小 (以位元組為單位)。

websiteDataSize

string (int64 format)

網站的資料大小 (以位元組為單位)。

structuredDataUpdateTime

string (Timestamp format)

結構化資料的上次更新時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

unstructuredDataUpdateTime

string (Timestamp format)

非結構化資料的上次更新時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

websiteDataUpdateTime

string (Timestamp format)

網站的上次更新時間戳記。

使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

WorkspaceConfig

設定,用於儲存工作區資料的資料儲存庫類型設定

JSON 表示法
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
欄位
type

enum (Type)

Google Workspace 資料來源。

dasherCustomerId

string

經過模糊處理的 Dasher 客戶 ID。

superAdminServiceAccount

string

(選用步驟) 用於產生存取權權杖的工作區超級管理員服務帳戶。目前我們只會將其用於原生 Google 雲端硬碟連接器資料擷取。

superAdminEmailAddress

string

(選用步驟) 用於產生存取權杖的工作區超級管理員電子郵件地址。目前我們只會將其用於原生 Google 雲端硬碟連接器資料擷取。

類型

指定這個資料儲存庫支援的 Workspace 應用程式類型

列舉
TYPE_UNSPECIFIED 預設為未指定的工作區類型。
GOOGLE_DRIVE Workspace 資料儲存庫包含雲端硬碟資料
GOOGLE_MAIL Workspace 資料儲存庫包含郵件資料
GOOGLE_SITES Workspace 資料儲存庫包含 Google 協作平台資料
GOOGLE_CALENDAR Workspace 資料儲存庫包含 Google 日曆資料
GOOGLE_CHAT Workspace 資料存放區包含 Google Chat 資料
GOOGLE_GROUPS Workspace 資料儲存庫包含 Google 群組資料
GOOGLE_KEEP Workspace 資料儲存庫包含 Keep 資料
GOOGLE_PEOPLE Workspace 資料儲存庫包含人員資料

DocumentProcessingConfig

DataStore 的單例資源。如果建立 DataStore 時為空白,且 DataStore 設為 DataStore.ContentConfig.CONTENT_REQUIRED,預設剖析器會預設為數位剖析器。

JSON 表示法
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
欄位
name

string

Document Processing Config 的完整資源名稱。格式:projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig

chunkingConfig

object (ChunkingConfig)

是否啟用分塊模式。

defaultParsingConfig

object (ParsingConfig)

預設文件剖析器的設定。如未指定,系統會將其設為預設的 DigitalParsingConfig,並將預設的剖析設定套用至文件剖析的所有檔案類型。

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

根據檔案類型對應,覆寫預設的剖析設定。支援的索引鍵:

  • pdf:覆寫 PDF 檔案的剖析設定,支援數位剖析、OCR 剖析或版面配置剖析。
  • html:覆寫 HTML 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • docx:覆寫 DOCX 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • pptx:覆寫 PPTX 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • xlsm:覆寫 XLSM 檔案的剖析設定,僅支援數位剖析和版面配置剖析。
  • xlsx:覆寫 XLSX 檔案的剖析設定,僅支援數位剖析和版面配置剖析。

ChunkingConfig

區塊設定的設定。

JSON 表示法
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
欄位
聯集欄位 chunk_mode。定義分塊行為的其他設定。chunk_mode 只能是下列其中一項:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

根據版面配置分塊的設定。

LayoutBasedChunkingConfig

根據版面配置分塊的設定。

JSON 表示法
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
欄位
chunkSize

integer

每個區塊的權杖大小上限。

支援的值:100 到 500 (含)。預設值為 500。

includeAncestorHeadings

boolean

是否要將不同層級的標題附加至文件中間的分塊,以免遺失脈絡。

預設值為 False。

ParsingConfig

套用至特定類型文件剖析器的相關設定。

JSON 表示法
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
欄位
聯集欄位 type_dedicated_config。文件處理類型設定。type_dedicated_config 只能是下列其中一項:
digitalParsingConfig

object (DigitalParsingConfig)

套用至數位剖析器的設定。

ocrParsingConfig

object (OcrParsingConfig)

已套用至 OCR 剖析器的設定。目前僅適用於 PDF 檔案。

layoutParsingConfig

object (LayoutParsingConfig)

套用至版面配置剖析器的設定。

DigitalParsingConfig

這個類型沒有任何欄位。

文件的數位剖析設定。

OcrParsingConfig

文件的 OCR 剖析設定。

JSON 表示法
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
欄位
enhancedDocumentElements[]
(deprecated)

string

[已淘汰] 這個欄位已淘汰,如要使用額外的強化文件元素處理功能,請切換至 layoutParsingConfig

useNativeText

boolean

如果設為 true,系統會使用原生文字,而非含有原生文字的網頁上的 OCR 文字。

LayoutParsingConfig

文件的版面配置剖析設定。

JSON 表示法
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
欄位
enableTableAnnotation

boolean

(選用步驟) 如果設為 true,系統會在剖析期間,將 LLM 註解加到表格。

enableImageAnnotation

boolean

(選用步驟) 如果設為 true,系統會在剖析期間,將 LLM 註解加到圖片。

structuredContentTypes[]

string

(選用步驟) 包含要從文件中擷取的必要結構類型。支援的值:

  • shareholder-structure
excludeHtmlElements[]

string

(選用步驟) 要從剖析內容中排除的 HTML 元素清單。

excludeHtmlClasses[]

string

(選用步驟) 要從剖析內容中排除的 HTML 類別清單。

excludeHtmlIds[]

string

(選用步驟) 要從剖析內容中排除的 HTML ID 清單。

enableGetProcessedDocument

boolean

(選用步驟) 如為 true,系統會透過 GetProcessedDocument API 提供處理後的文件。

HealthcareFhirConfig

設定 HEALTHCARE_FHIR 垂直領域的資料儲存庫。

JSON 表示法
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
欄位
enableConfigurableSchema

boolean

是否要為 HEALTHCARE_FHIR 垂直啟用可設定的結構定義。

如果設為 true,即可擴充預先定義的醫療照護 FHIR 結構定義,進一步自訂搜尋和篩選條件。

enableStaticIndexingForBatchIngestion

boolean

是否要為 HEALTHCARE_FHIR 批次擷取啟用靜態索引。

如果設為 true,系統會以靜態索引模式處理批次擷取作業,雖然速度較慢,但能處理較大的資料量。

ServingConfigDataStore

儲存 DataStore 層級的放送設定相關資訊。

JSON 表示法
{
  "disabledForServing": boolean
}
欄位
disabledForServing

boolean

(選用步驟) 如果設為 true,DataStore 就無法處理搜尋要求。

ConfigurableBillingApproach

可設定的帳單方式設定。

列舉
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED 預設值。適用於 Spark 和非 Spark 無法設定的計費方式。
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE 針對非嵌入式儲存空間的索引核心,使用訂閱方案基本費用 + 超額費用計費。
CONFIGURABLE_CONSUMPTION_EMBEDDING 嵌入式儲存空間外掛程式採用隨用隨付的計費方式。

方法

completeQuery

以建議的關鍵字完成指定的使用者輸入內容。

create

建立 DataStore

delete

刪除 DataStore

get

取得 DataStore

getSiteSearchEngine

取得 SiteSearchEngine

list

列出與專案相關聯的所有 DataStore

patch

更新 DataStore

trainCustomModel

訓練自訂模型。