- 資源:DataStore
- JSON 表示法
- ContentConfig
- AdvancedSiteSearchConfig
- LanguageInfo
- NaturalLanguageQueryUnderstandingConfig
- 眾數
- BillingEstimation
- WorkspaceConfig
- 類型
- DocumentProcessingConfig
- ChunkingConfig
- LayoutBasedChunkingConfig
- ParsingConfig
- DigitalParsingConfig
- OcrParsingConfig
- LayoutParsingConfig
- HealthcareFhirConfig
- ServingConfigDataStore
- ConfigurableBillingApproach
- 方法
資源:DataStore
DataStore 會在 DataStore 層級擷取全域設定和設定檔。
JSON 表示法 |
---|
{ "name": string, "displayName": string, "industryVertical": enum ( |
欄位 | |
---|---|
name |
不可變動。ID。資料儲存庫的完整資源名稱。格式: 這個欄位必須是 UTF-8 編碼的字串,長度上限為 1024 個字元。 |
displayName |
這是必要旗標,資料儲存庫顯示名稱。 這個欄位必須是 UTF-8 編碼的字串,長度上限為 128 個半形字元。否則,系統會傳回 INVALID_ARGUMENT 錯誤。 |
industryVertical |
不可變動。資料儲存庫註冊的產業類別。 |
solutionTypes[] |
資料儲存庫註冊的解決方案。各
|
defaultSchemaId |
僅供輸出。與這個資料儲存庫相關聯的預設 |
contentConfig |
不可變動。資料儲存庫的內容設定。如未設定這個欄位,伺服器行為會預設為 |
createTime |
僅供輸出。 使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如: |
advancedSiteSearchConfig |
(選用步驟) 進階站內搜尋的設定。 |
languageInfo |
DataStore 的語言資訊。 |
naturalLanguageQueryUnderstandingConfig |
(選用步驟) 自然語言查詢理解設定。 |
kmsKeyName |
僅限輸入。建立這個 DataStore 時,用來保護資料的 KMS 金鑰。 如果要求必須遵守 CMEK 機構政策保護措施,則必須設定這項參數。 如果這個欄位已設定並順利處理,DataStore 就會受到 KMS 金鑰保護,如 cmekConfig 欄位所示。 |
cmekConfig |
僅供輸出。DataStore 的 CMEK 相關資訊。 |
billingEstimation |
僅供輸出。預估帳單的資料量。 |
aclEnabled |
不可變動。 為 目前 ACL 僅支援 |
workspaceConfig |
設定檔,用於儲存工作區資料的資料儲存庫類型設定。如果 |
documentProcessingConfig |
設定文件解讀和擴充功能。 |
startingSchema |
佈建這個 這個欄位僅供 系統會根據結構定義的特定規則驗證提供的結構定義。詳情請參閱這份文件。 |
healthcareFhirConfig |
(選用步驟) |
servingConfigDataStore |
(選用步驟) 在 DataStore 層級儲存服務設定。 |
identityMappingStore |
不可變動。相關聯 |
isInfobotFaqDataStore |
(選用步驟) 如果設定,這個 DataStore 就是 Infobot 常見問題 DataStore。 |
configurableBillingApproach |
(選用步驟) 可設定的帳單方式設定。請參閱 |
ContentConfig
資料儲存庫的內容設定。
列舉 | |
---|---|
CONTENT_CONFIG_UNSPECIFIED |
預設值。 |
NO_CONTENT |
只包含沒有任何 Document.content 的文件。 |
CONTENT_REQUIRED |
只包含含有 Document.content 的文件。 |
PUBLIC_WEBSITE |
資料儲存庫用於搜尋公開網站。 |
GOOGLE_WORKSPACE |
資料儲存庫用於工作區搜尋。工作區資料儲存區的詳細資料會指定在 WorkspaceConfig 中。 |
AdvancedSiteSearchConfig
進階站內搜尋的設定資料。
JSON 表示法 |
---|
{ "disableInitialIndex": boolean, "disableAutomaticRefresh": boolean } |
欄位 | |
---|---|
disableInitialIndex |
如果設為 true,系統會停用 DataStore 的初始索引。 |
disableAutomaticRefresh |
如果設為 true,系統會停用 DataStore 的自動重新整理功能。 |
LanguageInfo
DataStore 的語言資訊。
JSON 表示法 |
---|
{ "languageCode": string, "normalizedLanguageCode": string, "language": string, "region": string } |
欄位 | |
---|---|
languageCode |
DataStore 的語言代碼。 |
normalizedLanguageCode |
僅供輸出。這是 languageCode 的正規化形式。例如: |
language |
僅供輸出。normalizedLanguageCode 的語言部分。E.g.: |
region |
僅供輸出。標準化 LanguageCode 的區域部分 (如有)。E.g.: |
NaturalLanguageQueryUnderstandingConfig
自然語言查詢理解設定。
JSON 表示法 |
---|
{
"mode": enum ( |
欄位 | |
---|---|
mode |
自然語言查詢理解模式。如未設定這個欄位,預設行為會是「 |
模式
自然語言查詢理解模式。如果 NaturalLanguageQueryUnderstandingConfig.Mode 為 ENABLED,且 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 為 ENABLED,系統就會為搜尋要求啟用自然語言理解功能。
列舉 | |
---|---|
MODE_UNSPECIFIED |
預設值。 |
DISABLED |
自然語言查詢理解功能已停用。 |
ENABLED |
已啟用自然語言查詢理解功能。 |
BillingEstimation
預估每個資料儲存庫的資料大小。
JSON 表示法 |
---|
{ "structuredDataSize": string, "unstructuredDataSize": string, "websiteDataSize": string, "structuredDataUpdateTime": string, "unstructuredDataUpdateTime": string, "websiteDataUpdateTime": string } |
欄位 | |
---|---|
structuredDataSize |
結構化資料的大小 (以位元組為單位)。 |
unstructuredDataSize |
非結構化資料的大小 (以位元組為單位)。 |
websiteDataSize |
網站的資料大小 (以位元組為單位)。 |
structuredDataUpdateTime |
結構化資料的上次更新時間戳記。 使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如: |
unstructuredDataUpdateTime |
非結構化資料的上次更新時間戳記。 使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如: |
websiteDataUpdateTime |
網站的上次更新時間戳記。 使用 RFC 3339,產生的輸出內容一律會經過 Z 標準化,並使用 0、3、6 或 9 個小數點後位數。系統也接受「Z」以外的偏移量。例如: |
WorkspaceConfig
設定,用於儲存工作區資料的資料儲存庫類型設定
JSON 表示法 |
---|
{
"type": enum ( |
欄位 | |
---|---|
type |
Google Workspace 資料來源。 |
dasherCustomerId |
經過模糊處理的 Dasher 客戶 ID。 |
superAdminServiceAccount |
(選用步驟) 用於產生存取權權杖的工作區超級管理員服務帳戶。目前我們只會將其用於原生 Google 雲端硬碟連接器資料擷取。 |
superAdminEmailAddress |
(選用步驟) 用於產生存取權杖的工作區超級管理員電子郵件地址。目前我們只會將其用於原生 Google 雲端硬碟連接器資料擷取。 |
類型
指定這個資料儲存庫支援的 Workspace 應用程式類型
列舉 | |
---|---|
TYPE_UNSPECIFIED |
預設為未指定的工作區類型。 |
GOOGLE_DRIVE |
Workspace 資料儲存庫包含雲端硬碟資料 |
GOOGLE_MAIL |
Workspace 資料儲存庫包含郵件資料 |
GOOGLE_SITES |
Workspace 資料儲存庫包含 Google 協作平台資料 |
GOOGLE_CALENDAR |
Workspace 資料儲存庫包含 Google 日曆資料 |
GOOGLE_CHAT |
Workspace 資料存放區包含 Google Chat 資料 |
GOOGLE_GROUPS |
Workspace 資料儲存庫包含 Google 群組資料 |
GOOGLE_KEEP |
Workspace 資料儲存庫包含 Keep 資料 |
GOOGLE_PEOPLE |
Workspace 資料儲存庫包含人員資料 |
DocumentProcessingConfig
DataStore
的單例資源。如果建立 DataStore
時為空白,且 DataStore
設為 DataStore.ContentConfig.CONTENT_REQUIRED
,預設剖析器會預設為數位剖析器。
JSON 表示法 |
---|
{ "name": string, "chunkingConfig": { object ( |
欄位 | |
---|---|
name |
Document Processing Config 的完整資源名稱。格式: |
chunkingConfig |
是否啟用分塊模式。 |
defaultParsingConfig |
預設文件剖析器的設定。如未指定,系統會將其設為預設的 DigitalParsingConfig,並將預設的剖析設定套用至文件剖析的所有檔案類型。 |
parsingConfigOverrides |
根據檔案類型對應,覆寫預設的剖析設定。支援的索引鍵:
|
ChunkingConfig
區塊設定的設定。
JSON 表示法 |
---|
{ // Union field |
欄位 | |
---|---|
聯集欄位 chunk_mode 。定義分塊行為的其他設定。chunk_mode 只能是下列其中一項: |
|
layoutBasedChunkingConfig |
根據版面配置分塊的設定。 |
LayoutBasedChunkingConfig
根據版面配置分塊的設定。
JSON 表示法 |
---|
{ "chunkSize": integer, "includeAncestorHeadings": boolean } |
欄位 | |
---|---|
chunkSize |
每個區塊的權杖大小上限。 支援的值:100 到 500 (含)。預設值為 500。 |
includeAncestorHeadings |
是否要將不同層級的標題附加至文件中間的分塊,以免遺失脈絡。 預設值為 False。 |
ParsingConfig
套用至特定類型文件剖析器的相關設定。
JSON 表示法 |
---|
{ // Union field |
欄位 | |
---|---|
聯集欄位 type_dedicated_config 。文件處理類型設定。type_dedicated_config 只能是下列其中一項: |
|
digitalParsingConfig |
套用至數位剖析器的設定。 |
ocrParsingConfig |
已套用至 OCR 剖析器的設定。目前僅適用於 PDF 檔案。 |
layoutParsingConfig |
套用至版面配置剖析器的設定。 |
DigitalParsingConfig
這個類型沒有任何欄位。
文件的數位剖析設定。
OcrParsingConfig
文件的 OCR 剖析設定。
JSON 表示法 |
---|
{ "enhancedDocumentElements": [ string ], "useNativeText": boolean } |
欄位 | |
---|---|
enhancedDocumentElements[] |
[已淘汰] 這個欄位已淘汰,如要使用額外的強化文件元素處理功能,請切換至 |
useNativeText |
如果設為 true,系統會使用原生文字,而非含有原生文字的網頁上的 OCR 文字。 |
LayoutParsingConfig
文件的版面配置剖析設定。
JSON 表示法 |
---|
{ "enableTableAnnotation": boolean, "enableImageAnnotation": boolean, "structuredContentTypes": [ string ], "excludeHtmlElements": [ string ], "excludeHtmlClasses": [ string ], "excludeHtmlIds": [ string ], "enableGetProcessedDocument": boolean } |
欄位 | |
---|---|
enableTableAnnotation |
(選用步驟) 如果設為 true,系統會在剖析期間,將 LLM 註解加到表格。 |
enableImageAnnotation |
(選用步驟) 如果設為 true,系統會在剖析期間,將 LLM 註解加到圖片。 |
structuredContentTypes[] |
(選用步驟) 包含要從文件中擷取的必要結構類型。支援的值:
|
excludeHtmlElements[] |
(選用步驟) 要從剖析內容中排除的 HTML 元素清單。 |
excludeHtmlClasses[] |
(選用步驟) 要從剖析內容中排除的 HTML 類別清單。 |
excludeHtmlIds[] |
(選用步驟) 要從剖析內容中排除的 HTML ID 清單。 |
enableGetProcessedDocument |
(選用步驟) 如為 true,系統會透過 GetProcessedDocument API 提供處理後的文件。 |
HealthcareFhirConfig
設定 HEALTHCARE_FHIR
垂直領域的資料儲存庫。
JSON 表示法 |
---|
{ "enableConfigurableSchema": boolean, "enableStaticIndexingForBatchIngestion": boolean } |
欄位 | |
---|---|
enableConfigurableSchema |
是否要為 如果設為 |
enableStaticIndexingForBatchIngestion |
是否要為 如果設為 |
ServingConfigDataStore
儲存 DataStore 層級的放送設定相關資訊。
JSON 表示法 |
---|
{ "disabledForServing": boolean } |
欄位 | |
---|---|
disabledForServing |
(選用步驟) 如果設為 true,DataStore 就無法處理搜尋要求。 |
ConfigurableBillingApproach
可設定的帳單方式設定。
列舉 | |
---|---|
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED |
預設值。適用於 Spark 和非 Spark 無法設定的計費方式。 |
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE |
針對非嵌入式儲存空間的索引核心,使用訂閱方案基本費用 + 超額費用計費。 |
CONFIGURABLE_CONSUMPTION_EMBEDDING |
嵌入式儲存空間外掛程式採用隨用隨付的計費方式。 |
方法 |
|
---|---|
|
以建議的關鍵字完成指定的使用者輸入內容。 |
|
建立 DataStore 。 |
|
刪除 DataStore 。 |
|
取得 DataStore 。 |
|
取得 SiteSearchEngine 。 |
|
列出與專案相關聯的所有 DataStore 。 |
|
更新 DataStore |
|
訓練自訂模型。 |