REST Resource: projects.locations.collections.dataStores

Risorsa: DataStore

DataStore acquisisce le impostazioni e le configurazioni globali a livello di datastore.

Rappresentazione JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Campi
name

string

Immutabile. Identificatore. Il nome completo della risorsa del datastore. Formato: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Questo campo deve essere una stringa codificata in UTF-8 con un limite di lunghezza di 1024 caratteri.

displayName

string

Obbligatorio. Il nome visualizzato del datastore.

Questo campo deve essere una stringa codificata in UTF-8 con un limite di lunghezza di 128 caratteri. In caso contrario, viene restituito un errore INVALID_ARGUMENT.

industryVertical

enum (IndustryVertical)

Immutabile. Il verticale del settore registrato dal datastore.

solutionTypes[]

enum (SolutionType)

Le soluzioni registrate dal datastore. Soluzioni disponibili per ogni industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION e SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH viene registrato automaticamente. Non è possibile registrare altre soluzioni.
defaultSchemaId

string

Solo output. L'ID del Schema predefinito associato a questo datastore.

contentConfig

enum (ContentConfig)

Immutabile. La configurazione dei contenuti del datastore. Se questo campo non è impostato, il comportamento del server è ContentConfig.NO_CONTENT per impostazione predefinita.

createTime

string (Timestamp format)

Solo output. Timestamp della creazione di DataStore.

Utilizza RFC 3339, in cui l'output generato è sempre normalizzato in base al fuso orario UTC e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Facoltativo. Configurazione per la ricerca avanzata sul sito.

languageInfo

object (LanguageInfo)

Informazioni sulla lingua per DataStore.

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

Facoltativo. Configurazione per la comprensione delle query in linguaggio naturale.

kmsKeyName

string

Solo input. La chiave KMS da utilizzare per proteggere questo datastore al momento della creazione.

Deve essere impostato per le richieste che devono essere conformi alle protezioni delle policy dell'organizzazione CMEK.

Se questo campo è impostato ed elaborato correttamente, il datastore sarà protetto dalla chiave KMS, come indicato nel campo cmekConfig.

cmekConfig

object (CmekConfig)

Solo output. Informazioni relative a CMEK per Datastore.

billingEstimation

object (BillingEstimation)

Solo output. Stima delle dimensioni dei dati per la fatturazione.

aclEnabled

boolean

Immutabile. Se i dati in DataStore contengono informazioni ACL. Se è impostato su true, i dati di origine devono avere un elenco di controllo degli accessi. Gli ACL verranno importati quando i dati vengono importati con i metodi DocumentService.ImportDocuments.

Quando l'ACL è abilitata per DataStore, non è possibile accedere a Document chiamando DocumentService.GetDocument o DocumentService.ListDocuments.

Al momento, gli ACL sono supportati solo nel verticale del settore GENERIC con la configurazione dei contenuti non PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Configurazione per archiviare la configurazione del tipo di datastore per i dati del workspace. Questo valore deve essere impostato quando DataStore.content_config è impostato su DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Configurazione per la comprensione e l'arricchimento dei documenti.

startingSchema

object (Schema)

Lo schema iniziale da utilizzare per questo DataStore durante il provisioning. Se non impostato, verrà utilizzato uno schema verticale specializzato predefinito.

Questo campo viene utilizzato solo dall'API dataStores.create e verrà ignorato se utilizzato in altre API. Questo campo verrà omesso da tutte le risposte dell'API, inclusa l'API dataStores.create. Per recuperare uno schema di un DataStore, utilizza l'API SchemaService.GetSchema.

Lo schema fornito verrà convalidato in base a determinate regole dello schema. Scopri di più in questo documento.

healthcareFhirConfig

object (HealthcareFhirConfig)

Facoltativo. Configurazione per la verticale HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Facoltativo. Configurazione del servizio di archiviazione a livello di datastore.

identityMappingStore

string

Immutabile. Il nome risorsa completo del IdentityMappingStore associato. Questo campo può essere impostato solo per i DataStore aclEnabled con IdP THIRD_PARTY o GSUITE. Formato: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Facoltativo. Se impostato, questo datastore è un datastore FAQ di Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Facoltativo. Configurazione per l'approccio di fatturazione configurabile. Consulta

ContentConfig

Configurazione dei contenuti del datastore.

Enum
CONTENT_CONFIG_UNSPECIFIED Valore predefinito.
NO_CONTENT Contiene solo documenti senza Document.content.
CONTENT_REQUIRED Contiene solo documenti con Document.content.
PUBLIC_WEBSITE Il datastore viene utilizzato per la ricerca sul sito web pubblico.
GOOGLE_WORKSPACE Il datastore viene utilizzato per la ricerca di Workspace. I dettagli dell'datastore del workspace sono specificati in WorkspaceConfig.

AdvancedSiteSearchConfig

Dati di configurazione per la ricerca avanzata sul sito.

Rappresentazione JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Campi
disableInitialIndex

boolean

Se impostato su true, l'indicizzazione iniziale viene disattivata per DataStore.

disableAutomaticRefresh

boolean

Se è impostato su true, l'aggiornamento automatico è disattivato per DataStore.

LanguageInfo

Informazioni sulla lingua per DataStore.

Rappresentazione JSON
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
Campi
languageCode

string

Il codice lingua per DataStore.

normalizedLanguageCode

string

Solo output. Questa è la forma normalizzata di languageCode. Ad esempio, i languageCode en-GB, en_GB, en-UK o en-gb avranno un normalizedLanguageCode di en-GB.

language

string

Solo output. Parte della lingua di normalizedLanguageCode. E.g.: en-US -> en, zh-Hans-HK -> zh, en -> en.

region

string

Solo output. Parte della regione di normalizedLanguageCode, se presente. E.g.: en-US -> US, zh-Hans-HK -> HK, en -> ``.

NaturalLanguageQueryUnderstandingConfig

Configurazione per la comprensione delle query in linguaggio naturale.

Rappresentazione JSON
{
  "mode": enum (Mode)
}
Campi
mode

enum (Mode)

Modalità di comprensione delle query in linguaggio naturale. Se questo campo non è impostato, il comportamento predefinito è NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED.

Modalità

Modalità di comprensione delle query in linguaggio naturale. Quando NaturalLanguageQueryUnderstandingConfig.Mode è ENABLED, le funzionalità di comprensione del linguaggio naturale vengono abilitate per una richiesta di ricerca se NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition in SearchRequest è ENABLED.

Enum
MODE_UNSPECIFIED Valore predefinito.
DISABLED La comprensione delle query in linguaggio naturale è disattivata.
ENABLED La comprensione delle query in linguaggio naturale è abilitata.

BillingEstimation

Stima delle dimensioni dei dati per datastore.

Rappresentazione JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Campi
structuredDataSize

string (int64 format)

Dimensioni dei dati strutturati in byte.

unstructuredDataSize

string (int64 format)

Dimensione dei dati non strutturati in byte.

websiteDataSize

string (int64 format)

Dimensioni dei dati per i siti web in termini di byte.

structuredDataUpdateTime

string (Timestamp format)

Timestamp dell'ultimo aggiornamento per i dati strutturati.

Utilizza RFC 3339, in cui l'output generato è sempre normalizzato in base al fuso orario UTC e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Timestamp dell'ultimo aggiornamento per i dati non strutturati.

Utilizza RFC 3339, in cui l'output generato è sempre normalizzato in base al fuso orario UTC e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Timestamp dell'ultimo aggiornamento per i siti web.

Utilizza RFC 3339, in cui l'output generato è sempre normalizzato in base al fuso orario UTC e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Configurazione per archiviare la configurazione del tipo di datastore per i dati del workspace

Rappresentazione JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Campi
type

enum (Type)

L'origine dati Google Workspace.

dasherCustomerId

string

ID cliente Dasher offuscato.

superAdminServiceAccount

string

Facoltativo. Il account di servizio super amministratore dello spazio di lavoro che verrà utilizzato per la generazione del token di accesso. Per il momento lo utilizziamo solo per l'importazione dati del connettore Google Drive nativo.

superAdminEmailAddress

string

Facoltativo. L'indirizzo email del super amministratore dello spazio di lavoro che verrà utilizzato per la generazione del token di accesso. Per il momento lo utilizziamo solo per l'importazione dati del connettore Google Drive nativo.

Tipo

Specifica il tipo di app Workspace supportata da questo datastore

Enum
TYPE_UNSPECIFIED Il valore predefinito è un tipo di workspace non specificato.
GOOGLE_DRIVE L'datastore di Workspace contiene i dati di Drive
GOOGLE_MAIL L'datastore di Workspace contiene dati di posta
GOOGLE_SITES Il datastore Workspace contiene i dati di Sites
GOOGLE_CALENDAR Il datastore Workspace contiene dati di Calendar
GOOGLE_CHAT Il datastore di Workspace contiene i dati di Chat
GOOGLE_GROUPS L'datastore di Workspace contiene i dati di Gruppi
GOOGLE_KEEP Il datastore di Workspace contiene i dati di Keep
GOOGLE_PEOPLE Il datastore di Workspace contiene dati di People

DocumentProcessingConfig

Una risorsa singleton di DataStore. Se è vuoto quando viene creato DataStore e DataStore è impostato su DataStore.ContentConfig.CONTENT_REQUIRED, il parser predefinito verrà impostato sul parser digitale.

Rappresentazione JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Campi
name

string

Il nome completo della risorsa della configurazione dell'elaborazione dei documenti. Formato: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Indica se la modalità di suddivisione è attivata.

defaultParsingConfig

object (ParsingConfig)

Configurazioni per il parser predefinito dei documenti. Se non specificato, verrà configurato come DigitalParsingConfig predefinito e la configurazione di analisi predefinita verrà applicata a tutti i tipi di file per l'analisi dei documenti.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Mappa dal tipo di file per eseguire l'override della configurazione di analisi predefinita in base al tipo di file. Chiavi supportate:

  • pdf: Esegue l'override della configurazione di analisi per i file PDF. Sono supportate l'analisi digitale, l'analisi OCR o l'analisi del layout.
  • html: esegui l'override della configurazione di analisi per i file HTML. Sono supportate solo l'analisi digitale e l'analisi del layout.
  • docx: esegue l'override della configurazione di analisi per i file DOCX. Sono supportate solo l'analisi digitale e l'analisi del layout.
  • pptx: Esegue l'override della configurazione di analisi per i file PPTX. Sono supportate solo l'analisi digitale e l'analisi del layout.
  • xlsm: esegui l'override della configurazione di analisi per i file XLSM. Sono supportate solo l'analisi digitale e l'analisi del layout.
  • xlsx: esegui l'override della configurazione di analisi per i file XLSX. Sono supportate solo l'analisi digitale e l'analisi del layout.

ChunkingConfig

Configurazione per la configurazione della suddivisione in blocchi.

Rappresentazione JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Campi
Campo unione chunk_mode. Configurazioni aggiuntive che definiscono il comportamento della suddivisione in blocchi. chunk_mode può essere solo uno dei seguenti:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Configurazione per la suddivisione in blocchi basata sul layout.

LayoutBasedChunkingConfig

Configurazione per la suddivisione in blocchi basata sul layout.

Rappresentazione JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Campi
chunkSize

integer

Il limite di dimensioni dei token per ogni blocco.

Valori supportati: 100-500 (estremi inclusi). Valore predefinito: 500.

includeAncestorHeadings

boolean

Se includere l'aggiunta di diversi livelli di intestazioni ai chunk dalla parte centrale del documento per evitare la perdita di contesto.

Valore predefinito: False.

ParsingConfig

Configurazioni correlate applicate a un tipo specifico di parser dei documenti.

Rappresentazione JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Campi
Campo unione type_dedicated_config. Configurazioni per i tipi di elaborazione dei documenti. type_dedicated_config può essere solo uno dei seguenti:
digitalParsingConfig

object (DigitalParsingConfig)

Configurazioni applicate al parser digitale.

ocrParsingConfig

object (OcrParsingConfig)

Configurazioni applicate al parser OCR. Al momento si applica solo ai PDF.

layoutParsingConfig

object (LayoutParsingConfig)

Configurazioni applicate al parser layout.

DigitalParsingConfig

Questo tipo non contiene campi.

Le configurazioni di analisi digitale per i documenti.

OcrParsingConfig

Le configurazioni di analisi OCR per i documenti.

Rappresentazione JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Campi
enhancedDocumentElements[]
(deprecated)

string

[OBSOLETO] Questo campo è obsoleto. Per utilizzare l'elaborazione aggiuntiva degli elementi avanzati del documento, passa a layoutParsingConfig.

useNativeText

boolean

Se il valore è vero, verrà utilizzato il testo nativo anziché il testo OCR nelle pagine contenenti testo nativo.

LayoutParsingConfig

Le configurazioni di analisi del layout per i documenti.

Rappresentazione JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Campi
enableTableAnnotation

boolean

Facoltativo. Se true, l'annotazione basata su LLM viene aggiunta alla tabella durante l'analisi.

enableImageAnnotation

boolean

Facoltativo. Se il valore è impostato su True, durante l'analisi viene aggiunta un'annotazione basata su LLM all'immagine.

structuredContentTypes[]

string

Facoltativo. Contiene i tipi di struttura richiesti da estrarre dal documento. Valori supportati:

  • shareholder-structure
excludeHtmlElements[]

string

Facoltativo. Elenco degli elementi HTML da escludere dai contenuti analizzati.

excludeHtmlClasses[]

string

Facoltativo. Elenco delle classi HTML da escludere dai contenuti analizzati.

excludeHtmlIds[]

string

Facoltativo. Elenco di ID HTML da escludere dai contenuti analizzati.

enableGetProcessedDocument

boolean

Facoltativo. Se è true, il documento elaborato sarà disponibile per l'API GetProcessedDocument.

HealthcareFhirConfig

Configurazione del datastore per la verticale HEALTHCARE_FHIR.

Rappresentazione JSON
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Campi
enableConfigurableSchema

boolean

Se abilitare lo schema configurabile per la verticale HEALTHCARE_FHIR.

Se impostato su true, lo schema FHIR sanitario predefinito può essere esteso per una ricerca e un filtro più personalizzati.

enableStaticIndexingForBatchIngestion

boolean

Se abilitare l'indicizzazione statica per l'importazione batch di HEALTHCARE_FHIR.

Se impostato su true, l'importazione batch verrà elaborata in una modalità di indicizzazione statica più lenta, ma più adatta a gestire volumi maggiori.

ServingConfigDataStore

Memorizza le informazioni relative alle configurazioni di pubblicazione a livello di DataStore.

Rappresentazione JSON
{
  "disabledForServing": boolean
}
Campi
disabledForServing

boolean

Facoltativo. Se impostato su true, DataStore non sarà disponibile per la gestione delle richieste di ricerca.

ConfigurableBillingApproach

Configurazione per l'approccio di fatturazione configurabile.

Enum
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Valore predefinito. Per l'approccio di fatturazione non configurabile Spark e non Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Utilizza la fatturazione base + eccedenza dell'abbonamento per l'indicizzazione di base per l'archiviazione non incorporata.
CONFIGURABLE_CONSUMPTION_EMBEDDING Utilizza la fatturazione a consumo per il componente aggiuntivo di archiviazione per l'incorporamento.

Metodi

completeQuery

Completa l'input utente specificato con i suggerimenti per le parole chiave.

create

Crea un DataStore.

delete

Elimina un DataStore.

get

Riceve un DataStore.

getSiteSearchEngine

Ottiene SiteSearchEngine.

list

Elenca tutti i DataStore associati al progetto.

patch

Aggiornamenti a DataStore

trainCustomModel

Addestra un modello personalizzato.