REST Resource: projects.locations.collections.dataStores

Recurso: DataStore

O DataStore captura configurações globais no nível do DataStore.

Representação JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "idpConfig": {
    object (IdpConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Campos
name

string

Imutável. Identificador. O nome completo do recurso do repositório de dados. Formato: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Este campo precisa ser uma string codificada em UTF-8 com um limite de 1.024 caracteres.

displayName

string

Obrigatório. O nome de exibição do repositório de dados.

Esse campo precisa ser uma string codificada em UTF-8 com um limite de 128 caracteres. Caso contrário, um erro INVALID_ARGUMENT será retornado.

industryVertical

enum (IndustryVertical)

Imutável. O setor em que o repositório de dados está registrado.

solutionTypes[]

enum (SolutionType)

As soluções registradas pelo repositório de dados. Soluções disponíveis para cada industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION e SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH é inscrito automaticamente. Não é possível inscrever outras soluções.
defaultSchemaId

string

Apenas saída. O ID do Schema padrão associado a este repositório de dados.

contentConfig

enum (ContentConfig)

Imutável. A configuração de conteúdo do repositório de dados. Se esse campo não for definido, o comportamento padrão do servidor será ContentConfig.NO_CONTENT.

createTime

string (Timestamp format)

Apenas saída. Carimbo de data/hora em que o DataStore foi criado.

Usa o padrão RFC 3339, em que a saída gerada é sempre convertida em Z e tem 0, 3, 6 ou 9 dígitos fracionários. Além de Z, outros ajustes também são aceitos. Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Opcional. Configuração para pesquisa avançada no site.

languageInfo

object (LanguageInfo)

Informações de idioma para o DataStore.

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

Opcional. Configuração para compreensão de consultas de linguagem natural.

kmsKeyName

string

Somente entrada. A chave do KMS a ser usada para proteger este DataStore no momento da criação.

Precisa ser definido para solicitações que precisam obedecer às proteções da política da organização da CMEK.

Se esse campo for definido e processado com sucesso, o DataStore será protegido pela chave do KMS, conforme indicado no campo "cmekConfig".

cmekConfig

object (CmekConfig)

Apenas saída. Informações relacionadas à CMEK para o DataStore.

idpConfig

object (IdpConfig)

Apenas saída. Configuração do provedor de identidade no nível do repositório de dados.

billingEstimation

object (BillingEstimation)

Apenas saída. Estimativa do tamanho dos dados para faturamento.

aclEnabled

boolean

Imutável. Se os dados em DataStore têm informações de ACL. Se definido como true, os dados de origem precisam ter ACL. A ACL será ingerida quando os dados forem ingeridos pelos métodos DocumentService.ImportDocuments.

Quando a ACL está ativada para o DataStore, não é possível acessar Document chamando DocumentService.GetDocument ou DocumentService.ListDocuments.

No momento, as ACLs são aceitas apenas na categoria GENERIC com uma configuração de conteúdo não PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Configuração para armazenar a configuração do tipo de repositório de dados para dados do espaço de trabalho. Isso precisa ser definido quando DataStore.content_config é definido como DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Configuração para entendimento e enriquecimento de documentos.

startingSchema

object (Schema)

O esquema inicial a ser usado para este DataStore ao provisioná-lo. Se não for definido, um esquema vertical especializado padrão será usado.

Esse campo é usado apenas pela API dataStores.create e será ignorado se usado em outras APIs. Esse campo será omitido de todas as respostas da API, incluindo a API dataStores.create. Para recuperar um esquema de um DataStore, use a API SchemaService.GetSchema.

O esquema fornecido será validado de acordo com determinadas regras. Saiba mais neste documento.

healthcareFhirConfig

object (HealthcareFhirConfig)

Opcional. Configuração para a categoria HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Opcional. Armazena a configuração de veiculação no nível do DataStore.

identityMappingStore

string

Imutável. O nome totalmente qualificado do recurso do IdentityMappingStore associado. Esse campo só pode ser definido para DataStores aclEnabled com IdP THIRD_PARTY ou GSUITE. Formato: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Opcional. Se definido, esse DataStore será um DataStore de perguntas frequentes do Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Opcional. Configuração para uma abordagem de faturamento configurável. Ver

AdvancedSiteSearchConfig

Dados de configuração para pesquisa avançada no site.

Representação JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Campos
disableInitialIndex

boolean

Se definido como verdadeiro, a indexação inicial será desativada para o DataStore.

disableAutomaticRefresh

boolean

Se definido como verdadeiro, a atualização automática será desativada para o DataStore.

LanguageInfo

Informações de idioma para o DataStore.

Representação JSON
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
Campos
languageCode

string

O código do idioma do DataStore.

normalizedLanguageCode

string

Apenas saída. Esta é a forma normalizada de "languageCode". Por exemplo: languageCode de en-GB, en_GB, en-UK ou en-gb terá normalizedLanguageCode de en-GB.

language

string

Apenas saída. Parte do idioma de normalizedLanguageCode. Exemplo: en-US -> en, zh-Hans-HK -> zh, en -> en.

region

string

Apenas saída. Parte da região de "normalizedLanguageCode", se presente. Exemplo: en-US -> US, zh-Hans-HK -> HK, en -> ``.

NaturalLanguageQueryUnderstandingConfig

Configuração para compreensão de consultas de linguagem natural.

Representação JSON
{
  "mode": enum (Mode)
}
Campos
mode

enum (Mode)

Modo de compreensão de consultas de linguagem natural. Se esse campo não for definido, o comportamento será NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED por padrão.

Modo

Modo de compreensão de consultas de linguagem natural. Quando o NaturalLanguageQueryUnderstandingConfig.Mode é ENABLED, os recursos de compreensão de linguagem natural são ativados para uma solicitação de pesquisa se o NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition em SearchRequest for ENABLED.

Tipos enumerados
MODE_UNSPECIFIED Valor padrão.
DISABLED A compreensão de consultas de linguagem natural está desativada.
ENABLED A compreensão de consultas de linguagem natural está ativada.

BillingEstimation

Estimativa do tamanho dos dados por repositório de dados.

Representação JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Campos
structuredDataSize

string (int64 format)

Tamanho dos dados estruturados em bytes.

unstructuredDataSize

string (int64 format)

Tamanho dos dados não estruturados em bytes.

websiteDataSize

string (int64 format)

Tamanho dos dados para sites em bytes.

structuredDataUpdateTime

string (Timestamp format)

Carimbo de data/hora da última atualização dos dados estruturados.

Usa o padrão RFC 3339, em que a saída gerada é sempre convertida em Z e tem 0, 3, 6 ou 9 dígitos fracionários. Além de Z, outros ajustes também são aceitos. Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Carimbo de data/hora da última atualização de dados não estruturados.

Usa o padrão RFC 3339, em que a saída gerada é sempre convertida em Z e tem 0, 3, 6 ou 9 dígitos fracionários. Além de Z, outros ajustes também são aceitos. Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Carimbo de data/hora da última atualização de sites.

Usa o padrão RFC 3339, em que a saída gerada é sempre convertida em Z e tem 0, 3, 6 ou 9 dígitos fracionários. Além de Z, outros ajustes também são aceitos. Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Configuração para armazenar a configuração do tipo de repositório de dados para dados do espaço de trabalho.

Representação JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Campos
type

enum (Type)

A fonte de dados do Google Workspace.

dasherCustomerId

string

ID de cliente Dasher ofuscado.

superAdminServiceAccount

string

Opcional. A conta de serviço de superadministrador do espaço de trabalho que será usada para gerar tokens de acesso. Por enquanto, só usamos para ingestão de dados do conector nativo do Google Drive.

superAdminEmailAddress

string

Opcional. O endereço de e-mail do superadministrador do espaço de trabalho que será usado para gerar o token de acesso. Por enquanto, só usamos para ingestão de dados do conector nativo do Google Drive.

DocumentProcessingConfig

Um recurso singleton de DataStore. Se ele estiver vazio quando DataStore for criado e DataStore estiver definido como DataStore.ContentConfig.CONTENT_REQUIRED, o analisador padrão será definido como o analisador digital.

Representação JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Campos
name

string

O nome completo do recurso da configuração de processamento de documentos. Formato: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Se o modo de divisão em partes está ativado.

defaultParsingConfig

object (ParsingConfig)

Configurações para o analisador de documentos padrão. Se não for especificado, vamos configurá-lo como DigitalParsingConfig padrão, e a configuração de análise padrão será aplicada a todos os tipos de arquivo para análise de documentos.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Mapeamento do tipo de arquivo para substituir a configuração de análise padrão com base no tipo de arquivo. Chaves compatíveis:

  • pdf: substitui a configuração de análise para arquivos PDF. A análise digital, de OCR ou de layout é compatível.
  • html: substitui a configuração de análise para arquivos HTML. Somente a análise digital e de layout são aceitas.
  • docx: substitua a configuração de análise para arquivos DOCX. Somente a análise digital e de layout são compatíveis.
  • pptx: substitui a configuração de análise para arquivos PPTX. Somente a análise digital e de layout são compatíveis.
  • xlsm: substitui a configuração de análise de arquivos XLSM. Somente a análise digital e de layout são compatíveis.
  • xlsx: substitui a configuração de análise para arquivos XLSX. Somente a análise digital e de layout são compatíveis.

ChunkingConfig

Configuração para a configuração de divisão.

Representação JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Campos
Campo de união chunk_mode. Configurações adicionais que definem o comportamento do chunking. chunk_mode pode ser apenas de um dos tipos a seguir:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Configuração para o chunking baseado em layout.

LayoutBasedChunkingConfig

Configuração para o chunking baseado em layout.

Representação JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Campos
chunkSize

integer

O limite de tamanho de token para cada bloco.

Valores aceitos: de 100 a 500 (inclusive). Valor padrão: 500.

includeAncestorHeadings

boolean

Se é necessário incluir diferentes níveis de títulos em blocos do meio do documento para evitar a perda de contexto.

Valor padrão: False.

ParsingConfig

Configurações relacionadas aplicadas a um tipo específico de analisador de documentos.

Representação JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Campos
Campo de união type_dedicated_config. Configurações para tipos de processamento de documentos. type_dedicated_config pode ser apenas de um dos tipos a seguir:
digitalParsingConfig

object (DigitalParsingConfig)

Configurações aplicadas ao analisador digital.

ocrParsingConfig

object (OcrParsingConfig)

Configurações aplicadas ao analisador de OCR. No momento, isso só se aplica a PDFs.

layoutParsingConfig

object (LayoutParsingConfig)

Configurações aplicadas ao analisador de layout.

DigitalParsingConfig

Esse tipo não tem campos.

As configurações de análise digital para documentos.

OcrParsingConfig

As configurações de análise de OCR para documentos.

Representação JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Campos
enhancedDocumentElements[]
(deprecated)

string

[DESCONTINUADO] O uso deste campo foi descontinuado. Para usar o processamento adicional de elementos de documentos otimizado, mude para layoutParsingConfig.

useNativeText

boolean

Se for verdadeiro, vai usar texto nativo em vez de texto de OCR em páginas que contêm texto nativo.

LayoutParsingConfig

As configurações de análise de layout para documentos.

Representação JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Campos
enableTableAnnotation

boolean

Opcional. Se for verdadeiro, a anotação baseada em LLM será adicionada à tabela durante a análise.

enableImageAnnotation

boolean

Opcional. Se for verdadeiro, a anotação baseada em LLM será adicionada à imagem durante a análise.

structuredContentTypes[]

string

Opcional. Contém os tipos de estrutura necessários para extrair do documento. Valores aceitos:

  • shareholder-structure
excludeHtmlElements[]

string

Opcional. Lista de elementos HTML a serem excluídos do conteúdo analisado.

excludeHtmlClasses[]

string

Opcional. Lista de classes HTML a serem excluídas do conteúdo analisado.

excludeHtmlIds[]

string

Opcional. Lista de IDs HTML a serem excluídos do conteúdo analisado.

enableGetProcessedDocument

boolean

Opcional. Se for "true", o documento processado será disponibilizado para a API GetProcessedDocument.

ServingConfigDataStore

Armazena informações sobre as configurações de exibição no nível do DataStore.

Representação JSON
{
  "disabledForServing": boolean
}
Campos
disabledForServing

boolean

Opcional. Se definido como verdadeiro, o DataStore não estará disponível para atender a solicitações de pesquisa.

ConfigurableBillingApproach

Configuração para uma abordagem de faturamento configurável.

Tipos enumerados
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Valor padrão. Para o Spark e a abordagem de faturamento não configurável que não é do Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Use o faturamento de base + excedente da assinatura para indexação principal para armazenamento sem incorporação.
CONFIGURABLE_CONSUMPTION_EMBEDDING Use o faturamento de pagamento por uso para o complemento de armazenamento de incorporação.

Métodos

completeQuery

Completa a entrada do usuário especificada com sugestões de palavras-chave.

create

Cria uma DataStore.

delete

Exclui um DataStore.

get

Recebe um DataStore.

getCompletionConfig

Recebe um CompletionConfig

getDocumentProcessingConfig

Recebe um DocumentProcessingConfig.

getSiteSearchEngine

Recebe o SiteSearchEngine.

list

Lista todos os DataStores associados ao projeto.

patch

Atualiza um DataStore

trainCustomModel

Treina um modelo personalizado.

updateCompletionConfig

Atualiza os CompletionConfigs.

updateDocumentProcessingConfig

Atualiza o DocumentProcessingConfig.