REST Resource: projects.locations.collections.dataStores

Recurso: DataStore

O DataStore captura definições e configurações globais ao nível do DataStore.

Representação JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Campos
name

string

Imutável. Identificador. O nome completo do recurso do armazenamento de dados. Formato: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Este campo tem de ser uma string codificada em UTF-8 com um limite de comprimento de 1024 carateres.

displayName

string

Obrigatório. O nome a apresentar da loja de dados.

Este campo tem de ser uma string codificada em UTF-8 com um limite de 128 carateres. Caso contrário, é devolvido um erro INVALID_ARGUMENT.

industryVertical

enum (IndustryVertical)

Imutável. A vertical do setor que a base de dados regista.

solutionTypes[]

enum (SolutionType)

As soluções que o arquivo de dados inscreve. Soluções disponíveis para cada industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION e SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH está inscrito automaticamente. Não é possível inscrever outras soluções.
defaultSchemaId

string

Apenas saída. O ID do Schema predefinido associado a este arquivo de dados.

contentConfig

enum (ContentConfig)

Imutável. A configuração de conteúdo do arquivo de dados. Se este campo não for definido, o comportamento do servidor é predefinido para ContentConfig.NO_CONTENT.

createTime

string (Timestamp format)

Apenas saída. Data/hora de criação do DataStore.

Usa RFC 3339, em que o resultado gerado é sempre normalizado em Z e usa 0, 3, 6 ou 9 dígitos fracionários. Também são aceites desvios diferentes de "Z". Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Opcional. Configuração para a pesquisa no site avançada.

languageInfo

object (LanguageInfo)

Informações de idioma para o DataStore.

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

Opcional. Configuração para a compreensão de consultas de linguagem natural.

kmsKeyName

string

Apenas entrada. A chave do KMS a usar para proteger este DataStore no momento da criação.

Tem de ser definido para pedidos que têm de estar em conformidade com as proteções da política organizacional da CMEK.

Se este campo estiver definido e for processado com êxito, o DataStore é protegido pela chave do KMS, conforme indicado no campo cmekConfig.

cmekConfig

object (CmekConfig)

Apenas saída. Informações relacionadas com a CMEK para o DataStore.

billingEstimation

object (BillingEstimation)

Apenas saída. Estimativa do tamanho dos dados para faturação.

aclEnabled

boolean

Imutável. Se os dados no ficheiro DataStore têm informações da LCA. Se estiver definido como true, os dados de origem têm de ter uma ACL. A ACL é carregada quando os dados são carregados através de métodos DocumentService.ImportDocuments.

Quando a ACL está ativada para o elemento DataStore, não é possível aceder ao elemento Document chamando DocumentService.GetDocument ou DocumentService.ListDocuments.

Atualmente, a ACL só é suportada no setor vertical GENERIC com uma configuração de conteúdo não PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Configuração para armazenar a configuração do tipo de armazenamento de dados para dados do Workspace. Tem de ser definido quando DataStore.content_config está definido como DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Configuração para a interpretação e o enriquecimento de documentos.

startingSchema

object (Schema)

O esquema de início a usar para este DataStore quando o aprovisionar. Se não estiver definida, é usado um esquema especializado vertical predefinido.

Este campo só é usado pela API dataStores.create e é ignorado se for usado noutras APIs. Este campo é omitido de todas as respostas da API, incluindo a API dataStores.create. Para obter um esquema de um DataStore, use a API SchemaService.GetSchema.

O esquema fornecido é validado em função de determinadas regras no esquema. Saiba mais neste documento.

healthcareFhirConfig

object (HealthcareFhirConfig)

Opcional. Configuração para o vertical HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Opcional. Armazena a configuração de publicação ao nível do DataStore.

identityMappingStore

string

Imutável. O nome do recurso totalmente qualificado do IdentityMappingStore associado. Este campo só pode ser definido para DataStores com aclEnabled com THIRD_PARTY ou GSUITE IdP. Formato: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Opcional. Se estiver definido, este DataStore é um DataStore de Perguntas frequentes do Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Opcional. Configuração para uma abordagem de faturação configurável. Consulte

ContentConfig

Configuração do conteúdo do arquivo de dados.

Enumerações
CONTENT_CONFIG_UNSPECIFIED Valor predefinido.
NO_CONTENT Contém apenas documentos sem Document.content.
CONTENT_REQUIRED Contém apenas documentos com Document.content.
PUBLIC_WEBSITE O armazenamento de dados é usado para a pesquisa pública de Websites.
GOOGLE_WORKSPACE O armazenamento de dados é usado para a pesquisa do espaço de trabalho. Os detalhes do arquivo de dados do espaço de trabalho são especificados no WorkspaceConfig.

AdvancedSiteSearchConfig

Dados de configuração para a pesquisa no site avançada.

Representação JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Campos
disableInitialIndex

boolean

Se for definida como verdadeira, a indexação inicial é desativada para o DataStore.

disableAutomaticRefresh

boolean

Se for definida como verdadeira, a atualização automática é desativada para o DataStore.

LanguageInfo

Informações de idioma para o DataStore.

Representação JSON
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
Campos
languageCode

string

O código de idioma do DataStore.

normalizedLanguageCode

string

Apenas saída. Esta é a forma normalizada de languageCode. Por exemplo: o languageCode de en-GB, en_GB, en-UK ou en-gb tem o normalizedLanguageCode de en-GB.

language

string

Apenas saída. Idioma que faz parte de normalizedLanguageCode. E.g.: en-US -> en, zh-Hans-HK -> zh, en -> en.

region

string

Apenas saída. Região que faz parte de normalizedLanguageCode, se presente. E.g.: en-US -> US, zh-Hans-HK -> HK, en -> ``.

NaturalLanguageQueryUnderstandingConfig

Configuração para a compreensão de consultas de linguagem natural.

Representação JSON
{
  "mode": enum (Mode)
}
Campos
mode

enum (Mode)

Modo de compreensão de consultas de linguagem natural. Se este campo não estiver definido, o comportamento é predefinido para NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED.

Modo

Modo de compreensão de consultas de linguagem natural. Quando NaturalLanguageQueryUnderstandingConfig.Mode é ENABLED, as capacidades de compreensão de linguagem natural são ativadas para um pedido de pesquisa se NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition em SearchRequest for ENABLED.

Enumerações
MODE_UNSPECIFIED Valor predefinido.
DISABLED A compreensão de consultas de linguagem natural está desativada.
ENABLED A compreensão de consultas de linguagem natural está ativada.

BillingEstimation

Estimativa do tamanho dos dados por arquivo de dados.

Representação JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Campos
structuredDataSize

string (int64 format)

Tamanho dos dados para dados estruturados em bytes.

unstructuredDataSize

string (int64 format)

Tamanho dos dados não estruturados em bytes.

websiteDataSize

string (int64 format)

tamanho dos dados para Websites em bytes.

structuredDataUpdateTime

string (Timestamp format)

Data/hora da última atualização dos dados estruturados.

Usa RFC 3339, em que o resultado gerado é sempre normalizado em Z e usa 0, 3, 6 ou 9 dígitos fracionários. Também são aceites desvios diferentes de "Z". Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Data/hora da última atualização dos dados não estruturados.

Usa RFC 3339, em que o resultado gerado é sempre normalizado em Z e usa 0, 3, 6 ou 9 dígitos fracionários. Também são aceites desvios diferentes de "Z". Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Data/hora da última atualização para Websites.

Usa RFC 3339, em que o resultado gerado é sempre normalizado em Z e usa 0, 3, 6 ou 9 dígitos fracionários. Também são aceites desvios diferentes de "Z". Exemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Configuração para armazenar a configuração do tipo de arquivo de dados para dados do Workspace

Representação JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Campos
type

enum (Type)

A origem de dados do Google Workspace.

dasherCustomerId

string

ID de cliente do Dasher ocultado.

superAdminServiceAccount

string

Opcional. A conta de serviço de superadministrador do espaço de trabalho que vai ser usada para a geração do token de acesso. Por agora, só a usamos para a obtenção de dados do conetor do Google Drive nativo.

superAdminEmailAddress

string

Opcional. O endereço de email do superadministrador do espaço de trabalho que vai ser usado para a geração do token de acesso. Por agora, só a usamos para a obtenção de dados do conetor do Google Drive nativo.

Tipo

Especifica o tipo de app do Workspace suportado por este DataStore

Enumerações
TYPE_UNSPECIFIED A predefinição é um tipo de Workspace não especificado.
GOOGLE_DRIVE O arquivo de dados do Workspace contém dados do Drive
GOOGLE_MAIL O arquivo de dados do Workspace contém dados de correio
GOOGLE_SITES O armazenamento de dados do Workspace contém dados do Sites
GOOGLE_CALENDAR O arquivo de dados do Workspace contém dados do Calendário
GOOGLE_CHAT O arquivo de dados do Workspace contém dados do Chat
GOOGLE_GROUPS O arquivo de dados do Workspace contém dados de grupos
GOOGLE_KEEP O repositório de dados do Workspace contém dados do Keep
GOOGLE_PEOPLE O arquivo de dados do Workspace contém dados de pessoas

DocumentProcessingConfig

Um recurso singleton de DataStore. Se estiver vazio quando DataStore é criado e DataStore estiver definido como DataStore.ContentConfig.CONTENT_REQUIRED, o analisador predefinido é o analisador digital.

Representação JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Campos
name

string

O nome completo do recurso da configuração de processamento de documentos. Formato: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Se o modo de divisão em partes está ativado.

defaultParsingConfig

object (ParsingConfig)

Configurações para o analisador de documentos predefinido. Se não for especificado, vamos configurá-lo como DigitalParsingConfig predefinido, e a configuração de análise predefinida será aplicada a todos os tipos de ficheiros para a análise de documentos.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Mapeie do tipo de ficheiro para substituir a configuração de análise predefinida com base no tipo de ficheiro. Chaves suportadas:

  • pdf: substitui a configuração de análise para ficheiros PDF. É suportada a análise digital, a análise OCR ou a análise de esquemas.
  • html: Substitua a configuração de análise para ficheiros HTML. Apenas a análise digital e a análise de esquemas são suportadas.
  • docx: substitui a configuração de análise para ficheiros DOCX. Apenas são suportadas a análise digital e a análise de esquemas.
  • pptx: substitui a configuração de análise para ficheiros PPTX. Apenas são suportadas a análise digital e a análise de esquemas.
  • xlsm: substitui a configuração de análise para ficheiros XLSM. Apenas são suportadas a análise digital e a análise de esquemas.
  • xlsx: substitui a configuração de análise para ficheiros XLSX. Apenas são suportadas a análise digital e a análise de esquemas.

ChunkingConfig

Configuração da configuração de divisão em partes.

Representação JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Campos
Campo de união chunk_mode. Configurações adicionais que definem o comportamento da divisão em blocos. chunk_mode só pode ser uma das seguintes opções:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Configuração para a divisão em partes com base no esquema.

LayoutBasedChunkingConfig

Configuração para a divisão em partes com base no esquema.

Representação JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Campos
chunkSize

integer

O limite de tamanho dos tokens para cada fragmento.

Valores suportados: 100 a 500 (inclusive). Valor predefinido: 500.

includeAncestorHeadings

boolean

Se deve incluir a anexação de diferentes níveis de títulos a blocos do meio do documento para evitar a perda de contexto.

Valor predefinido: False.

ParsingConfig

Configurações relacionadas aplicadas a um tipo específico de analisador de documentos.

Representação JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Campos
Campo de união type_dedicated_config. Configurações para tipos de processamento de documentos. type_dedicated_config só pode ser uma das seguintes opções:
digitalParsingConfig

object (DigitalParsingConfig)

Configurações aplicadas ao analisador digital.

ocrParsingConfig

object (OcrParsingConfig)

Configurações aplicadas ao analisador de OCR. Atualmente, aplica-se apenas a PDFs.

layoutParsingConfig

object (LayoutParsingConfig)

Configurações aplicadas ao analisador de esquemas.

DigitalParsingConfig

Este tipo não tem campos.

As configurações de análise digital para documentos.

OcrParsingConfig

As configurações de análise de OCR para documentos.

Representação JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Campos
enhancedDocumentElements[]
(deprecated)

string

[DEPRECATED] Este campo foi descontinuado. Para usar o processamento de elementos de documentos melhorados adicionais, mude para layoutParsingConfig.

useNativeText

boolean

Se for verdadeiro, usa texto nativo em vez de texto OCR em páginas que contenham texto nativo.

LayoutParsingConfig

As configurações de análise de esquemas para documentos.

Representação JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Campos
enableTableAnnotation

boolean

Opcional. Se for verdadeiro, a anotação baseada no MDG é adicionada à tabela durante a análise.

enableImageAnnotation

boolean

Opcional. Se for verdadeiro, a anotação baseada no MDG é adicionada à imagem durante a análise.

structuredContentTypes[]

string

Opcional. Contém os tipos de estruturas necessários para extrair do documento. Valores suportados:

  • shareholder-structure
excludeHtmlElements[]

string

Opcional. Lista de elementos HTML a excluir do conteúdo analisado.

excludeHtmlClasses[]

string

Opcional. Lista de classes HTML a excluir do conteúdo analisado.

excludeHtmlIds[]

string

Opcional. Lista de IDs HTML a excluir do conteúdo analisado.

enableGetProcessedDocument

boolean

Opcional. Se for verdadeiro, o documento processado é disponibilizado para a API GetProcessedDocument.

HealthcareFhirConfig

Configuração para o armazenamento de dados para a vertical HEALTHCARE_FHIR.

Representação JSON
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Campos
enableConfigurableSchema

boolean

Se deve ativar o esquema configurável para o vertical HEALTHCARE_FHIR.

Se estiver definido como true, o esquema FHIR de cuidados de saúde predefinido pode ser expandido para uma pesquisa e uma filtragem mais personalizadas.

enableStaticIndexingForBatchIngestion

boolean

Se deve ativar a indexação estática para o carregamento em lote HEALTHCARE_FHIR.

Se estiver definido como true, o carregamento em lote é processado num modo de indexação estático, que é mais lento, mas mais capaz de processar um volume maior.

ServingConfigDataStore

Armazena informações relativas às configurações de publicação ao nível do DataStore.

Representação JSON
{
  "disabledForServing": boolean
}
Campos
disabledForServing

boolean

Opcional. Se for definido como verdadeiro, o DataStore não vai estar disponível para publicar pedidos de pesquisa.

ConfigurableBillingApproach

Configuração para uma abordagem de faturação configurável.

Enumerações
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Valor predefinido. Para o Spark e a abordagem de faturação não configurável não Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Use a base de subscrição + a faturação de excesso para a indexação do núcleo para armazenamento sem incorporação.
CONFIGURABLE_CONSUMPTION_EMBEDDING Use a faturação de consumo pré-paga para incorporar o suplemento de armazenamento.

Métodos

completeQuery

Conclui a entrada do utilizador especificada com sugestões de palavras-chave.

create

Cria um DataStore.

delete

Elimina um DataStore.

get

Obtém um DataStore.

getSiteSearchEngine

Recebe o SiteSearchEngine.

list

Apresenta todos os DataStores associados ao projeto.

patch

Atualiza um DataStore

trainCustomModel

Prepara um modelo personalizado.