REST Resource: projects.locations.collections.dataStores

Recurso: DataStore

DataStore captura los ajustes y las configuraciones globales a nivel de DataStore.

Representación JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "idpConfig": {
    object (IdpConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Campos
name

string

Inmutable. Identificador. Nombre de recurso completo del almacén de datos. Formato: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Este campo debe ser una cadena codificada en UTF-8 con un límite de 1024 caracteres.

displayName

string

Obligatorio. Nombre visible del almacén de datos.

Este campo debe ser una cadena codificada en UTF-8 con un límite de 128 caracteres. De lo contrario, se devuelve un error INVALID_ARGUMENT.

industryVertical

enum (IndustryVertical)

Inmutable. El vertical del sector en el que se registra el almacén de datos.

solutionTypes[]

enum (SolutionType)

Las soluciones en las que se registra el almacén de datos. Soluciones disponibles para cada industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION y SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH se registra automáticamente. No se pueden registrar otras soluciones.
defaultSchemaId

string

Solo de salida. ID del Schema predeterminado asociado a este almacén de datos.

contentConfig

enum (ContentConfig)

Inmutable. La configuración de contenido del almacén de datos. Si no se define este campo, el comportamiento predeterminado del servidor será ContentConfig.NO_CONTENT.

createTime

string (Timestamp format)

Solo de salida. Marca de tiempo de la creación de DataStore.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Opcional. Configuración de la búsqueda avanzada en el sitio.

languageInfo

object (LanguageInfo)

Información de idioma de DataStore.

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

Opcional. Configuración de la comprensión de consultas en lenguaje natural.

kmsKeyName

string

Solo de entrada. Clave de KMS que se usará para proteger este almacén de datos en el momento de la creación.

Se debe definir en las solicitudes que deban cumplir las protecciones de la política de organización de CMEK.

Si este campo se define y se procesa correctamente, el almacén de datos estará protegido por la clave de KMS, tal como se indica en el campo cmekConfig.

cmekConfig

object (CmekConfig)

Solo de salida. Información relacionada con CMEK de DataStore.

idpConfig

object (IdpConfig)

Solo de salida. Configuración de proveedor de identidades a nivel de almacén de datos.

billingEstimation

object (BillingEstimation)

Solo de salida. Estimación del tamaño de los datos para la facturación.

aclEnabled

boolean

Inmutable. Si los datos de DataStore tienen información de LCA. Si se define como true, los datos de origen deben tener una lista de control de acceso. Los LCA se ingieren cuando los datos se ingieren mediante métodos de DocumentService.ImportDocuments.

Cuando la ACL está habilitada para DataStore, no se puede acceder a Document llamando a DocumentService.GetDocument o DocumentService.ListDocuments.

Actualmente, las listas de control de acceso solo se admiten en el vertical de la industria GENERIC con una configuración de contenido que no sea PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Configuración para almacenar la configuración del tipo de almacén de datos de los datos del espacio de trabajo. Este valor debe definirse cuando DataStore.content_config se define como DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Configuración de la comprensión y el enriquecimiento de documentos.

startingSchema

object (Schema)

El esquema de inicio que se usará para este DataStore al aprovisionarlo. Si no se define, se usará un esquema especializado vertical predeterminado.

Este campo solo lo usa la API dataStores.create y se ignorará si se usa en otras APIs. Este campo se omitirá en todas las respuestas de la API, incluida la API dataStores.create. Para recuperar el esquema de un DataStore, usa la API SchemaService.GetSchema.

El esquema proporcionado se validará según determinadas reglas del esquema. Consulta más información en este documento.

healthcareFhirConfig

object (HealthcareFhirConfig)

Opcional. Configuración de la vertical HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Opcional. Almacena la configuración de servicio a nivel de DataStore.

identityMappingStore

string

Inmutable. Nombre de recurso completo del IdentityMappingStore asociado. Este campo solo se puede definir en DataStores con aclEnabled con el proveedor de identidades THIRD_PARTY o GSUITE. Formato: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Opcional. Si se define, este DataStore es un DataStore de preguntas frecuentes de Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Opcional. Configuración del método de facturación configurable. Consulta

AdvancedSiteSearchConfig

Datos de configuración de la búsqueda avanzada en el sitio.

Representación JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Campos
disableInitialIndex

boolean

Si se le asigna el valor true, se inhabilita la indexación inicial de DataStore.

disableAutomaticRefresh

boolean

Si se le asigna el valor true, se inhabilita la actualización automática de DataStore.

LanguageInfo

Información de idioma de DataStore.

Representación JSON
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
Campos
languageCode

string

Código de idioma de DataStore.

normalizedLanguageCode

string

Solo de salida. Es la forma normalizada de languageCode. Por ejemplo, los códigos de idioma en-GB, en_GB, en-UK o en-gb tendrán el código de idioma normalizado en-GB.

language

string

Solo de salida. Parte del idioma de normalizedLanguageCode. E.g.: en-US -> en, zh-Hans-HK -> zh, en -> en.

region

string

Solo de salida. Parte de la región de normalizedLanguageCode, si está presente. E.g.: en-US -> US, zh-Hans-HK -> HK, en -> ``.

NaturalLanguageQueryUnderstandingConfig

Configuración de la comprensión de consultas en lenguaje natural.

Representación JSON
{
  "mode": enum (Mode)
}
Campos
mode

enum (Mode)

Modo de comprensión de consultas en lenguaje natural. Si no se define este campo, el comportamiento predeterminado será NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED.

Modo

Modo de comprensión de consultas en lenguaje natural. Si NaturalLanguageQueryUnderstandingConfig.Mode es ENABLED, las funciones de comprensión del lenguaje natural se habilitarán en una solicitud de búsqueda si NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition en SearchRequest es ENABLED.

Enumeraciones
MODE_UNSPECIFIED Valor predeterminado.
DISABLED La comprensión de consultas en lenguaje natural está inhabilitada.
ENABLED La comprensión de consultas en lenguaje natural está habilitada.

BillingEstimation

Estimación del tamaño de los datos por almacén de datos.

Representación JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Campos
structuredDataSize

string (int64 format)

Tamaño de los datos estructurados en bytes.

unstructuredDataSize

string (int64 format)

Tamaño de los datos sin estructurar en bytes.

websiteDataSize

string (int64 format)

Tamaño de los datos de los sitios web en bytes.

structuredDataUpdateTime

string (Timestamp format)

Marca de tiempo de la última actualización de los datos estructurados.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Marca de tiempo de la última actualización de los datos sin estructurar.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Marca de tiempo de la última actualización de los sitios web.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Configuración para almacenar la configuración del tipo de almacén de datos de los datos del espacio de trabajo.

Representación JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Campos
type

enum (Type)

La fuente de datos de Google Workspace.

dasherCustomerId

string

ID de cliente de Dasher ofuscado.

superAdminServiceAccount

string

Opcional. La cuenta de servicio de superadministrador del espacio de trabajo que se usará para generar tokens de acceso. Por ahora, solo lo usamos para la ingestión de datos del conector de Google Drive nativo.

superAdminEmailAddress

string

Opcional. La dirección de correo del superadministrador del espacio de trabajo que se usará para generar el token de acceso. Por ahora, solo lo usamos para la ingestión de datos del conector de Google Drive nativo.

DocumentProcessingConfig

Un recurso singleton de DataStore. Si está vacío cuando se crea DataStore y DataStore se define como DataStore.ContentConfig.CONTENT_REQUIRED, el analizador predeterminado se convertirá en el analizador digital.

Representación JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Campos
name

string

Nombre completo del recurso DocumentProcessingConfig. Formato: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Indica si el modo de fragmentación está habilitado.

defaultParsingConfig

object (ParsingConfig)

Configuraciones del analizador de documentos predeterminado. Si no se especifica, se configurará como DigitalParsingConfig predeterminado y se aplicará a todos los tipos de archivo para el análisis de documentos.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Asigna un tipo de archivo para anular la configuración de análisis predeterminada en función del tipo de archivo. Claves admitidas:

  • pdf: anula la configuración de análisis de archivos PDF. Se admite el análisis digital, el análisis OCR o el análisis de diseño.
  • html: anula la configuración de análisis de archivos HTML. Solo se admiten el análisis digital y el análisis de diseño.
  • docx: anula la configuración de análisis de archivos DOCX. Solo se admiten el análisis digital y el análisis de diseño.
  • pptx: anula la configuración de análisis de archivos PPTX. Solo se admiten el análisis digital y el análisis de diseño.
  • xlsm: anula la configuración de análisis de archivos XLSM. Solo se admiten el análisis digital y el análisis de diseño.
  • xlsx: anula la configuración de análisis de archivos XLSX. Solo se admiten el análisis digital y el análisis de diseño.

ChunkingConfig

Configuración de la configuración de fragmentación.

Representación JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Campos
Campo de unión chunk_mode. Configuraciones adicionales que definen el comportamiento de la fragmentación. chunk_mode solo puede ser una de estas dos opciones:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Configuración de la fragmentación basada en el diseño.

LayoutBasedChunkingConfig

Configuración de la fragmentación basada en el diseño.

Representación JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Campos
chunkSize

integer

El límite de tamaño de los tokens de cada fragmento.

Valores admitidos: de 100 a 500 (inclusive). Valor predeterminado: 500.

includeAncestorHeadings

boolean

Indica si se deben añadir diferentes niveles de encabezados a los fragmentos desde la mitad del documento para evitar la pérdida de contexto.

Valor predeterminado: False.

ParsingConfig

Configuraciones relacionadas que se aplican a un tipo específico de analizador de documentos.

Representación JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Campos
Campo de unión type_dedicated_config. Configuraciones de los tipos de procesamiento de documentos. type_dedicated_config solo puede ser una de estas dos opciones:
digitalParsingConfig

object (DigitalParsingConfig)

Configuraciones aplicadas al analizador digital.

ocrParsingConfig

object (OcrParsingConfig)

Configuraciones aplicadas al analizador de OCR. Actualmente, solo se aplica a los PDFs.

layoutParsingConfig

object (LayoutParsingConfig)

Configuraciones aplicadas al analizador de diseño.

DigitalParsingConfig

Este tipo no tiene campos.

Las configuraciones de análisis digital de documentos.

OcrParsingConfig

Configuraciones de análisis de OCR para documentos.

Representación JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Campos
enhancedDocumentElements[]
(deprecated)

string

[DEPRECATED] Este campo está obsoleto. Para usar el procesamiento mejorado adicional de elementos de documentos, cambia a layoutParsingConfig.

useNativeText

boolean

Si se le asigna el valor true, se usará el texto nativo en lugar del texto de OCR en las páginas que contengan texto nativo.

LayoutParsingConfig

Las configuraciones de análisis de diseño de los documentos.

Representación JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Campos
enableTableAnnotation

boolean

Opcional. Si es true, la anotación basada en LLM se añade a la tabla durante el análisis.

enableImageAnnotation

boolean

Opcional. Si es true, la anotación basada en LLM se añade a la imagen durante el análisis.

structuredContentTypes[]

string

Opcional. Contiene los tipos de estructura necesarios para extraerlos del documento. Valores admitidos:

  • shareholder-structure
excludeHtmlElements[]

string

Opcional. Lista de elementos HTML que se excluirán del contenido analizado.

excludeHtmlClasses[]

string

Opcional. Lista de clases HTML que se excluirán del contenido analizado.

excludeHtmlIds[]

string

Opcional. Lista de IDs de HTML que se excluirán del contenido analizado.

enableGetProcessedDocument

boolean

Opcional. Si es true, el documento procesado estará disponible para la API GetProcessedDocument.

ServingConfigDataStore

Almacena información sobre las configuraciones de publicación a nivel de DataStore.

Representación JSON
{
  "disabledForServing": boolean
}
Campos
disabledForServing

boolean

Opcional. Si se define como true, DataStore no estará disponible para atender solicitudes de búsqueda.

ConfigurableBillingApproach

Configuración del método de facturación configurable.

Enumeraciones
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Valor predeterminado. Enfoque de facturación no configurable para Spark y no Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Usa la base de suscripción + la facturación por exceso para indexar el almacenamiento principal que no es de inserciones.
CONFIGURABLE_CONSUMPTION_EMBEDDING Usa la facturación por consumo para el complemento de almacenamiento insertado.

Métodos

completeQuery

Completa la información introducida por el usuario con sugerencias de palabras clave.

create

Crea un DataStore.

delete

Elimina un DataStore.

get

Obtiene un DataStore.

getCompletionConfig

Consigue una insignia CompletionConfig

getDocumentProcessingConfig

Obtiene un DocumentProcessingConfig.

getSiteSearchEngine

Obtiene el SiteSearchEngine.

list

Lista todos los DataStores asociados al proyecto.

patch

Actualiza un DataStore

trainCustomModel

Entrena un modelo personalizado.

updateCompletionConfig

Actualiza los CompletionConfig.

updateDocumentProcessingConfig

Actualiza el DocumentProcessingConfig.