REST Resource: projects.locations.collections.dataStores

Recurso: DataStore

DataStore captura la configuración y los parámetros globales a nivel de DataStore.

Representación JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Campos
name

string

Inmutable. Es el identificador. Es el nombre completo del recurso del almacén de datos. Formato: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Este campo debe ser una cadena codificada en UTF-8 con un límite de longitud de 1,024 caracteres.

displayName

string

Obligatorio. Es el nombre visible del almacén de datos.

Este campo debe ser una cadena codificada en UTF-8 con un límite de 128 caracteres. De lo contrario, se muestra un error INVALID_ARGUMENT.

industryVertical

enum (IndustryVertical)

Inmutable. Es la vertical de la industria en la que se registra el almacén de datos.

solutionTypes[]

enum (SolutionType)

Son las soluciones en las que se inscribe el almacén de datos. Soluciones disponibles para cada industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION y SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH se inscribe automáticamente. No se pueden inscribir otras soluciones.
defaultSchemaId

string

Solo salida. Es el ID del Schema predeterminado asociado a este almacén de datos.

contentConfig

enum (ContentConfig)

Inmutable. Es la configuración del contenido del almacén de datos. Si no se configura este campo, el comportamiento predeterminado del servidor será ContentConfig.NO_CONTENT.

createTime

string (Timestamp format)

Solo salida. Es la marca de tiempo en la que se creó el objeto DataStore.

Usa el formato RFC 3339, en el que el resultado generado siempre estará normalizado a Z y usará 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otras compensaciones que no sean “Z”. Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Opcional. Es la configuración para la búsqueda avanzada en el sitio.

languageInfo

object (LanguageInfo)

Es la información del idioma de DataStore.

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

Opcional. Es la configuración de la comprensión de consultas de lenguaje natural.

kmsKeyName

string

Solo entrada. Es la clave de KMS que se usará para proteger este DataStore en el momento de la creación.

Se debe configurar para las solicitudes que deben cumplir con las protecciones de la política de la organización de CMEK.

Si este campo se configura y procesa correctamente, el DataStore estará protegido por la clave de KMS, como se indica en el campo cmekConfig.

cmekConfig

object (CmekConfig)

Solo salida. Es la información relacionada con la CMEK para el DataStore.

billingEstimation

object (BillingEstimation)

Solo salida. Es una estimación del tamaño de los datos para la facturación.

aclEnabled

boolean

Inmutable. Indica si los datos de DataStore tienen información de LCA. Si se configura como true, los datos de origen deben tener una ACL. La LCA se transferirá cuando los métodos DocumentService.ImportDocuments transfieran datos.

Cuando la LCA está habilitada para DataStore, no se puede acceder a Document llamando a DocumentService.GetDocument o DocumentService.ListDocuments.

Actualmente, la LCA solo se admite en la vertical de la industria de GENERIC con una configuración de contenido que no sea de PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Es la configuración para almacenar la configuración del tipo de almacén de datos para los datos del espacio de trabajo. Se debe configurar cuando DataStore.content_config se establece como DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Es la configuración para la comprensión y el enriquecimiento de documentos.

startingSchema

object (Schema)

Es el esquema de inicio que se usará para este DataStore cuando se aprovisione. Si no se establece, se usará un esquema especializado vertical predeterminado.

Este campo solo lo usa la API de dataStores.create y se ignorará si se usa en otras APIs. Este campo se omitirá en todas las respuestas de la API, incluida la API de dataStores.create. Para recuperar el esquema de un DataStore, usa la API de SchemaService.GetSchema.

El esquema proporcionado se validará según ciertas reglas del esquema. Obtén más información en este documento.

healthcareFhirConfig

object (HealthcareFhirConfig)

Opcional. Es la configuración para la vertical de HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Opcional. Almacena la configuración de la publicación a nivel de DataStore.

identityMappingStore

string

Inmutable. Es el nombre del recurso completamente calificado del IdentityMappingStore asociado. Este campo solo se puede establecer para DataStores con aclEnabled y un IdP de THIRD_PARTY o GSUITE. Formato: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Opcional. Si se configura, este DataStore es un DataStore de preguntas frecuentes de Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Opcional. Es la configuración para el enfoque de facturación configurable. Ver

ContentConfig

Es la configuración del contenido del almacén de datos.

Enums
CONTENT_CONFIG_UNSPECIFIED Valor predeterminado.
NO_CONTENT Solo contiene documentos sin ningún Document.content.
CONTENT_REQUIRED Solo contiene documentos con Document.content.
PUBLIC_WEBSITE El almacén de datos se usa para la búsqueda de sitios web públicos.
GOOGLE_WORKSPACE El almacén de datos se usa para la búsqueda en el espacio de trabajo. Los detalles del almacén de datos del espacio de trabajo se especifican en WorkspaceConfig.

AdvancedSiteSearchConfig

Son los datos de configuración de la búsqueda avanzada en el sitio.

Representación JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Campos
disableInitialIndex

boolean

Si se establece como verdadero, se inhabilita la indexación inicial para DataStore.

disableAutomaticRefresh

boolean

Si se establece como verdadero, se inhabilita la actualización automática para DataStore.

LanguageInfo

Es la información del idioma de DataStore.

Representación JSON
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
Campos
languageCode

string

Es el código de idioma de DataStore.

normalizedLanguageCode

string

Solo salida. Es la forma normalizada de languageCode. P.ej., languageCode de en-GB, en_GB, en-UK o en-gb tendrá normalizedLanguageCode de en-GB.

language

string

Solo salida. Es la parte del idioma de normalizedLanguageCode. P. ej.: en-US -> en, zh-Hans-HK -> zh, en -> en.

region

string

Solo salida. Es la parte de la región de normalizedLanguageCode, si está presente. P. ej.: en-US -> US, zh-Hans-HK -> HK, en -> ``.

NaturalLanguageQueryUnderstandingConfig

Es la configuración de la comprensión de consultas de lenguaje natural.

Representación JSON
{
  "mode": enum (Mode)
}
Campos
mode

enum (Mode)

Es el modo de comprensión de consultas de lenguaje natural. Si no se establece este campo, el comportamiento predeterminado será NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED.

Modo

Es el modo de comprensión de consultas de lenguaje natural. Cuando NaturalLanguageQueryUnderstandingConfig.Mode está establecido en ENABLED, las capacidades de comprensión del lenguaje natural se habilitarán para una solicitud de búsqueda si NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition en SearchRequest está establecido en ENABLED.

Enums
MODE_UNSPECIFIED Valor predeterminado.
DISABLED La comprensión de consultas de lenguaje natural está inhabilitada.
ENABLED La comprensión de consultas de lenguaje natural está habilitada.

BillingEstimation

Es una estimación del tamaño de los datos por almacén de datos.

Representación JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Campos
structuredDataSize

string (int64 format)

Tamaño de los datos estructurados en bytes.

unstructuredDataSize

string (int64 format)

Tamaño de los datos no estructurados en bytes.

websiteDataSize

string (int64 format)

Tamaño de los datos de los sitios web en bytes.

structuredDataUpdateTime

string (Timestamp format)

Es la marca de tiempo de la última actualización de los datos estructurados.

Usa el formato RFC 3339, en el que el resultado generado siempre estará normalizado a Z y usará 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otras compensaciones que no sean “Z”. Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Es la marca de tiempo de la última actualización de los datos no estructurados.

Usa el formato RFC 3339, en el que el resultado generado siempre estará normalizado a Z y usará 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otras compensaciones que no sean “Z”. Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Es la marca de tiempo de la última actualización de los sitios web.

Usa el formato RFC 3339, en el que el resultado generado siempre estará normalizado a Z y usará 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otras compensaciones que no sean “Z”. Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Configuración para almacenar la configuración del tipo de almacén de datos para los datos del espacio de trabajo

Representación JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Campos
type

enum (Type)

Es la fuente de datos de Google Workspace.

dasherCustomerId

string

Es el ID de cliente de Dasher ofuscado.

superAdminServiceAccount

string

Opcional. Es la cuenta de servicio de administrador avanzado del espacio de trabajo que se usará para generar el token de acceso. Por el momento, solo lo usamos para la transferencia de datos del conector nativo de Google Drive.

superAdminEmailAddress

string

Opcional. Es la dirección de correo electrónico del administrador avanzado del espacio de trabajo que se usará para generar el token de acceso. Por el momento, solo lo usamos para la transferencia de datos del conector nativo de Google Drive.

Tipo

Especifica el tipo de app de Workspace que admite este DataStore.

Enums
TYPE_UNSPECIFIED El valor predeterminado es un tipo de Workspace no especificado.
GOOGLE_DRIVE El almacén de datos de Workspace contiene datos de Drive
GOOGLE_MAIL El almacén de datos de Workspace contiene datos de correo
GOOGLE_SITES El almacén de datos de Workspace contiene datos de Sites
GOOGLE_CALENDAR El almacén de datos de Workspace contiene datos del Calendario
GOOGLE_CHAT El almacén de datos de Workspace contiene datos de Chat
GOOGLE_GROUPS El almacén de datos de Workspace contiene datos de Grupos
GOOGLE_KEEP El almacén de datos de Workspace contiene datos de Keep
GOOGLE_PEOPLE El almacén de datos de Workspace contiene datos de personas

DocumentProcessingConfig

Es un recurso singleton de DataStore. Si está vacío cuando se crea DataStore y DataStore se establece en DataStore.ContentConfig.CONTENT_REQUIRED, el analizador predeterminado se establecerá de forma predeterminada en el analizador digital.

Representación JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Campos
name

string

Es el nombre completo del recurso de la configuración de procesamiento de documentos. Formato: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Indica si el modo de fragmentación está habilitado.

defaultParsingConfig

object (ParsingConfig)

Es la configuración del analizador de documentos predeterminado. Si no se especifica, lo configuraremos como DigitalParsingConfig predeterminado, y la configuración de análisis predeterminada se aplicará a todos los tipos de archivos para el análisis de documentos.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Es un mapa del tipo de archivo para anular la configuración de análisis predeterminada según el tipo de archivo. Claves admitidas:

  • pdf: Anula la configuración de análisis para archivos PDF. Se admite el análisis digital, el análisis de OCR o el análisis de diseño.
  • html: Anula la configuración de análisis para archivos HTML. Solo se admiten el análisis digital y el análisis de diseño.
  • docx: Anula la configuración de análisis para archivos DOCX. Solo se admiten el análisis digital y el análisis de diseño.
  • pptx: Anula la configuración de análisis para los archivos PPTX. Solo se admiten el análisis digital y el análisis de diseño.
  • xlsm: Anula la configuración de análisis para los archivos XLSM. Solo se admiten el análisis digital y el análisis de diseño.
  • xlsx: Anula la configuración de análisis para los archivos XLSX. Solo se admiten el análisis digital y el análisis de diseño.

ChunkingConfig

Es la configuración de la configuración de fragmentación.

Representación JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Campos
Campo de unión chunk_mode. Es la configuración adicional que define el comportamiento de la división en fragmentos. chunk_mode puede ser solo uno de los siguientes:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Es la configuración para la división en fragmentos basada en el diseño.

LayoutBasedChunkingConfig

Es la configuración para la división en fragmentos basada en el diseño.

Representación JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Campos
chunkSize

integer

Es el límite de tamaño de token para cada fragmento.

Valores admitidos: de 100 a 500 (inclusive). El valor predeterminado es 500.

includeAncestorHeadings

boolean

Indica si se deben agregar diferentes niveles de encabezados a los fragmentos del medio del documento para evitar la pérdida de contexto.

El valor predeterminado es False.

ParsingConfig

Son parámetros de configuración relacionados que se aplican a un tipo específico de analizador de documentos.

Representación JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Campos
Campo de unión type_dedicated_config. Son parámetros de configuración para los tipos de procesamiento de documentos. type_dedicated_config puede ser solo uno de los siguientes:
digitalParsingConfig

object (DigitalParsingConfig)

Son las configuraciones que se aplican al analizador digital.

ocrParsingConfig

object (OcrParsingConfig)

Son las configuraciones que se aplican al analizador de OCR. Actualmente, solo se aplica a los archivos PDF.

layoutParsingConfig

object (LayoutParsingConfig)

Son las configuraciones que se aplican al analizador de diseños.

DigitalParsingConfig

Este tipo no tiene campos.

Son los parámetros de configuración de análisis digital para documentos.

OcrParsingConfig

Son los parámetros de configuración del análisis de OCR para documentos.

Representación JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Campos
enhancedDocumentElements[]
(deprecated)

string

[OBSOLETO] Este campo ya no está disponible. Para usar el procesamiento adicional de elementos de documentos mejorados, cambia a layoutParsingConfig.

useNativeText

boolean

Si es verdadero, se usará el texto nativo en lugar del texto de OCR en las páginas que contengan texto nativo.

LayoutParsingConfig

Son los parámetros de configuración del análisis de diseño para documentos.

Representación JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Campos
enableTableAnnotation

boolean

Opcional. Si es verdadero, se agrega la anotación basada en LLM a la tabla durante el análisis.

enableImageAnnotation

boolean

Opcional. Si es verdadero, se agrega la anotación basada en LLM a la imagen durante el análisis.

structuredContentTypes[]

string

Opcional. Contiene los tipos de estructura requeridos para extraer del documento. Valores admitidos:

  • shareholder-structure
excludeHtmlElements[]

string

Opcional. Lista de elementos HTML que se excluirán del contenido analizado.

excludeHtmlClasses[]

string

Opcional. Lista de clases HTML que se excluirán del contenido analizado.

excludeHtmlIds[]

string

Opcional. Lista de IDs de HTML que se excluirán del contenido analizado.

enableGetProcessedDocument

boolean

Opcional. Si es verdadero, el documento procesado estará disponible para la API de GetProcessedDocument.

HealthcareFhirConfig

Es la configuración del almacén de datos para la vertical de HEALTHCARE_FHIR.

Representación JSON
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Campos
enableConfigurableSchema

boolean

Indica si se debe habilitar el esquema configurable para la vertical de HEALTHCARE_FHIR.

Si se configura como true, el esquema de FHIR de atención médica predefinido se puede extender para realizar búsquedas y filtrados más personalizados.

enableStaticIndexingForBatchIngestion

boolean

Indica si se debe habilitar la indexación estática para la transferencia por lotes de HEALTHCARE_FHIR.

Si se configura como true, la transferencia por lotes se procesará en un modo de indexación estático que es más lento, pero más capaz de controlar un volumen mayor.

ServingConfigDataStore

Almacena información sobre la configuración de la publicación a nivel de DataStore.

Representación JSON
{
  "disabledForServing": boolean
}
Campos
disabledForServing

boolean

Opcional. Si se establece como verdadero, DataStore no estará disponible para atender solicitudes de búsqueda.

ConfigurableBillingApproach

Es la configuración para el enfoque de facturación configurable.

Enums
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Valor predeterminado. Es el enfoque de facturación no configurable para Spark y no Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Usar la facturación de suscripción base más excedente para la indexación principal del almacenamiento que no es de incorporación
CONFIGURABLE_CONSUMPTION_EMBEDDING Usa la facturación de pago por uso de consumo para el complemento de almacenamiento de incorporación.

Métodos

completeQuery

Completa la entrada del usuario especificada con sugerencias de palabras clave.

create

Crea un DataStore.

delete

Borra un DataStore.

get

Obtienes una DataStore.

getSiteSearchEngine

Obtiene el SiteSearchEngine.

list

Enumera todos los DataStore asociados al proyecto.

patch

Actualiza un DataStore

trainCustomModel

Entrena un modelo personalizado.