REST Resource: projects.locations.collections.dataStores

Recurso: DataStore

DataStore captura los ajustes y las configuraciones globales a nivel de DataStore.

Representación JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Campos
name

string

Inmutable. Identificador. Nombre de recurso completo del almacén de datos. Formato: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Este campo debe ser una cadena codificada en UTF-8 con un límite de 1024 caracteres.

displayName

string

Obligatorio. Nombre visible del almacén de datos.

Este campo debe ser una cadena codificada en UTF-8 con un límite de 128 caracteres. De lo contrario, se devuelve un error INVALID_ARGUMENT.

industryVertical

enum (IndustryVertical)

Inmutable. El vertical del sector en el que se registra el almacén de datos.

solutionTypes[]

enum (SolutionType)

Las soluciones en las que se registra el almacén de datos. Soluciones disponibles para cada industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION y SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH se registra automáticamente. No se pueden registrar otras soluciones.
defaultSchemaId

string

Solo de salida. ID del Schema predeterminado asociado a este almacén de datos.

contentConfig

enum (ContentConfig)

Inmutable. La configuración de contenido del almacén de datos. Si no se define este campo, el comportamiento predeterminado del servidor será ContentConfig.NO_CONTENT.

createTime

string (Timestamp format)

Solo de salida. Marca de tiempo de la creación de DataStore.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Opcional. Configuración de la búsqueda avanzada en el sitio.

kmsKeyName

string

Solo de entrada. Clave de KMS que se usará para proteger este almacén de datos en el momento de la creación.

Se debe definir en las solicitudes que deban cumplir las protecciones de la política de organización de CMEK.

Si este campo se define y se procesa correctamente, el almacén de datos estará protegido por la clave de KMS, tal como se indica en el campo cmekConfig.

cmekConfig

object (CmekConfig)

Solo de salida. Información relacionada con CMEK de DataStore.

billingEstimation

object (BillingEstimation)

Solo de salida. Estimación del tamaño de los datos para la facturación.

aclEnabled

boolean

Inmutable. Si los datos de DataStore tienen información de LCA. Si se define como true, los datos de origen deben tener una lista de control de acceso. Los LCA se ingieren cuando los datos se ingieren mediante métodos de DocumentService.ImportDocuments.

Cuando la ACL está habilitada para DataStore, no se puede acceder a Document llamando a DocumentService.GetDocument o DocumentService.ListDocuments.

Actualmente, las listas de control de acceso solo se admiten en el vertical de la industria GENERIC con una configuración de contenido que no sea PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Configuración para almacenar la configuración del tipo de almacén de datos de los datos del espacio de trabajo. Este valor debe definirse cuando DataStore.content_config se define como DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Configuración de la comprensión y el enriquecimiento de documentos.

startingSchema

object (Schema)

El esquema de inicio que se usará para este DataStore al aprovisionarlo. Si no se define, se usará un esquema especializado vertical predeterminado.

Este campo solo lo usa la API dataStores.create y se ignorará si se usa en otras APIs. Este campo se omitirá en todas las respuestas de la API, incluida la API dataStores.create. Para recuperar el esquema de un DataStore, usa la API SchemaService.GetSchema.

El esquema proporcionado se validará según determinadas reglas del esquema. Consulta más información en este documento.

healthcareFhirConfig

object (HealthcareFhirConfig)

Opcional. Configuración de la vertical HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Opcional. Almacena la configuración de servicio a nivel de DataStore.

identityMappingStore

string

Inmutable. Nombre de recurso completo del IdentityMappingStore asociado. Este campo solo se puede definir en DataStores con aclEnabled con el proveedor de identidades THIRD_PARTY o GSUITE. Formato: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Opcional. Si se define, este DataStore es un DataStore de preguntas frecuentes de Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Opcional. Configuración del método de facturación configurable. Consulta

ContentConfig

Configuración del contenido del almacén de datos.

Enumeraciones
CONTENT_CONFIG_UNSPECIFIED Valor predeterminado.
NO_CONTENT Solo contiene documentos sin Document.content.
CONTENT_REQUIRED Solo contiene documentos con Document.content.
PUBLIC_WEBSITE El almacén de datos se usa para la búsqueda en sitios web públicos.
GOOGLE_WORKSPACE El almacén de datos se usa para la búsqueda en el espacio de trabajo. Los detalles del almacén de datos del espacio de trabajo se especifican en los WorkspaceConfig.

AdvancedSiteSearchConfig

Datos de configuración de la búsqueda avanzada en el sitio.

Representación JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Campos
disableInitialIndex

boolean

Si se le asigna el valor true, se inhabilita la indexación inicial de DataStore.

disableAutomaticRefresh

boolean

Si se le asigna el valor true, se inhabilita la actualización automática de DataStore.

BillingEstimation

Estimación del tamaño de los datos por almacén de datos.

Representación JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Campos
structuredDataSize

string (int64 format)

Tamaño de los datos estructurados en bytes.

unstructuredDataSize

string (int64 format)

Tamaño de los datos sin estructurar en bytes.

websiteDataSize

string (int64 format)

Tamaño de los datos de los sitios web en bytes.

structuredDataUpdateTime

string (Timestamp format)

Marca de tiempo de la última actualización de los datos estructurados.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Marca de tiempo de la última actualización de los datos sin estructurar.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Marca de tiempo de la última actualización de los sitios web.

Usa RFC 3339, donde la salida generada siempre se normaliza con Z y usa 0, 3, 6 o 9 dígitos fraccionarios. También se aceptan otros desplazamientos distintos de "Z". Ejemplos: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" o "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Configuración para almacenar la configuración del tipo de almacén de datos de los datos del espacio de trabajo.

Representación JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Campos
type

enum (Type)

La fuente de datos de Google Workspace.

dasherCustomerId

string

ID de cliente de Dasher ofuscado.

superAdminServiceAccount

string

Opcional. La cuenta de servicio de superadministrador del espacio de trabajo que se usará para generar tokens de acceso. Por ahora, solo lo usamos para la ingestión de datos del conector de Google Drive nativo.

superAdminEmailAddress

string

Opcional. La dirección de correo del superadministrador del espacio de trabajo que se usará para generar el token de acceso. Por ahora, solo lo usamos para la ingestión de datos del conector de Google Drive nativo.

Tipo

Especifica el tipo de aplicación de Workspace compatible con este almacén de datos.

Enumeraciones
TYPE_UNSPECIFIED El valor predeterminado es un tipo de espacio de trabajo sin especificar.
GOOGLE_DRIVE El almacén de datos de Workspace contiene datos de Drive
GOOGLE_MAIL El almacén de datos de Workspace contiene datos de correo
GOOGLE_SITES El almacén de datos de Workspace contiene datos de Sites
GOOGLE_CALENDAR El almacén de datos de Workspace contiene datos de Calendar
GOOGLE_CHAT El almacén de datos de Workspace contiene datos de Chat
GOOGLE_GROUPS El almacén de datos de Workspace contiene datos de Grupos
GOOGLE_KEEP El almacén de datos de Workspace contiene datos de Keep
GOOGLE_PEOPLE El almacén de datos de Workspace contiene datos de personas

DocumentProcessingConfig

Un recurso singleton de DataStore. Si está vacío cuando se crea DataStore y DataStore se define como DataStore.ContentConfig.CONTENT_REQUIRED, el analizador predeterminado se convertirá en el analizador digital.

Representación JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Campos
name

string

Nombre completo del recurso DocumentProcessingConfig. Formato: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Indica si el modo de fragmentación está habilitado.

defaultParsingConfig

object (ParsingConfig)

Configuraciones del analizador de documentos predeterminado. Si no se especifica, se configurará como DigitalParsingConfig predeterminado y se aplicará a todos los tipos de archivo para el análisis de documentos.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Asigna un tipo de archivo para anular la configuración de análisis predeterminada en función del tipo de archivo. Claves admitidas:

  • pdf: anula la configuración de análisis de archivos PDF. Se admite el análisis digital, el análisis OCR o el análisis de diseño.
  • html: anula la configuración de análisis de archivos HTML. Solo se admiten el análisis digital y el análisis de diseño.
  • docx: anula la configuración de análisis de archivos DOCX. Solo se admiten el análisis digital y el análisis de diseño.
  • pptx: anula la configuración de análisis de archivos PPTX. Solo se admiten el análisis digital y el análisis de diseño.
  • xlsm: anula la configuración de análisis de archivos XLSM. Solo se admiten el análisis digital y el análisis de diseño.
  • xlsx: anula la configuración de análisis de archivos XLSX. Solo se admiten el análisis digital y el análisis de diseño.

ChunkingConfig

Configuración de la configuración de fragmentación.

Representación JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Campos
Campo de unión chunk_mode. Configuraciones adicionales que definen el comportamiento de la fragmentación. chunk_mode solo puede ser una de estas dos opciones:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Configuración de la fragmentación basada en el diseño.

LayoutBasedChunkingConfig

Configuración de la fragmentación basada en el diseño.

Representación JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Campos
chunkSize

integer

El límite de tamaño de los tokens de cada fragmento.

Valores admitidos: de 100 a 500 (inclusive). Valor predeterminado: 500.

includeAncestorHeadings

boolean

Indica si se deben añadir diferentes niveles de encabezados a los fragmentos desde la mitad del documento para evitar la pérdida de contexto.

Valor predeterminado: False.

ParsingConfig

Configuraciones relacionadas que se aplican a un tipo específico de analizador de documentos.

Representación JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Campos
Campo de unión type_dedicated_config. Configuraciones de los tipos de procesamiento de documentos. type_dedicated_config solo puede ser una de estas dos opciones:
digitalParsingConfig

object (DigitalParsingConfig)

Configuraciones aplicadas al analizador digital.

ocrParsingConfig

object (OcrParsingConfig)

Configuraciones aplicadas al analizador de OCR. Actualmente, solo se aplica a los PDFs.

layoutParsingConfig

object (LayoutParsingConfig)

Configuraciones aplicadas al analizador de diseño.

DigitalParsingConfig

Este tipo no tiene campos.

Las configuraciones de análisis digital de documentos.

OcrParsingConfig

Configuraciones de análisis de OCR para documentos.

Representación JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Campos
enhancedDocumentElements[]
(deprecated)

string

[DEPRECATED] Este campo está obsoleto. Para usar el procesamiento mejorado adicional de elementos de documentos, cambia a layoutParsingConfig.

useNativeText

boolean

Si se le asigna el valor true, se usará el texto nativo en lugar del texto de OCR en las páginas que contengan texto nativo.

LayoutParsingConfig

Las configuraciones de análisis de diseño de los documentos.

Representación JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Campos
enableTableAnnotation

boolean

Opcional. Si es true, la anotación basada en LLM se añade a la tabla durante el análisis.

enableImageAnnotation

boolean

Opcional. Si es true, la anotación basada en LLM se añade a la imagen durante el análisis.

structuredContentTypes[]

string

Opcional. Contiene los tipos de estructura necesarios para extraerlos del documento. Valores admitidos:

  • shareholder-structure
excludeHtmlElements[]

string

Opcional. Lista de elementos HTML que se excluirán del contenido analizado.

excludeHtmlClasses[]

string

Opcional. Lista de clases HTML que se excluirán del contenido analizado.

excludeHtmlIds[]

string

Opcional. Lista de IDs de HTML que se excluirán del contenido analizado.

enableGetProcessedDocument

boolean

Opcional. Si es true, el documento procesado estará disponible para la API GetProcessedDocument.

HealthcareFhirConfig

Configuración del almacén de datos de la vertical HEALTHCARE_FHIR.

Representación JSON
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Campos
enableConfigurableSchema

boolean

Indica si se debe habilitar el esquema configurable para la vertical HEALTHCARE_FHIR.

Si se define como true, el esquema FHIR de asistencia sanitaria predefinido se puede ampliar para realizar búsquedas y filtros más personalizados.

enableStaticIndexingForBatchIngestion

boolean

Indica si se debe habilitar la indexación estática para la ingestión por lotes de HEALTHCARE_FHIR.

Si se define como true, la ingestión por lotes se procesará en un modo de indexación estático, que es más lento, pero puede gestionar un mayor volumen.

ServingConfigDataStore

Almacena información sobre las configuraciones de publicación a nivel de DataStore.

Representación JSON
{
  "disabledForServing": boolean
}
Campos
disabledForServing

boolean

Opcional. Si se define como true, DataStore no estará disponible para atender solicitudes de búsqueda.

ConfigurableBillingApproach

Configuración del método de facturación configurable.

Enumeraciones
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Valor predeterminado. Enfoque de facturación no configurable para Spark y no Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Usa la base de suscripción + la facturación por exceso para indexar el almacenamiento principal que no es de inserciones.
CONFIGURABLE_CONSUMPTION_EMBEDDING Usa la facturación por consumo para el complemento de almacenamiento insertado.

Métodos

completeQuery

Completa la información introducida por el usuario con sugerencias de palabras clave.

create

Crea un DataStore.

delete

Elimina un DataStore.

get

Obtiene un DataStore.

getSiteSearchEngine

Obtiene el SiteSearchEngine.

list

Lista todos los DataStores asociados al proyecto.

patch

Actualiza un DataStore

trainCustomModel

Entrena un modelo personalizado.