REST Resource: projects.locations.collections.dataStores

Ressource : DataStore

DataStore capture les paramètres et configurations globaux au niveau DataStore.

Représentation JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Champs
name

string

Immuable. Identifiant. Nom complet de la ressource du data store. Format : projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Ce champ doit être une chaîne encodée au format UTF-8, dont la longueur ne doit pas dépasser 1 024 caractères.

displayName

string

Obligatoire. Nom à afficher du data store.

Ce champ doit être une chaîne encodée au format UTF-8 et ne doit pas dépasser 128 caractères. Dans le cas contraire, une erreur INVALID_ARGUMENT est renvoyée.

industryVertical

enum (IndustryVertical)

Immuable. Secteur d'activité auquel le data store est associé.

solutionTypes[]

enum (SolutionType)

Solutions auxquelles le data store est inscrit. Solutions disponibles pour chaque industryVertical :

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION et SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH : SOLUTION_TYPE_SEARCH est automatiquement inscrit. Les autres solutions ne peuvent pas être enregistrées.
defaultSchemaId

string

Uniquement en sortie. ID de l'Schema par défaut associé à ce data store.

contentConfig

enum (ContentConfig)

Immuable. Configuration du contenu du data store. Si ce champ n'est pas défini, le comportement du serveur est défini par défaut sur ContentConfig.NO_CONTENT.

createTime

string (Timestamp format)

Uniquement en sortie. Code temporel de création de DataStore.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Facultatif. Configuration de la recherche avancée sur le site.

kmsKeyName

string

Uniquement en entrée. Clé KMS à utiliser pour protéger ce DataStore lors de sa création.

Doit être défini pour les requêtes qui doivent respecter les protections des règles d'administration CMEK.

Si ce champ est défini et traité correctement, le DataStore sera protégé par la clé KMS, comme indiqué dans le champ cmekConfig.

cmekConfig

object (CmekConfig)

Uniquement en sortie. Informations liées à CMEK pour DataStore.

billingEstimation

object (BillingEstimation)

Uniquement en sortie. Estimation de la taille des données pour la facturation.

aclEnabled

boolean

Immuable. Indique si les données de DataStore contiennent des informations de LCA. Si la valeur est définie sur true, les données sources doivent disposer d'une ACL. Les LCA seront ingérées lorsque les données seront ingérées par les méthodes DocumentService.ImportDocuments.

Lorsque la LCA est activée pour DataStore, il est impossible d'accéder à Document en appelant DocumentService.GetDocument ou DocumentService.ListDocuments.

Actuellement, les LCA ne sont compatibles qu'avec le secteur GENERIC et la configuration de contenu non PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Configuration permettant de stocker la configuration du type de data store pour les données de l'espace de travail. Ce paramètre doit être défini lorsque DataStore.content_config est défini sur DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Configuration pour la compréhension et l'enrichissement des documents.

startingSchema

object (Schema)

Schéma de début à utiliser pour ce DataStore lors de son provisionnement. Si cette option n'est pas définie, un schéma vertical spécialisé par défaut sera utilisé.

Ce champ n'est utilisé que par l'API dataStores.create et sera ignoré s'il est utilisé dans d'autres API. Ce champ sera omis de toutes les réponses d'API, y compris de l'API dataStores.create. Pour récupérer le schéma d'un DataStore, utilisez plutôt l'API SchemaService.GetSchema.

Le schéma fourni sera validé par rapport à certaines règles. Pour en savoir plus, consultez ce document.

healthcareFhirConfig

object (HealthcareFhirConfig)

Facultatif. Configuration pour le secteur HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Facultatif. Stocke la configuration de diffusion au niveau du DataStore.

identityMappingStore

string

Immuable. Nom complet de la ressource IdentityMappingStore associée. Ce champ ne peut être défini que pour les DataStores aclEnabled avec un IdP THIRD_PARTY ou GSUITE. Format : projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Facultatif. Si cette valeur est définie, ce DataStore est un DataStore de questions fréquentes Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Facultatif. Configuration de l'approche de facturation configurable. Vous devriez voir ce qui suit :

ContentConfig

Configuration du contenu du data store.

Enums
CONTENT_CONFIG_UNSPECIFIED Valeur par défaut.
NO_CONTENT Ne contient que des documents sans Document.content.
CONTENT_REQUIRED Ne contient que les documents avec Document.content.
PUBLIC_WEBSITE Le data store est utilisé pour la recherche sur les sites Web publics.
GOOGLE_WORKSPACE Le data store est utilisé pour la recherche dans l'espace de travail. Les détails du data store de l'espace de travail sont spécifiés dans WorkspaceConfig.

AdvancedSiteSearchConfig

Données de configuration pour la recherche avancée sur site.

Représentation JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Champs
disableInitialIndex

boolean

Si la valeur est définie sur "true", l'indexation initiale est désactivée pour DataStore.

disableAutomaticRefresh

boolean

Si la valeur est définie sur "true", l'actualisation automatique est désactivée pour DataStore.

BillingEstimation

Estimation de la taille des données par data store.

Représentation JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Champs
structuredDataSize

string (int64 format)

Taille des données structurées en octets.

unstructuredDataSize

string (int64 format)

Taille des données non structurées en octets.

websiteDataSize

string (int64 format)

Taille des données pour les sites Web en octets.

structuredDataUpdateTime

string (Timestamp format)

Horodatage de la dernière mise à jour des données structurées.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Horodatage de la dernière mise à jour des données non structurées.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Horodatage de la dernière mise à jour pour les sites Web.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Configuration permettant de stocker la configuration du type de data store pour les données de l'espace de travail

Représentation JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Champs
type

enum (Type)

Source de données Google Workspace.

dasherCustomerId

string

Numéro client Dasher obscurci.

superAdminServiceAccount

string

Facultatif. Compte de service super-administrateur de l'espace de travail qui sera utilisé pour générer le jeton d'accès. Pour le moment, nous ne l'utilisons que pour l'ingestion de données du connecteur Google Drive natif.

superAdminEmailAddress

string

Facultatif. Adresse e-mail du super-administrateur de l'espace de travail qui sera utilisée pour générer le jeton d'accès. Pour le moment, nous ne l'utilisons que pour l'ingestion de données du connecteur Google Drive natif.

Type

Spécifie le type d'application Workspace compatible avec ce DataStore

Enums
TYPE_UNSPECIFIED La valeur par défaut est un type d'espace de travail non spécifié.
GOOGLE_DRIVE Data store Workspace contient des données Drive
GOOGLE_MAIL Le data store Workspace contient des données de messagerie
GOOGLE_SITES Data store Workspace contient des données Sites
GOOGLE_CALENDAR Data store Workspace contient des données Agenda
GOOGLE_CHAT Le data store Workspace contient des données Chat
GOOGLE_GROUPS Le data store Workspace contient des données de groupes
GOOGLE_KEEP Data store Workspace contient des données Keep
GOOGLE_PEOPLE Data store Workspace contient des données sur les personnes

DocumentProcessingConfig

Ressource singleton de DataStore. S'il est vide lorsque DataStore est créé et que DataStore est défini sur DataStore.ContentConfig.CONTENT_REQUIRED, l'analyseur par défaut sera défini sur l'analyseur numérique.

Représentation JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Champs
name

string

Nom complet de la ressource de configuration du traitement des documents. Format : projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Indique si le mode de segmentation est activé.

defaultParsingConfig

object (ParsingConfig)

Configurations de l'analyseur de documents par défaut. Si ce champ n'est pas spécifié, nous le configurerons en tant que DigitalParsingConfig par défaut. La configuration d'analyse par défaut sera appliquée à tous les types de fichiers pour l'analyse de documents.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Mappez le type de fichier pour remplacer la configuration d'analyse par défaut en fonction du type de fichier. Clés compatibles :

  • pdf : remplace la configuration d'analyse pour les fichiers PDF. L'analyse numérique, l'analyse OCR ou l'analyse de la mise en page sont acceptées.
  • html : remplace la configuration d'analyse des fichiers HTML. Seules l'analyse numérique et l'analyse de la mise en page sont acceptées.
  • docx : remplace la configuration d'analyse pour les fichiers DOCX. Seules l'analyse numérique et l'analyse de la mise en page sont prises en charge.
  • pptx : remplace la configuration d'analyse pour les fichiers PPTX. Seules l'analyse numérique et l'analyse de la mise en page sont acceptées.
  • xlsm : remplace la configuration d'analyse pour les fichiers XLSM. Seules l'analyse numérique et l'analyse de la mise en page sont acceptées.
  • xlsx : remplace la configuration d'analyse pour les fichiers XLSX. Seules l'analyse numérique et l'analyse de la mise en page sont acceptées.

ChunkingConfig

Configuration pour la configuration de segmentation.

Représentation JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Champs
Champ d'union chunk_mode. Configurations supplémentaires qui définissent le comportement du découpage. chunk_mode ne peut être qu'un des éléments suivants :
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Configuration de la segmentation basée sur la mise en page.

LayoutBasedChunkingConfig

Configuration de la segmentation basée sur la mise en page.

Représentation JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Champs
chunkSize

integer

Taille limite des jetons pour chaque bloc.

Valeurs acceptées : de 100 à 500 (inclus). La valeur par défaut est 500.

includeAncestorHeadings

boolean

Indique si des en-têtes de différents niveaux doivent être ajoutés aux fragments au milieu du document pour éviter toute perte de contexte.

Valeur par défaut : "False".

ParsingConfig

Configurations associées appliquées à un type spécifique d'analyseur de documents.

Représentation JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Champs
Champ d'union type_dedicated_config. Configurations pour les types de traitement de documents. type_dedicated_config ne peut être qu'un des éléments suivants :
digitalParsingConfig

object (DigitalParsingConfig)

Configurations appliquées à l'analyseur numérique.

ocrParsingConfig

object (OcrParsingConfig)

Configurations appliquées au parseur OCR. Pour le moment, cela ne s'applique qu'aux PDF.

layoutParsingConfig

object (LayoutParsingConfig)

Configurations appliquées à l'analyseur de mise en page.

DigitalParsingConfig

Ce type ne comporte aucun champ.

Configurations d'analyse numérique des documents.

OcrParsingConfig

Configurations d'analyse OCR pour les documents.

Représentation JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Champs
enhancedDocumentElements[]
(deprecated)

string

[OBSOLÈTE] Ce champ est obsolète. Pour utiliser le traitement amélioré des éléments de document supplémentaires, veuillez passer à layoutParsingConfig.

useNativeText

boolean

Si la valeur est "true", le texte natif sera utilisé au lieu du texte OCR sur les pages contenant du texte natif.

LayoutParsingConfig

Configurations d'analyse de la mise en page pour les documents.

Représentation JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Champs
enableTableAnnotation

boolean

Facultatif. Si la valeur est "true", l'annotation basée sur un LLM est ajoutée au tableau lors de l'analyse.

enableImageAnnotation

boolean

Facultatif. Si la valeur est "true", l'annotation basée sur un LLM est ajoutée à l'image lors de l'analyse.

structuredContentTypes[]

string

Facultatif. Contient les types de structures requis à extraire du document. Valeurs autorisées :

  • shareholder-structure
excludeHtmlElements[]

string

Facultatif. Liste des éléments HTML à exclure du contenu analysé.

excludeHtmlClasses[]

string

Facultatif. Liste des classes HTML à exclure du contenu analysé.

excludeHtmlIds[]

string

Facultatif. Liste des ID HTML à exclure du contenu analysé.

enableGetProcessedDocument

boolean

Facultatif. Si la valeur est "true", le document traité sera disponible pour l'API GetProcessedDocument.

HealthcareFhirConfig

Configurer le data store pour le secteur HEALTHCARE_FHIR.

Représentation JSON
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Champs
enableConfigurableSchema

boolean

Indique si le schéma configurable doit être activé pour le secteur HEALTHCARE_FHIR.

Si la valeur est définie sur true, le schéma FHIR prédéfini pour la santé peut être étendu pour une recherche et un filtrage plus personnalisés.

enableStaticIndexingForBatchIngestion

boolean

Indique s'il faut activer l'indexation statique pour l'ingestion par lot HEALTHCARE_FHIR.

Si la valeur est définie sur true, l'ingestion par lot sera traitée en mode d'indexation statique, qui est plus lent, mais plus à même de gérer des volumes plus importants.

ServingConfigDataStore

Stocke les informations concernant les configurations de diffusion au niveau DataStore.

Représentation JSON
{
  "disabledForServing": boolean
}
Champs
disabledForServing

boolean

Facultatif. Si la valeur est "true", DataStore ne sera pas disponible pour répondre aux requêtes de recherche.

ConfigurableBillingApproach

Configuration de l'approche de facturation configurable.

Enums
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Valeur par défaut. Pour l'approche de facturation non configurable Spark et non Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Utilisez la facturation par abonnement de base + dépassement pour l'indexation du cœur pour le stockage sans intégration.
CONFIGURABLE_CONSUMPTION_EMBEDDING Utilisez la facturation à la consommation avec paiement à l'usage pour le module complémentaire de stockage pour l'intégration.

Méthodes

completeQuery

Complète la saisie utilisateur spécifiée par des suggestions de mots clés.

create

Crée un objet DataStore.

delete

Supprime un DataStore.

get

Récupère un DataStore.

getSiteSearchEngine

Récupère les SiteSearchEngine.

list

Liste tous les DataStore associés au projet.

patch

Met à jour un DataStore

trainCustomModel

Entraîne un modèle personnalisé.