REST Resource: projects.locations.collections.dataStores

Ressource: DataStore

DataStore erfasst globale Einstellungen und Konfigurationen auf DataStore-Ebene.

JSON-Darstellung
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Felder
name

string

Nicht veränderbar. ID. Der vollständige Ressourcenname des Datenspeichers. Format: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Dieses Feld muss ein UTF-8-codierter String mit einer Längenbeschränkung von 1.024 Zeichen sein.

displayName

string

Erforderlich. Der Anzeigename des Datenspeichers.

Dieses Feld muss ein UTF-8-codierter String mit einer Längenbeschränkung von 128 Zeichen sein. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben.

industryVertical

enum (IndustryVertical)

Nicht veränderbar. Die Branche, in der der Datenspeicher registriert ist.

solutionTypes[]

enum (SolutionType)

Die Lösungen, für die der Datenspeicher registriert ist. Verfügbare Lösungen für die einzelnen industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION und SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH ist automatisch registriert. Andere Lösungen können nicht registriert werden.
defaultSchemaId

string

Nur Ausgabe. Die ID der Standard-Schema, die diesem Datenspeicher zugeordnet ist.

contentConfig

enum (ContentConfig)

Nicht veränderbar. Die Inhaltskonfiguration des Datenspeichers. Wenn dieses Feld nicht festgelegt ist, wird standardmäßig ContentConfig.NO_CONTENT verwendet.

createTime

string (Timestamp format)

Nur Ausgabe. Zeitstempel für die Erstellung von DataStore.

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Optional. Konfiguration für die erweiterte Websitesuche.

kmsKeyName

string

Nur Eingabe. Der KMS-Schlüssel, der zum Schutz dieses Datenspeichers bei der Erstellung verwendet werden soll.

Muss für Anfragen festgelegt werden, die den CMEK-Organisationsrichtlinien entsprechen müssen.

Wenn dieses Feld festgelegt und erfolgreich verarbeitet wird, wird der DataStore durch den KMS-Schlüssel geschützt, wie im Feld „cmekConfig“ angegeben.

cmekConfig

object (CmekConfig)

Nur Ausgabe. CMEK-bezogene Informationen für den DataStore.

billingEstimation

object (BillingEstimation)

Nur Ausgabe. Schätzung der Datengröße für die Abrechnung.

aclEnabled

boolean

Nicht veränderbar. Ob Daten in DataStore ACL-Informationen enthalten. Wenn diese Option auf true festgelegt ist, müssen die Quelldaten eine Zugriffssteuerungsliste haben. ACLs werden aufgenommen, wenn Daten mit DocumentService.ImportDocuments-Methoden aufgenommen werden.

Wenn die ACL für DataStore aktiviert ist, kann auf Document nicht durch Aufrufen von DocumentService.GetDocument oder DocumentService.ListDocuments zugegriffen werden.

Derzeit wird ACL nur in der Branche GENERIC mit einer Inhaltskonfiguration ohne PUBLIC_WEBSITE unterstützt.

workspaceConfig

object (WorkspaceConfig)

Konfiguration zum Speichern der Datenspeichertypkonfiguration für Arbeitsbereichsdaten. Dieser muss festgelegt werden, wenn DataStore.content_config auf DataStore.ContentConfig.GOOGLE_WORKSPACE gesetzt ist.

documentProcessingConfig

object (DocumentProcessingConfig)

Konfiguration für Dokumentverständnis und ‑anreicherung.

startingSchema

object (Schema)

Das Startschema, das für diese DataStore bei der Bereitstellung verwendet werden soll. Wenn kein Wert angegeben ist, wird ein standardspezifisches Schema verwendet.

Dieses Feld wird nur von der dataStores.create API verwendet und wird ignoriert, wenn es in anderen APIs verwendet wird. Dieses Feld wird in allen API-Antworten, einschließlich der dataStores.create API, ausgelassen. Verwenden Sie stattdessen die SchemaService.GetSchema API, um ein Schema für eine DataStore abzurufen.

Das bereitgestellte Schema wird anhand bestimmter Schemaregeln validiert. Weitere Informationen

healthcareFhirConfig

object (HealthcareFhirConfig)

Optional. Konfiguration für die Branche HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Optional. Konfiguration auf DataStore-Ebene speichern.

identityMappingStore

string

Nicht veränderbar. Der vollständig qualifizierte Ressourcenname der zugehörigen IdentityMappingStore. Dieses Feld kann nur für aclEnabled-Datenspeicher mit dem IdP THIRD_PARTY oder GSUITE festgelegt werden. Format: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Optional. Wenn festgelegt, ist dieser DataStore ein Infobot-FAQ-DataStore.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Optional. Konfiguration für den konfigurierbaren Abrechnungsansatz. Siehe

ContentConfig

Inhaltskonfiguration des Datenspeichers.

Enums
CONTENT_CONFIG_UNSPECIFIED Standardwert.
NO_CONTENT Enthält nur Dokumente ohne Document.content.
CONTENT_REQUIRED Enthält nur Dokumente mit Document.content.
PUBLIC_WEBSITE Der Datenspeicher wird für die Suche auf öffentlichen Websites verwendet.
GOOGLE_WORKSPACE Der Datenspeicher wird für die Suche im Arbeitsbereich verwendet. Details zum Arbeitsbereich-Datenspeicher werden in der WorkspaceConfig angegeben.

AdvancedSiteSearchConfig

Konfigurationsdaten für die erweiterte Websitesuche.

JSON-Darstellung
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Felder
disableInitialIndex

boolean

Bei Einstellung auf „true“ wird die Erstindexierung für den DataStore deaktiviert.

disableAutomaticRefresh

boolean

Bei Einstellung auf „true“ wird die automatische Aktualisierung für den DataStore deaktiviert.

BillingEstimation

Schätzung der Datengröße pro Datenspeicher.

JSON-Darstellung
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Felder
structuredDataSize

string (int64 format)

Datengröße für strukturierte Daten in Byte.

unstructuredDataSize

string (int64 format)

Datengröße für unstrukturierte Daten in Byte.

websiteDataSize

string (int64 format)

Datengröße für Websites in Byte.

structuredDataUpdateTime

string (Timestamp format)

Zeitstempel der letzten Aktualisierung der strukturierten Daten.

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Zeitstempel der letzten Aktualisierung für unstrukturierte Daten.

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Zeitstempel der letzten Aktualisierung für Websites.

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Konfiguration zum Speichern der Datenspeichertypkonfiguration für Workspace-Daten

JSON-Darstellung
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Felder
type

enum (Type)

Die Google Workspace-Datenquelle.

dasherCustomerId

string

Verschleierte Dasher-Kundennummer.

superAdminServiceAccount

string

Optional. Das Super Admin-Dienstkonto für den Arbeitsbereich, das zum Generieren von Zugriffstokens verwendet wird. Derzeit wird er nur für die Datenaufnahme mit dem nativen Google Drive-Connector verwendet.

superAdminEmailAddress

string

Optional. Die E‑Mail-Adresse des Super Admins für den Arbeitsbereich, der für die Generierung des Zugriffstokens verwendet wird. Derzeit wird er nur für die Datenaufnahme mit dem nativen Google Drive-Connector verwendet.

Typ

Gibt den Typ der Workspace-App an, die von diesem Datenspeicher unterstützt wird.

Enums
TYPE_UNSPECIFIED Standardmäßig wird ein nicht angegebener Workspace-Typ verwendet.
GOOGLE_DRIVE Workspace-Datenspeicher enthält Drive-Daten
GOOGLE_MAIL Der Workspace-Datenspeicher enthält Mail-Daten.
GOOGLE_SITES Workspace-Datenspeicher enthält Sites-Daten
GOOGLE_CALENDAR Der Workspace-Datenspeicher enthält Kalenderdaten
GOOGLE_CHAT Workspace-Datenspeicher enthält Chat-Daten
GOOGLE_GROUPS Der Workspace-Datenspeicher enthält Gruppendaten
GOOGLE_KEEP Der Workspace-Datenspeicher enthält Keep-Daten
GOOGLE_PEOPLE Workspace-Datenspeicher enthält Personendaten

DocumentProcessingConfig

Eine Singleton-Ressource von DataStore. Wenn das Feld leer ist, wenn DataStore erstellt wird und DataStore auf DataStore.ContentConfig.CONTENT_REQUIRED gesetzt ist, wird standardmäßig der digitale Parser verwendet.

JSON-Darstellung
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Felder
name

string

Der vollständige Ressourcenname der Konfiguration für die Dokumentverarbeitung. Format: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Gibt an, ob der Chunking-Modus aktiviert ist.

defaultParsingConfig

object (ParsingConfig)

Konfigurationen für den Standardparser für Dokumente. Wenn dies nicht angegeben ist, wird die Standard-DigitalParsingConfig konfiguriert und die Standardkonfiguration für das Parsen wird auf alle Dateitypen für das Parsen von Dokumenten angewendet.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Zuordnung vom Dateityp zum Überschreiben der Standardkonfiguration für das Parsen basierend auf dem Dateityp. Unterstützte Schlüssel:

  • pdf: Überschreiben der Parsing-Konfiguration für PDF-Dateien. Es werden entweder das digitale Parsen, das OCR-Parsen oder das Layout-Parsen unterstützt.
  • html: Überschreibt die Parsing-Konfiguration für HTML-Dateien. Es werden nur das digitale Parsing und das Layout-Parsing unterstützt.
  • docx: Überschreibt die Parsing-Konfiguration für DOCX-Dateien. Es werden nur das digitale Parsing und das Layout-Parsing unterstützt.
  • pptx: Konfiguration zum Überschreiben der Analyse für PPTX-Dateien. Es werden nur die digitale Analyse und die Layoutanalyse unterstützt.
  • xlsm: Überschreiben der Parsing-Konfiguration für XLSM-Dateien. Es werden nur das digitale und das Layout-Parsing unterstützt.
  • xlsx: Überschreibt die Parsing-Konfiguration für XLSX-Dateien. Es werden nur digitales Parsing und Layout-Parsing unterstützt.

ChunkingConfig

Konfiguration für die Chunking-Konfiguration.

JSON-Darstellung
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Felder
Union-Feld chunk_mode. Zusätzliche Konfigurationen, die das Verhalten der Chunking-Funktion definieren. Für chunk_mode ist nur einer der folgenden Werte zulässig:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Konfiguration für die auf dem Layout basierende Aufteilung.

LayoutBasedChunkingConfig

Konfiguration für die auf dem Layout basierende Aufteilung.

JSON-Darstellung
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Felder
chunkSize

integer

Das Token-Größenlimit für jeden Chunk.

Unterstützte Werte: 100–500 (einschließlich). Standardwert: 500

includeAncestorHeadings

boolean

Gibt an, ob verschiedene Überschriftenebenen an Blöcke aus der Mitte des Dokuments angehängt werden sollen, um Kontextverlust zu vermeiden.

Standardwert: „False“.

ParsingConfig

Zugehörige Konfigurationen, die auf einen bestimmten Dokumentparser angewendet werden.

JSON-Darstellung
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Felder
Union-Feld type_dedicated_config. Konfigurationen für Dokumentverarbeitungstypen. Für type_dedicated_config ist nur einer der folgenden Werte zulässig:
digitalParsingConfig

object (DigitalParsingConfig)

Konfigurationen, die auf den digitalen Parser angewendet wurden.

ocrParsingConfig

object (OcrParsingConfig)

Auf den OCR-Parser angewendete Konfigurationen. Derzeit gilt das nur für PDFs.

layoutParsingConfig

object (LayoutParsingConfig)

Auf den Layoutparser angewendete Konfigurationen.

DigitalParsingConfig

Dieser Typ hat keine Felder.

Die Konfigurationen für das digitale Parsen von Dokumenten.

OcrParsingConfig

Die OCR-Parsing-Konfigurationen für Dokumente.

JSON-Darstellung
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Felder
enhancedDocumentElements[]
(deprecated)

string

[VERWORFEN] Die Verwendung dieses Feldes wurde eingestellt. Wenn Sie die zusätzliche Verarbeitung erweiterter Dokumentelemente nutzen möchten, wechseln Sie zu layoutParsingConfig.

useNativeText

boolean

Wenn „true“ festgelegt ist, wird auf Seiten mit nativem Text nativer Text anstelle von OCR-Text verwendet.

LayoutParsingConfig

Die Konfigurationen für das Parsen des Layouts von Dokumenten.

JSON-Darstellung
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Felder
enableTableAnnotation

boolean

Optional. Wenn „true“, wird der Tabelle während des Parsens eine LLM-basierte Annotation hinzugefügt.

enableImageAnnotation

boolean

Optional. Wenn „true“, wird dem Bild während des Parsens die LLM-basierte Annotation hinzugefügt.

structuredContentTypes[]

string

Optional. Enthält die erforderlichen Strukturtypen, die aus dem Dokument extrahiert werden sollen. Unterstützte Werte:

  • shareholder-structure
excludeHtmlElements[]

string

Optional. Liste der HTML-Elemente, die aus den geparsten Inhalten ausgeschlossen werden sollen.

excludeHtmlClasses[]

string

Optional. Liste der HTML-Klassen, die aus dem geparsten Inhalt ausgeschlossen werden sollen.

excludeHtmlIds[]

string

Optional. Liste der HTML-IDs, die aus den geparsten Inhalten ausgeschlossen werden sollen.

enableGetProcessedDocument

boolean

Optional. Bei „true“ wird das verarbeitete Dokument für die GetProcessedDocument API verfügbar gemacht.

HealthcareFhirConfig

Konfiguration für den Datenspeicher für die Branche HEALTHCARE_FHIR.

JSON-Darstellung
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Felder
enableConfigurableSchema

boolean

Gibt an, ob das konfigurierbare Schema für die HEALTHCARE_FHIR-Branche aktiviert werden soll.

Wenn diese Option auf true festgelegt ist, kann das vordefinierte FHIR-Schema für das Gesundheitswesen erweitert werden, um die Suche und Filterung anzupassen.

enableStaticIndexingForBatchIngestion

boolean

Gibt an, ob die statische Indexierung für die HEALTHCARE_FHIR-Batchaufnahme aktiviert werden soll.

Wenn der Wert auf true festgelegt ist, wird die Batch-Aufnahme im statischen Indexierungsmodus verarbeitet. Dieser Modus ist langsamer, kann aber größere Datenmengen verarbeiten.

ServingConfigDataStore

Speichert Informationen zu den Bereitstellungskonfigurationen auf DataStore-Ebene.

JSON-Darstellung
{
  "disabledForServing": boolean
}
Felder
disabledForServing

boolean

Optional. Wenn auf „true“ gesetzt, ist der DataStore nicht für die Bearbeitung von Suchanfragen verfügbar.

ConfigurableBillingApproach

Konfiguration für den konfigurierbaren Abrechnungsansatz.

Enums
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Standardwert. Nicht konfigurierbarer Abrechnungsansatz für Spark und Nicht-Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Verwenden Sie die Abrechnung für Abo-Basis und Überschreitung für den Indexierungskern für Speicher ohne Einbettung.
CONFIGURABLE_CONSUMPTION_EMBEDDING Verwenden Sie die nutzungsbasierte Pay-as-you-go-Abrechnung für das Add-on für eingebetteten Speicher.

Methoden

completeQuery

Vervollständigt die angegebene Nutzereingabe mit Keyword-Vorschlägen

create

Erstellt einen DataStore.

delete

Löscht ein DataStore.

get

Erstellt einen DataStore.

getSiteSearchEngine

Ruft die SiteSearchEngine ab.

list

Listet alle DataStore auf, die dem Projekt zugeordnet sind.

patch

Aktualisiert eine DataStore

trainCustomModel

Trainiert ein benutzerdefiniertes Modell.