REST Resource: projects.locations.collections.dataStores

Ressource: DataStore

DataStore erfasst globale Einstellungen und Konfigurationen auf DataStore-Ebene.

JSON-Darstellung
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Felder
name

string

Nicht veränderbar. ID. Der vollständige Ressourcenname des Datenspeichers. Format: projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}

Dieses Feld muss ein UTF-8-codierter String mit einer Längenbeschränkung von 1.024 Zeichen sein.

displayName

string

Erforderlich. Der Anzeigename des Datenspeichers

Dieses Feld muss ein UTF-8-codierter String mit einer Längenbeschränkung von 128 Zeichen sein. Andernfalls wird der Fehler INVALID_ARGUMENT zurückgegeben.

industryVertical

enum (IndustryVertical)

Nicht veränderbar. Die Branche, in der der Datenspeicher registriert ist

solutionTypes[]

enum (SolutionType)

Die Lösungen, für die der Datenspeicher registriert ist. Verfügbare Lösungen für jede industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION und SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH ist automatisch registriert. Andere Lösungen können nicht registriert werden.
defaultSchemaId

string

Nur Ausgabe. Die ID des Standard-Schema, das diesem Datenspeicher zugeordnet ist

contentConfig

enum (ContentConfig)

Nicht veränderbar. Die Inhaltskonfiguration des Datenspeichers. Wenn dieses Feld nicht festgelegt ist, wird standardmäßig ContentConfig.NO_CONTENT verwendet.

createTime

string (Timestamp format)

Nur Ausgabe. Zeitstempel für die Erstellung von DataStore

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30"

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Optional. Konfiguration für die erweiterte Websitesuche

languageInfo

object (LanguageInfo)

Sprachinformationen für DataStore

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

Optional. Konfiguration für die Interpretation von Anfragen in natürlicher Sprache

kmsKeyName

string

Nur Eingabe. Der KMS-Schlüssel, der zum Schutz dieses Datenspeichers bei der Erstellung verwendet werden soll

Muss für Anfragen festgelegt werden, die den Schutzmaßnahmen der CMEK-Organisationsrichtlinien entsprechen müssen

Wenn dieses Feld festgelegt und erfolgreich verarbeitet wird, wird der DataStore durch den KMS-Schlüssel geschützt, wie im Feld „cmekConfig“ angegeben.

cmekConfig

object (CmekConfig)

Nur Ausgabe. CMEK-bezogene Informationen für den DataStore

billingEstimation

object (BillingEstimation)

Nur Ausgabe. Schätzung der Datengröße für die Abrechnung

aclEnabled

boolean

Nicht veränderbar. Gibt an, ob Daten in DataStore ACL-Informationen enthalten. Wenn diese Option auf true festgelegt ist, müssen die Quelldaten eine ACL haben. ACLs werden aufgenommen, wenn Daten mit DocumentService.ImportDocuments-Methoden aufgenommen werden.

Wenn die ACL für DataStore aktiviert ist, kann auf Document nicht durch Aufrufen von DocumentService.GetDocument oder DocumentService.ListDocuments zugegriffen werden.

Derzeit wird ACL nur in der Branche GENERIC mit einer Inhaltskonfiguration ohne PUBLIC_WEBSITE unterstützt.

workspaceConfig

object (WorkspaceConfig)

Konfiguration zum Speichern der Datenspeichertyp-Konfiguration für Arbeitsbereichsdaten. Diese muss festgelegt werden, wenn DataStore.content_config auf DataStore.ContentConfig.GOOGLE_WORKSPACE festgelegt ist.

documentProcessingConfig

object (DocumentProcessingConfig)

Konfiguration für das Verständnis und die Anreicherung von Dokumenten

startingSchema

object (Schema)

Das Startschema, das für diesen DataStore bei der Bereitstellung verwendet werden soll. Wenn kein Wert angegeben ist, wird ein spezifisches Standardbranchenschema verwendet.

Dieses Feld wird nur von der dataStores.create API verwendet und wird ignoriert, wenn es in anderen APIs verwendet wird. Dieses Feld wird in allen API-Antworten, einschließlich der dataStores.create API, ausgelassen. Verwenden Sie stattdessen die SchemaService.GetSchema API, um ein Schema für einen DataStore abzurufen.

Das bereitgestellte Schema wird anhand bestimmter Schemaregeln validiert. Weitere Informationen finden Sie in diesem Dokument.

healthcareFhirConfig

object (HealthcareFhirConfig)

Optional. Konfiguration für die Branche HEALTHCARE_FHIR

servingConfigDataStore

object (ServingConfigDataStore)

Optional. Speichert die Bereitstellungskonfiguration auf DataStore-Ebene

identityMappingStore

string

Nicht veränderbar. Der vollständig qualifizierte Ressourcenname des zugehörigen IdentityMappingStore. Dieses Feld kann nur für aclEnabled-Datenspeicher mit dem IdP THIRD_PARTY oder GSUITE festgelegt werden. Format: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}

isInfobotFaqDataStore

boolean

Optional. Wenn festgelegt, ist dieser DataStore ein Infobot-FAQ-DataStore.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Optional. Konfiguration für den konfigurierbaren Abrechnungsansatz Siehe

ContentConfig

Inhaltskonfiguration des Datenspeichers

Enums
CONTENT_CONFIG_UNSPECIFIED Standardwert
NO_CONTENT Enthält nur Dokumente ohne Document.content
CONTENT_REQUIRED Enthält nur Dokumente mit Document.content
PUBLIC_WEBSITE Der Datenspeicher wird für die Suche auf öffentlichen Websites verwendet.
GOOGLE_WORKSPACE Der Datenspeicher wird für die Suche im Arbeitsbereich verwendet. Details zum Arbeitsbereich-Datenspeicher werden in der WorkspaceConfig angegeben.

AdvancedSiteSearchConfig

Konfigurationsdaten für die erweiterte Websitesuche.

JSON-Darstellung
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Felder
disableInitialIndex

boolean

Bei Festlegung auf „true“ wird die Erstindexierung für den DataStore deaktiviert.

disableAutomaticRefresh

boolean

Bei Festlegung auf „true“ wird die automatische Aktualisierung für den DataStore deaktiviert.

LanguageInfo

Sprachinformationen für DataStore

JSON-Darstellung
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
Felder
languageCode

string

Der Sprachcode für den DataStore

normalizedLanguageCode

string

Nur Ausgabe. Dies ist die normalisierte Form von „languageCode“. Beispiel: Der languageCode en-GB, en_GB, en-UK oder en-gb hat den normalizedLanguageCode en-GB.

language

string

Nur Ausgabe. Sprachanteil von „normalizedLanguageCode“. Beispiel: en-US -> en, zh-Hans-HK -> zh, en -> en

region

string

Nur Ausgabe. Der Regionsteil von „normalizedLanguageCode“, falls vorhanden. Beispiel: en-US -> US, zh-Hans-HK -> HK, en -> ``

NaturalLanguageQueryUnderstandingConfig

Konfiguration für die Interpretation von Anfragen in natürlicher Sprache

JSON-Darstellung
{
  "mode": enum (Mode)
}
Felder
mode

enum (Mode)

Modus für die Interpretation von Anfragen in natürlicher Sprache. Wenn dieses Feld nicht festgelegt ist, wird standardmäßig NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED verwendet.

Modus

Modus für die Interpretation von Anfragen in natürlicher Sprache. Wenn NaturalLanguageQueryUnderstandingConfig.Mode auf ENABLED gesetzt ist, werden die Funktionen für das Verarbeiten von Anfragen in natürlicher Sprache für eine Suchanfrage aktiviert, wenn NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition in der SearchRequest auf ENABLED gesetzt ist.

Enums
MODE_UNSPECIFIED Standardwert
DISABLED Die Interpretation von Anfragen in natürlicher Sprache ist deaktiviert.
ENABLED Die Interpretation von Anfragen in natürlicher Sprache ist aktiviert.

BillingEstimation

Schätzung der Datengröße pro Datenspeicher

JSON-Darstellung
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Felder
structuredDataSize

string (int64 format)

Datengröße für strukturierte Daten in Byte

unstructuredDataSize

string (int64 format)

Datengröße für unstrukturierte Daten in Byte

websiteDataSize

string (int64 format)

Datengröße für Websites in Byte

structuredDataUpdateTime

string (Timestamp format)

Zeitstempel der letzten Aktualisierung der strukturierten Daten

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30"

unstructuredDataUpdateTime

string (Timestamp format)

Zeitstempel der letzten Aktualisierung für unstrukturierte Daten

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30"

websiteDataUpdateTime

string (Timestamp format)

Zeitstempel der letzten Aktualisierung für Websites

Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" oder "2014-10-02T15:01:23+05:30"

WorkspaceConfig

Konfiguration zum Speichern der Datenspeichertypkonfiguration für Arbeitsbereichsdaten

JSON-Darstellung
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Felder
type

enum (Type)

Die Google Workspace-Datenquelle

dasherCustomerId

string

Verschleierte Dasher-Kundennummer

superAdminServiceAccount

string

Optional. Das Super Admin-Dienstkonto für den Arbeitsbereich, der zum Generieren von Zugriffstokens verwendet wird. Derzeit wird es nur für die Datenaufnahme mit dem nativen Google Drive-Connector verwendet.

superAdminEmailAddress

string

Optional. Die E‑Mail-Adresse des Super Admins für den Arbeitsbereich, der für die Generierung des Zugriffstokens verwendet wird. Derzeit wird es nur für die Datenaufnahme mit dem nativen Google Drive-Connector verwendet.

Typ

Gibt den Typ der Workspace-App an, die von diesem Datenspeicher unterstützt wird

Enums
TYPE_UNSPECIFIED Standardmäßig wird ein nicht angegebener Workspace-Typ verwendet.
GOOGLE_DRIVE Workspace-Datenspeicher enthält Drive-Daten
GOOGLE_MAIL Workspace-Datenspeicher enthält Mail-Daten
GOOGLE_SITES Workspace-Datenspeicher enthält Sites-Daten
GOOGLE_CALENDAR Workspace-Datenspeicher enthält Kalenderdaten
GOOGLE_CHAT Workspace-Datenspeicher enthält Chat-Daten
GOOGLE_GROUPS Workspace-Datenspeicher enthält Gruppendaten
GOOGLE_KEEP Workspace-Datenspeicher enthält Keep-Daten
GOOGLE_PEOPLE Workspace-Datenspeicher enthält Personendaten

DocumentProcessingConfig

Eine Singleton-Ressource von DataStore. Wenn das Feld leer ist, wenn DataStore erstellt wird und DataStore auf DataStore.ContentConfig.CONTENT_REQUIRED gesetzt ist, wird standardmäßig der digitale Parser verwendet.

JSON-Darstellung
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Felder
name

string

Der vollständige Ressourcenname der Konfiguration für die Dokumentverarbeitung. Format: projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig

chunkingConfig

object (ChunkingConfig)

Gibt an, ob der Blockaufteilungsmodus aktiviert ist

defaultParsingConfig

object (ParsingConfig)

Konfigurationen für den Standardparser für Dokumente. Wenn dies nicht angegeben ist, wird die Standard-DigitalParsingConfig konfiguriert und die Standardkonfiguration für das Parsing wird auf alle Dateitypen für das Parsing von Dokumenten angewendet.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Zuordnung vom Dateityp zum Überschreiben der Standardkonfiguration für das Parsing basierend auf dem Dateityp. Unterstützte Schlüssel:

  • pdf: Überschreibt die Parsingkonfiguration für PDF-Dateien. Es wird entweder das digitale Parsing, das OCR-Parsing oder das Layoutparsing unterstützt.
  • html: Überschreibt die Parsingkonfiguration für HTML-Dateien. Es werden nur das digitale Parsing und das Layoutparsing unterstützt.
  • docx: Überschreibt die Parsingkonfiguration für DOCX-Dateien. Es werden nur das digitale Parsing und das Layoutparsing unterstützt.
  • pptx: Überschreibt die Parsingkonfiguration für PPTX-Dateien. Es werden nur das digitale Parsing und das Layoutparsing unterstützt.
  • xlsm: Überschreibt die Parsingkonfiguration für XLSM-Dateien. Es werden nur das digitale Parsing und das Layoutparsing unterstützt.
  • xlsx: Überschreibt die Parsingkonfiguration für XLSX-Dateien. Es werden nur das digitale Parsing und das Layoutparsing unterstützt.

ChunkingConfig

Konfiguration für die Blockaufteilungskonfiguration

JSON-Darstellung
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Felder
Union-Feld chunk_mode. Zusätzliche Konfigurationen, die das Verhalten der Blockaufteilung definieren. Für chunk_mode ist nur einer der folgenden Werte zulässig:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Konfiguration für die layoutbasierte Blockaufteilung

LayoutBasedChunkingConfig

Konfiguration für die layoutbasierte Blockaufteilung

JSON-Darstellung
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Felder
chunkSize

integer

Das Tokengrößenlimit für jeden Block

Unterstützte Werte: 100–500 (einschließlich). Standardwert: 500

includeAncestorHeadings

boolean

Gibt an, ob verschiedene Überschriftenebenen an Blöcke aus der Mitte des Dokuments angehängt werden sollen, um Kontextverlust zu verhindern

Standardwert: False

ParsingConfig

Zugehörige Konfigurationen, die auf einen bestimmten Dokumentparser angewendet werden

JSON-Darstellung
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Felder
Union-Feld type_dedicated_config. Konfigurationen für Dokumentverarbeitungstypen. Für type_dedicated_config ist nur einer der folgenden Werte zulässig:
digitalParsingConfig

object (DigitalParsingConfig)

Konfigurationen, die auf den digitalen Parser angewendet wurden

ocrParsingConfig

object (OcrParsingConfig)

Auf den OCR-Parser angewendete Konfigurationen. Derzeit gilt das nur für PDFs.

layoutParsingConfig

object (LayoutParsingConfig)

Auf den Layoutparser angewendete Konfigurationen

DigitalParsingConfig

Dieser Typ hat keine Felder.

Die Konfigurationen für das digitale Parsing von Dokumenten

OcrParsingConfig

Die OCR-Parsingkonfigurationen für Dokumente

JSON-Darstellung
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Felder
enhancedDocumentElements[]
(deprecated)

string

[VERWORFEN] Dieses Feld wird nicht mehr unterstützt. Wenn Sie die zusätzliche Verarbeitung erweiterter Dokumentelemente nutzen möchten, wechseln Sie zu layoutParsingConfig.

useNativeText

boolean

Wenn „true“ festgelegt ist, wird auf Seiten mit nativem Text nativer Text anstelle von OCR-Text verwendet.

LayoutParsingConfig

Die Konfigurationen für das Parsing des Layouts von Dokumenten.

JSON-Darstellung
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Felder
enableTableAnnotation

boolean

Optional. Bei „true“ wird der Tabelle während des Parsings die LLM-basierte Annotation hinzugefügt.

enableImageAnnotation

boolean

Optional. Bei „true“ wird dem Bild während des Parsings die LLM-basierte Annotation hinzugefügt.

structuredContentTypes[]

string

Optional. Enthält die erforderlichen Strukturtypen, die aus dem Dokument extrahiert werden sollen. Unterstützte Werte:

  • shareholder-structure
excludeHtmlElements[]

string

Optional. Liste der HTML-Elemente, die aus den geparsten Inhalten ausgeschlossen werden sollen

excludeHtmlClasses[]

string

Optional. Liste der HTML-Klassen, die aus den geparsten Inhalten ausgeschlossen werden sollen

excludeHtmlIds[]

string

Optional. Liste der HTML-IDs, die aus den geparsten Inhalten ausgeschlossen werden sollen

enableGetProcessedDocument

boolean

Optional. Bei „true“ wird das verarbeitete Dokument für die GetProcessedDocument API verfügbar gemacht.

HealthcareFhirConfig

Konfiguration für den Datenspeicher für die Branche HEALTHCARE_FHIR

JSON-Darstellung
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Felder
enableConfigurableSchema

boolean

Gibt an, ob das konfigurierbare Schema für die Branche HEALTHCARE_FHIR aktiviert werden soll

Wenn diese Option auf true festgelegt ist, kann das vordefinierte FHIR-Schema für das Gesundheitswesen erweitert werden, um die Suche und Filterung anzupassen.

enableStaticIndexingForBatchIngestion

boolean

Gibt an, ob die statische Indexierung für die HEALTHCARE_FHIR-Batchaufnahme aktiviert werden soll

Wenn der Wert auf true festgelegt ist, wird die Batchaufnahme im statischen Indexierungsmodus verarbeitet. Dieser Modus ist langsamer, kann aber größere Datenmengen verarbeiten.

ServingConfigDataStore

Speichert Informationen zu den Bereitstellungskonfigurationen auf DataStore-Ebene

JSON-Darstellung
{
  "disabledForServing": boolean
}
Felder
disabledForServing

boolean

Optional. Wenn auf „true“ gesetzt, ist der DataStore nicht für die Bearbeitung von Suchanfragen verfügbar.

ConfigurableBillingApproach

Konfiguration für den konfigurierbaren Abrechnungsansatz

Enums
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Standardwert. Nicht konfigurierbarer Abrechnungsansatz für Spark und Nicht-Spark
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Verwenden Sie die Abrechnung für Abobasis und Überschreitung für den Indexierungskern für Speicher ohne Einbettung.
CONFIGURABLE_CONSUMPTION_EMBEDDING Verwenden Sie die nutzungsbasierte Pay-as-you-go-Abrechnung für das Add-on für eingebetteten Speicher.

Methoden

completeQuery

Vervollständigt die angegebene Nutzereingabe mit Keyword-Vorschlägen

create

Erstellt einen DataStore

delete

Löscht einen DataStore

get

Ruft einen DataStore ab

getSiteSearchEngine

Ruft die SiteSearchEngine ab

list

Listet alle DataStores auf, die dem Projekt zugeordnet sind

patch

Aktualisiert einen DataStore

trainCustomModel

Trainiert ein benutzerdefiniertes Modell