REST Resource: projects.locations.collections.dataStores

Resource: DataStore

DataStore merekam setelan dan konfigurasi global di tingkat DataStore.

Representasi JSON
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
Kolom
name

string

Tidak dapat diubah. ID. Nama lengkap resource penyimpanan data. Format projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}.

Kolom ini harus berupa string berenkode UTF-8 dengan batas panjang 1.024 karakter.

displayName

string

Wajib. Nama tampilan penyimpanan data.

Kolom ini harus berupa string berenkode UTF-8 dengan batas panjang 128 karakter. Jika tidak, error INVALID_ARGUMENT akan ditampilkan.

industryVertical

enum (IndustryVertical)

Tidak dapat diubah. Bidang industri yang didaftarkan oleh penyimpanan data.

solutionTypes[]

enum (SolutionType)

Solusi yang didaftarkan oleh penyimpanan data. Solusi yang tersedia untuk setiap industryVertical:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATION dan SOLUTION_TYPE_SEARCH.
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH didaftarkan secara otomatis. Solusi lain tidak dapat didaftarkan.
defaultSchemaId

string

Hanya output. ID Schema default yang terkait dengan penyimpanan data ini.

contentConfig

enum (ContentConfig)

Tidak dapat diubah. Konfigurasi konten penyimpanan data. Jika kolom ini tidak disetel, perilaku server akan ditetapkan secara default ke ContentConfig.NO_CONTENT.

createTime

string (Timestamp format)

Hanya output. Stempel waktu saat DataStore dibuat.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

Opsional. Konfigurasi untuk penelusuran situs lanjutan.

languageInfo

object (LanguageInfo)

Info bahasa untuk DataStore.

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

Opsional. Konfigurasi untuk Pemahaman Kueri Bahasa Alami.

kmsKeyName

string

Hanya input. Kunci KMS yang akan digunakan untuk melindungi DataStore ini pada saat pembuatan.

Harus ditetapkan untuk permintaan yang perlu mematuhi perlindungan Kebijakan Org. CMEK.

Jika kolom ini ditetapkan dan diproses dengan berhasil, DataStore akan dilindungi oleh kunci KMS, seperti yang ditunjukkan di kolom cmekConfig.

cmekConfig

object (CmekConfig)

Hanya output. Informasi terkait CMEK untuk DataStore.

billingEstimation

object (BillingEstimation)

Hanya output. Estimasi ukuran data untuk penagihan.

aclEnabled

boolean

Tidak dapat diubah. Apakah data dalam DataStore memiliki informasi ACL. Jika ditetapkan ke true, data sumber harus memiliki ACL. ACL akan diserap saat data diserap oleh metode DocumentService.ImportDocuments.

Jika ACL diaktifkan untuk DataStore, Document tidak dapat diakses dengan memanggil DocumentService.GetDocument atau DocumentService.ListDocuments.

Saat ini, ACL hanya didukung di vertikal industri GENERIC dengan konfigurasi konten non-PUBLIC_WEBSITE.

workspaceConfig

object (WorkspaceConfig)

Konfigurasi untuk menyimpan konfigurasi jenis penyimpanan data untuk data ruang kerja. Properti ini harus ditetapkan jika DataStore.content_config ditetapkan sebagai DataStore.ContentConfig.GOOGLE_WORKSPACE.

documentProcessingConfig

object (DocumentProcessingConfig)

Konfigurasi untuk Pemahaman dan pengayaan dokumen.

startingSchema

object (Schema)

Skema awal yang akan digunakan untuk DataStore ini saat menyediakannya. Jika tidak disetel, skema khusus vertikal default akan digunakan.

Kolom ini hanya digunakan oleh API dataStores.create, dan akan diabaikan jika digunakan di API lain. Kolom ini akan dihilangkan dari semua respons API, termasuk dataStores.create API. Untuk mengambil skema DataStore, gunakan SchemaService.GetSchema API.

Skema yang diberikan akan divalidasi terhadap aturan tertentu pada schema.org. Pelajari lebih lanjut dari dokumen ini.

healthcareFhirConfig

object (HealthcareFhirConfig)

Opsional. Konfigurasi untuk vertikal HEALTHCARE_FHIR.

servingConfigDataStore

object (ServingConfigDataStore)

Opsional. Menyimpan konfigurasi penayangan di tingkat DataStore.

identityMappingStore

string

Tidak dapat diubah. Nama resource yang sepenuhnya memenuhi syarat dari IdentityMappingStore terkait. Kolom ini hanya dapat ditetapkan untuk DataStore aclEnabled dengan IdP THIRD_PARTY atau GSUITE. Format: projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}.

isInfobotFaqDataStore

boolean

Opsional. Jika disetel, DataStore ini adalah DataStore FAQ Infobot.

configurableBillingApproach

enum (ConfigurableBillingApproach)

Opsional. Konfigurasi untuk pendekatan penagihan yang dapat dikonfigurasi. Lihat

ContentConfig

Konfigurasi konten penyimpanan data.

Enum
CONTENT_CONFIG_UNSPECIFIED Nilai default.
NO_CONTENT Hanya berisi dokumen tanpa Document.content.
CONTENT_REQUIRED Hanya berisi dokumen dengan Document.content.
PUBLIC_WEBSITE Penyimpanan data digunakan untuk penelusuran situs publik.
GOOGLE_WORKSPACE Penyimpanan data digunakan untuk penelusuran ruang kerja. Detail penyimpanan data ruang kerja ditentukan dalam WorkspaceConfig.

AdvancedSiteSearchConfig

Data konfigurasi untuk penelusuran situs lanjutan.

Representasi JSON
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
Kolom
disableInitialIndex

boolean

Jika disetel ke benar (true), pengindeksan awal dinonaktifkan untuk DataStore.

disableAutomaticRefresh

boolean

Jika disetel ke benar (true), refresh otomatis akan dinonaktifkan untuk DataStore.

LanguageInfo

Info bahasa untuk DataStore.

Representasi JSON
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
Kolom
languageCode

string

Kode bahasa untuk DataStore.

normalizedLanguageCode

string

Hanya output. Ini adalah bentuk yang dinormalisasi dari languageCode. Misalnya: languageCode en-GB, en_GB, en-UK, atau en-gb akan memiliki normalizedLanguageCode en-GB.

language

string

Hanya output. Bagian bahasa dari normalizedLanguageCode. E.g.: en-US -> en, zh-Hans-HK -> zh, en -> en.

region

string

Hanya output. Bagian wilayah normalizedLanguageCode, jika ada. E.g.: en-US -> US, zh-Hans-HK -> HK, en -> ``.

NaturalLanguageQueryUnderstandingConfig

Konfigurasi untuk Pemahaman Kueri Bahasa Alami.

Representasi JSON
{
  "mode": enum (Mode)
}
Kolom
mode

enum (Mode)

Mode Pemahaman Kueri Bahasa Alami. Jika kolom ini tidak disetel, perilaku akan ditetapkan secara default ke NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED.

Mode

Mode Pemahaman Kueri Bahasa Alami. Jika NaturalLanguageQueryUnderstandingConfig.Mode adalah ENABLED, kemampuan pemahaman bahasa alami akan diaktifkan untuk permintaan penelusuran jika NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition di SearchRequest adalah ENABLED.

Enum
MODE_UNSPECIFIED Nilai default.
DISABLED Pemahaman Kueri Bahasa Alami dinonaktifkan.
ENABLED Pemahaman Kueri Bahasa Alami diaktifkan.

BillingEstimation

Estimasi ukuran data per penyimpanan data.

Representasi JSON
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
Kolom
structuredDataSize

string (int64 format)

Ukuran data untuk data terstruktur dalam byte.

unstructuredDataSize

string (int64 format)

ukuran data untuk data tidak terstruktur dalam satuan byte.

websiteDataSize

string (int64 format)

ukuran data untuk situs dalam byte.

structuredDataUpdateTime

string (Timestamp format)

Stempel waktu terakhir diperbarui untuk data terstruktur.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

unstructuredDataUpdateTime

string (Timestamp format)

Stempel waktu terakhir diperbarui untuk data tidak terstruktur.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

websiteDataUpdateTime

string (Timestamp format)

Stempel waktu terakhir diperbarui untuk situs.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

WorkspaceConfig

Konfigurasi untuk menyimpan konfigurasi jenis penyimpanan data untuk data ruang kerja

Representasi JSON
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
Kolom
type

enum (Type)

Sumber data Google Workspace.

dasherCustomerId

string

ID pelanggan Dasher yang di-obfuscate.

superAdminServiceAccount

string

Opsional. Akun layanan admin super untuk ruang kerja yang akan digunakan untuk pembuatan token akses. Untuk saat ini, kami hanya menggunakannya untuk penyerapan data konektor Google Drive Native.

superAdminEmailAddress

string

Opsional. Alamat email admin super untuk ruang kerja yang akan digunakan untuk pembuatan token akses. Untuk saat ini, kami hanya menggunakannya untuk penyerapan data konektor Google Drive Native.

Jenis

Menentukan jenis Aplikasi Workspace yang didukung oleh DataStore ini

Enum
TYPE_UNSPECIFIED Secara default, jenis Ruang Kerja tidak ditentukan.
GOOGLE_DRIVE Penyimpanan data Workspace berisi data Drive
GOOGLE_MAIL Penyimpanan data Workspace berisi data email
GOOGLE_SITES Penyimpanan data Workspace berisi data Situs
GOOGLE_CALENDAR Penyimpanan data Workspace berisi data Kalender
GOOGLE_CHAT Penyimpanan data Workspace berisi data Chat
GOOGLE_GROUPS Penyimpanan data Workspace berisi data Grup
GOOGLE_KEEP Penyimpanan data Workspace berisi data Keep
GOOGLE_PEOPLE Penyimpanan data Workspace berisi data Orang

DocumentProcessingConfig

Resource singleton DataStore. Jika kosong saat DataStore dibuat dan DataStore disetel ke DataStore.ContentConfig.CONTENT_REQUIRED, parser default akan menggunakan parser digital secara default.

Representasi JSON
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
Kolom
name

string

Nama lengkap resource Konfigurasi Pemrosesan Dokumen. Format projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig.

chunkingConfig

object (ChunkingConfig)

Apakah mode chunking diaktifkan.

defaultParsingConfig

object (ParsingConfig)

Konfigurasi untuk Pengurai dokumen default. Jika tidak ditentukan, kami akan mengonfigurasinya sebagai DigitalParsingConfig default, dan konfigurasi parsing default akan diterapkan ke semua jenis file untuk parsing Dokumen.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

Memetakan dari jenis file untuk mengganti konfigurasi parsing default berdasarkan jenis file. Kunci yang didukung:

  • pdf: Mengganti konfigurasi parsing untuk file PDF, baik parsing digital, parsing OCR, atau parsing tata letak didukung.
  • html: Mengganti konfigurasi parsing untuk file HTML, hanya parsing digital dan parsing tata letak yang didukung.
  • docx: Mengganti konfigurasi parsing untuk file DOCX, hanya parsing digital dan parsing tata letak yang didukung.
  • pptx: Mengganti konfigurasi penguraian untuk file PPTX, hanya penguraian digital dan penguraian tata letak yang didukung.
  • xlsm: Mengganti konfigurasi penguraian untuk file XLSM, hanya penguraian digital dan penguraian tata letak yang didukung.
  • xlsx: Mengganti konfigurasi penguraian untuk file XLSX, hanya penguraian digital dan penguraian tata letak yang didukung.

ChunkingConfig

Konfigurasi untuk konfigurasi pemotongan.

Representasi JSON
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
Kolom
Kolom union chunk_mode. Konfigurasi tambahan yang menentukan perilaku chunking. chunk_mode hanya ada berupa salah satu diantara berikut:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

Konfigurasi untuk chunking berbasis tata letak.

LayoutBasedChunkingConfig

Konfigurasi untuk chunking berbasis tata letak.

Representasi JSON
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
Kolom
chunkSize

integer

Batas ukuran token untuk setiap bagian.

Nilai yang didukung: 100-500 (inklusif). Nilai default: 500.

includeAncestorHeadings

boolean

Apakah akan menyertakan penambahan berbagai tingkat judul ke bagian dari tengah dokumen untuk mencegah hilangnya konteks.

Nilai default: False.

ParsingConfig

Konfigurasi terkait yang diterapkan ke jenis parser dokumen tertentu.

Representasi JSON
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
Kolom
Kolom union type_dedicated_config. Konfigurasi untuk jenis pemrosesan dokumen. type_dedicated_config hanya ada berupa salah satu diantara berikut:
digitalParsingConfig

object (DigitalParsingConfig)

Konfigurasi yang diterapkan ke parser digital.

ocrParsingConfig

object (OcrParsingConfig)

Konfigurasi diterapkan ke parser OCR. Saat ini hanya berlaku untuk PDF.

layoutParsingConfig

object (LayoutParsingConfig)

Konfigurasi diterapkan ke parser tata letak.

DigitalParsingConfig

Jenis ini tidak memiliki kolom.

Konfigurasi penguraian digital untuk dokumen.

OcrParsingConfig

Konfigurasi penguraian OCR untuk dokumen.

Representasi JSON
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
Kolom
enhancedDocumentElements[]
(deprecated)

string

[TIDAK DIGUNAKAN LAGI] Kolom ini tidak digunakan lagi. Untuk menggunakan pemrosesan elemen dokumen yang ditingkatkan tambahan, beralihlah ke layoutParsingConfig.

useNativeText

boolean

Jika benar, akan menggunakan teks asli, bukan teks OCR di halaman yang berisi teks asli.

LayoutParsingConfig

Konfigurasi penguraian tata letak untuk dokumen.

Representasi JSON
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
Kolom
enableTableAnnotation

boolean

Opsional. Jika benar, anotasi berbasis LLM akan ditambahkan ke tabel selama penguraian.

enableImageAnnotation

boolean

Opsional. Jika benar, anotasi berbasis LLM akan ditambahkan ke gambar selama penguraian.

structuredContentTypes[]

string

Opsional. Berisi jenis struktur yang diperlukan untuk diekstrak dari dokumen. Nilai yang didukung:

  • shareholder-structure
excludeHtmlElements[]

string

Opsional. Daftar elemen HTML yang akan dikecualikan dari konten yang diuraikan.

excludeHtmlClasses[]

string

Opsional. Daftar class HTML yang akan dikecualikan dari konten yang diuraikan.

excludeHtmlIds[]

string

Opsional. Daftar ID HTML yang akan dikecualikan dari konten yang diuraikan.

enableGetProcessedDocument

boolean

Opsional. Jika benar, dokumen yang diproses akan tersedia untuk GetProcessedDocument API.

HealthcareFhirConfig

Konfigurasi ke penyimpanan data untuk vertikal HEALTHCARE_FHIR.

Representasi JSON
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
Kolom
enableConfigurableSchema

boolean

Apakah akan mengaktifkan skema yang dapat dikonfigurasi untuk vertikal HEALTHCARE_FHIR.

Jika disetel ke true, skema FHIR perawatan kesehatan yang telah ditentukan sebelumnya dapat diperluas untuk penelusuran dan pemfilteran yang lebih disesuaikan.

enableStaticIndexingForBatchIngestion

boolean

Apakah akan mengaktifkan pengindeksan statis untuk penyerapan batch HEALTHCARE_FHIR.

Jika disetel ke true, penyerapan batch akan diproses dalam mode pengindeksan statis yang lebih lambat, tetapi lebih mampu menangani volume yang lebih besar.

ServingConfigDataStore

Menyimpan informasi terkait konfigurasi penayangan di tingkat DataStore.

Representasi JSON
{
  "disabledForServing": boolean
}
Kolom
disabledForServing

boolean

Opsional. Jika disetel ke benar (true), DataStore tidak akan tersedia untuk menayangkan permintaan penelusuran.

ConfigurableBillingApproach

Konfigurasi untuk pendekatan penagihan yang dapat dikonfigurasi.

Enum
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED Nilai default. Untuk pendekatan penagihan yang tidak dapat dikonfigurasi Spark dan non-Spark.
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE Gunakan penagihan berbasis langganan + kelebihan penggunaan untuk pengindeksan inti bagi penyimpanan non-penyematan.
CONFIGURABLE_CONSUMPTION_EMBEDDING Gunakan penagihan bayar sesuai penggunaan untuk add-on penyimpanan penyematan.

Metode

completeQuery

Melengkapi input pengguna yang ditentukan dengan saran kata kunci.

create

Membuat DataStore.

delete

Menghapus DataStore.

get

Mendapatkan DataStore.

getSiteSearchEngine

Mendapatkan SiteSearchEngine.

list

Mencantumkan semua DataStore yang terkait dengan project.

patch

Memperbarui DataStore

trainCustomModel

Melatih model kustom.