Bagian ini membahas lebih banyak nuansa dan topik lanjutan fitur penelusuran.
Sinonim kustom
Document AI Warehouse menyediakan fitur yang disebut "Sinonim Kustom" yang memungkinkan pelanggan memberikan sinonim mereka sendiri untuk domain tertentu. Sinonim, seperti yang tersirat dalam namanya, adalah kata serupa yang digunakan selama penelusuran. Jika pengguna melakukan penelusuran di "televisi", maka sinonim berikut dapat ditambahkan dengan lancar tanpa diketahui pengguna: "TV", "Monitor Video", "Layar Video". Istilah penelusuran asli pengguna dan sinonimnya akan digunakan untuk menjalankan kueri penelusuran.
Fitur ini membantu memperluas penelusuran pengguna dan menampilkan hasil yang diharapkan. Penggunaan umum mencakup istilah perusahaan atau industri, akronim, bahasa gaul, dan bahasa daerah.
Synonym, Context, dan SynonymSet
Document AI Warehouse memperkenalkan tiga istilah utama untuk penyesuaian sinonim:
Synonym. Sinonim mewakili sekumpulan kata yang semuanya memiliki arti yang serupa.Context. Konteks merepresentasikan grup pengguna (seperti pengguna industri, divisi, atau organisasi) yang memiliki sinonim spesifik yang tidak digunakan oleh grup lain. Misalnya, departemen Keuangan dan Layanan Kesehatan kemungkinan menggunakanSynonymSetyang sama sekali berbeda. Konteks dapat ditentukan di kolomqueryContextSearch API. Oleh karena itu, penggunaan konteks yang berbeda untuk istilah kueri penelusuran yang sama dapat menghasilkan hasil penelusuran yang berbeda.SynonymSet. SynonymSet adalah kumpulan sinonim untuk konteks tertentu.
{
"name": string,
"context": string,
"synonyms": [
{
object (Synonym)
}
]
}
Contoh kasus penggunaan
SynonymSet dengan konteks: "finance" (keuangan)
| "Mata uang","Valuta asing","dolar","euro","yen" |
| "Inflasi","IHK","ekspansi ekonomi","booming ekonomi","harga yang lebih tinggi" |
| "IRS","Internal Revenue Service","US Treasury" |
| "Surat pajak","1040","1120","1099","W-2" |
Pada contoh sebelumnya, saat pengguna membuat kueri untuk 'Mata uang' dan queryContext adalah 'keuangan', maka sinonim lain dalam baris tersebut (yaitu, Valuta asing, dolar, euro, yen) ditambahkan secara implisit ke kueri penelusuran. Demikian pula, jika pengguna mengkueri istilah apa pun dalam baris tersebut, semua istilah lainnya akan ditambahkan ke kueri akhir. Dengan contoh yang sama, jika pengguna membuat kueri 'euro,', maka Currency, Foreign exchange, dollar, dan yen akan ditambahkan ke kueri akhir.
SynonymSet dengan konteks: "healthcare" (layanan kesehatan)
| "provider","clinic","hospital","doctor","therapist","specialist" |
| "Klaim medis","Klaim","1500","Diagnosis","ICD-9","ICD9","ICD-10","ICD10","CPT","HCPCS" |
| "cedera","trauma","sakit","luka","perih","memar","teriris","laserasi","lesi","abrasi","kontusio" |
Menelusuri dengan perluasan sinonim kustom
Saat pelanggan ingin menelusuri dokumen dengan perluasan sinonim kustom, mereka harus menentukan satu atau beberapa query_context, Anda dapat meninjau dokumentasi di SearchDocuments API.
Penelusuran folder
Seperti namanya, folder search hanya menelusuri di folder tertentu dan subfoldernya.
Contoh permintaan penelusuran akan terlihat seperti ini:
{
document_query {
query: "songs";,
folderNameFilter: "projects/PROJECT_NUM/locations/LOCATION/documents/888"
}
}
Histogram
Histogram adalah fitur lanjutan yang menggabungkan jumlah pada data tertentu. Misalnya, berapa banyak dokumen dari setiap skema yang cocok dengan kueri pengguna? Untuk database terkait pemerintah, jika pengguna menelusuri "Orange County", histogram skema data dapat menampilkan jumlah surat izin mengemudi, surat nikah, atau akta yang cocok dengan kriteria penelusuran. Histogram mematuhi izin akses data pengguna yang meminta, sehingga hanya dokumen yang dapat diakses oleh pengguna yang meminta yang dihitung.
Histogram dapat menjadi sumber daya yang efektif; namun, pengumpulan dan penggabungan semua data memerlukan waktu.
Histogram tidak terpengaruh oleh kolom penomoran halaman permintaan penelusuran.
Format kueri histogram umum
HistogramQuery ditentukan sebagai:
{
"histogramQuery": string,
"requirePreciseResultSize": boolean,
"filters": {
object (HistogramQueryPropertyNameFilter)
}
}
Kolom histogram_query memiliki format: COUNT('<item to count>'). Kolom ini adalah kolom berulang, yang memungkinkan Anda memiliki lebih dari satu kueri histogram.
Kolom require_precise_result_size belum diterapkan.
Kolom filters dibahas di bagian Filter.
Histogram skema dokumen
Anda dapat membuat histogram skema dokumen atau jenis dokumen dengan menambahkan kueri histogram ini:
{
document_query {
query: "test"
},
histogram_queries: [
{
histogram_query: "count('DocumentSchemaId')"
}
]
}
Misalnya, peta di dalam HistogramQueryResult dari kueri ini akan terlihat seperti berikut:
histogramQueryResults: [
{
histogramQuery: "DocumentSchemaId",
histogram:
{
"projects/1234/locations/us-west/documentSchemas/5543": "22",
"projects/1234/locations/us-west/documentSchemas/5544": "2",
"projects/1234/locations/us-west/documentSchemas/5545": "4",
"projects/1234/locations/us-west/documentSchemas/5546": "122",
"projects/1234/locations/us-west/documentSchemas/5547": "256",
"projects/1234/locations/us-west/documentSchemas/5548": "1",
"projects/1234/locations/us-west/documentSchemas/5549": "5",
"projects/1234/locations/us-west/documentSchemas/5550": "15",
}
}
]
Contoh ini menunjukkan bahwa tiga skema dokumen cocok dengan kueri penelusuran yang diberikan, dan menunjukkan jumlah dokumen per skema dokumen.
Histogram properti
Histogram properti menampilkan jumlah properti yang dapat difilter tertentu. Histogram properti memiliki format:
COUNT('SomeSchema.SomeProp')
// Also, you can try with:
COUNT('SomeSchema.ParentProp.SubProp')
Berikut contoh permintaan:
histogramQueryResults: [
{
histogramQuery: "5678.text_prop",
histogram: {
some_text: "1",
More_text: "55",
Additional_text: "19"
}
}
]
Histogram ini menampilkan semua histogram properti yang dapat difilter berdasarkan kriteria HistogramQueryPropertyNameFilter. Tindakan ini akan menampilkan jumlah penggunaan properti (bukan jumlah nilai).
HistogramQueryPropertyNameFilter ditentukan sebagai:
{
"documentSchemas": [
string
],
"propertyNames": [
string
],
"yAxis": enum (HistogramYAxis)
}
Anda dapat membatasi hasil ke sekumpulan skema dokumen dengan mengisi kolom berulang yang disebut document_schemas hingga 10 kolom schema_ID. Properti yang digabungkan dapat dikurangi secara opsional menggunakan kolom property_names yang dapat diulang.
Kolom y_axis menentukan cara menghitung properti. Jika tidak disetel atau disetel ke HISTOGRAM_YAXIS_DOCUMENT, fitur histogram hanya menghitung penggunaan properti unik. Jika y_axis disetel ke HISTOGRAM_YAXIS_PROPERTY, histogram akan menghitung semua penggunaan properti. Contoh:
Document 1: Payments_property: [AMEX, VISA]
Dokumen 2: Payments_property: [MC]
`HISTOGRAM_YAXIS_DOCUMENT` would return:
Payments_property: 2
_Explanation_: The `Payments_property` is found in two documents
`HISTOGRAM_YAXIS_PROPERTY` would return:
Payments_property: 3
_Explanation_: The `Payments_property` has three values in the documents found
Berikut contoh kueri sederhana:
{
document_query {
},
histogram_queries: [
{
histogramQuery: "count('FilterableProperties')";
}
]
}
Berikut adalah contoh respons terhadap kueri sebelumnya:
histogramQueryResults: [
{
histogramQuery: "FilterableProperties",
histogram: {
456.int_prop: "4",
456.text_prop: "26"
}
}
]
Untuk memfilter hasil count('FilterableProperties')) menurut skema, lihat permintaan berikut:
{
document_query: {
},
histogram_queries: [
{
histogram_query: "count('FilterableProperties')",
filters: {
document_schemas: [
"projects/1234/locations/us-west/documentSchemas/678",
"projects/1234/locations/us-west/documentSchemas/456"
]
}
}
]
}
Untuk memfilter hasil count('FilterableProperties') untuk properti tertentu, lihat permintaan berikut:
{
document_query: {
},
histogram_queries: [
{
histogram_query: "count('FilterableProperties')",
filters: {
property_names: [
"678.MORTAGE_TYPE",
"456.language_code"
]
}
}
]
}
Untuk melihat jumlah properti untuk count("FilterableProperties"), ubah y_axis menjadi HISTOGRAM_YAXIS_PROPERTY sebagai berikut:
{
document_query: {
},
histogram_queries: [
{
histogram_query: "count('FilterableProperties')",
filters: {
y_axis: "HISTOGRAM_YAXIS_PROPERTY"
}
}
]
}
Langkah berikutnya
- Lanjutkan ke mesin kebijakan
- Buka referensi REST