Ringkasan Konseptual
Document AI Warehouse adalah platform terintegrasi berbasis cloud untuk menyimpan, menelusuri, mengelola, mengatur, dan menganalisis dokumen serta metadata terstrukturnya (disebut Properti). Dokumen mencakup dokumen terstruktur (misalnya, formulir, invoice) dan tidak terstruktur (misalnya, kontrak, makalah penelitian) dan Propertinya (metadata) mencakup data yang diekstrak AI dari dokumen dan tag yang ditetapkan secara manual atau oleh AI (misalnya, nomor rekening, ID pinjaman, jenis dokumen).
Manfaat dan Fitur Utama
Document AI Warehouse menawarkan beberapa keunggulan dibandingkan repositori lama. Berikut beberapa fitur dan manfaatnya:
- Mengutamakan API: satu API terintegrasi untuk mengelola dokumen dan propertinya (metadata yang diekstrak atau diberi tag), yang terintegrasi ke dalam alur kerja dan aplikasi Anda.
- Pengelolaan Metadata: untuk mengelola metadata yang diekstrak dan diberi tag.
- Tata kelola: terintegrasi dengan IAM dan direktori perusahaan
- Kontrol Akses terperinci (izin) di tingkat dokumen dan folder dapat ditetapkan kepada pengguna dan grup untuk melihat, mengedit, mengelola (berbagi, menghapus) dokumen.
- Document AI Warehouse terintegrasi dengan IAM (Cloud Identity), sehingga pengguna dan grup dapat disediakan ke Cloud Identity
- Pengguna/grup juga dapat digabungkan/disinkronkan ke Cloud Identity dari penyedia identitas / LDAP perusahaan, seperti Azure AD, Active Directory, dan Keycloak.
- Penelusuran: produk ini mendukung penelusuran semantik yang kaya, termasuk fitur berikut:
- Penelusuran teks lengkap
- Memfilter hasil penelusuran menurut Properti (tanggal, numerik, enum, teks).
Filter dapat digabungkan dengan operator
ANDdanOR - Penelusuran semantik - mendukung sinonim dan salah eja umum, stemming. Tanda petik (" ") dapat digunakan dalam kueri untuk menentukan kata kunci yang cocok persis
- Sinonim kustom - istilah khusus industri atau istilah khusus perusahaan, misalnya.
- Menelusuri dalam hierarki folder root
- Operator untuk kata kunci penelusuran:
""pencocokan persis,|atau,+dan,-kecualikan
- Organisasi: Pengelolaan Folder Fleksibel
- Dokumen dapat dikategorikan ke dalam satu atau beberapa folder, berdasarkan aplikasi (misalnya, kartu tanda pengenal ditempatkan di folder KYC, folder Pinjaman, folder Rekening Bank), tanpa mereplikasi dokumen tersebut.
- Folder ini memiliki Properti dan Kontrol Akses sendiri, yang terpisah dari properti dan kontrol akses Dokumen.
- Folder dapat disusun bertingkat dalam satu atau beberapa hierarki [misalnya, AllLoans->State->Branch->Loans atau LoanTypes->Loans].
- Pengguna dapat menelusuri dokumen dalam hierarki folder, misalnya, menelusuri dalam AllLoans->State
- UI* - produk menyertakan UI yang dapat diakses Web dengan fitur berikut:
- Penjelajah Dokumen: menelusuri dokumen, memfilter hasil penelusuran, memilih dokumen untuk memperbarui properti secara massal atau menghapus
- Pelihat Dokumen: melihat dokumen, melihat/memperbarui propertinya,menetapkan ACL, menambahkan ke folder
- Upload: upload dokumen dan jalankan melalui ekstraktor DocAI** (OCR atau parser khusus yang didukung seperti Invoice DocAI).
- Penjelajah Folder: menambahkan dokumen ke satu atau beberapa folder, menjelajahi hierarki folder.
- UI yang dapat disematkan: komponen Doc Explorer dan Doc Viewer (untuk PDF) dapat diintegrasikan dalam aplikasi pelanggan
- Konektor*** ke repositori cloud dan lokal yang umum: Kami menyediakan konektor Cloud Storage ke Document AI Warehouse (sebagai template terpisah berdasarkan Google Workflows) yang dapat disesuaikan/diperluas ke repositori lain. Kami juga bekerja sama dengan partner untuk menyediakan konektor siap pakai ke repositori seperti Sharepoint, Amazon S3, IBM FileNet, dan lainnya, untuk menyerap dan mengindeks dokumen.
- Fleksibilitas Migrasi vs. Gabungan: Produk ini mendukung arsitektur yang fleksibel sehingga konten dokumen Anda dapat dimigrasikan ke Document AI Warehouse atau tetap berada di tempatnya jika ada kendala dalam memigrasikan konten (kami cukup mengindeks konten dan metadata).
- Terintegrasi dengan Alur Kerja Dokumen - integrasi ini dilakukan dengan Google Workflows dan alur kerja pemrosesan dokumen lainnya dengan mendukung:
- Properti - yang mewakili status dokumen dalam alur kerja dan API yang dapat digunakan alur kerja untuk memperbarui status dokumen
- Antarmuka Penjelajah Dokumen - untuk melacak progres dokumen melalui pipeline alur kerja, sehingga manusia dapat memeriksa, mengelola kegagalan, dan dokumen yang terhenti di pipeline alur kerja.
- Notifikasi Kondisional - saat dokumen yang memenuhi kondisi tertentu dapat memicu/memberi tahu alur kerja melalui topik Pub/Sub atau panggilan Web API: misalnya, Pemicu: OnUpdate; Kondisi: (DocType=Invoice dan TotalAmount>$1000) -> kirim Notifikasi Pub/Sub
- Pengelolaan Kebijakan dan Penegakan Kepatuhan: notifikasi bersyarat dan notifikasi terjadwal dapat digunakan untuk memicu alur kerja yang menerapkan kebijakan (misalnya, pengelolaan catatan, retensi dan disposisi, penangguhan karena alasan hukum) pada dokumen tertentu di Document AI Warehouse.
- File yang didukung - PDF Teks, Gambar (PDF yang dipindai, file TIFF, file JPEG), file Office (DOCX, PPTX, XLSX) - dijalankan melalui OCR dan diindeks.
- Catatan - meskipun fokus produknya adalah dokumen, produk ini juga digunakan untuk mengelola gambar terkait (misalnya, di bidang seperti Asuransi, Teknik, Konstruksi, Riset, dll.).
Terintegrasi dengan DocAI: Document AI Warehouse terintegrasi dengan pemroses Document AI di beberapa tingkat:
- Pemrosesan Document AI di UI: UI Document AI Warehouse memungkinkan pengguna mengupload PDF/TIFF yang dipindai atau jenis dokumen khusus, yang keduanya diekstrak secara otomatis oleh Document AI OCR atau prosesor khusus sebelum dokumen diindeks ke dalam Document AI Warehouse.
- Mengelola pipeline Document AI batch***: Document AI Warehouse terintegrasi dengan Workflows untuk menyediakan template yang memproses pipeline dokumen dalam batch melalui ekstraksi dan klasifikasi Document AI. Hal ini tidak mudah karena melibatkan operasi yang berjalan lama (LRO) dan panggilan API asinkron yang perlu dikelola untuk kegagalan dan percobaan ulang. Template Workflows mengatur pipeline tersebut. UI Document AI Warehouse dapat digunakan untuk menelusuri dan melacak alur dokumen melalui pipeline tersebut, memvisualisasikan output Document AI untuk kegagalan di setiap langkah pipeline, dan mengambil tindakan pada dokumen yang tertunda/gagal.
*UI dalam Pratinjau dan diharapkan segera tersedia secara umum.
**OCR dan pengekstrak dokumen lainnya tersedia di produk Document AI, tetapi tidak disertakan dalam Document AI Warehouse.
***Fitur ini bukan bagian dari Document AI Warehouse. Fitur ini diaktifkan oleh komponen dan skrip open source eksternal yang dapat di-deploy atau disesuaikan oleh pelanggan, dan tidak diimplementasikan dalam Document AI Warehouse.
Pernyataan Penyangkalan dan Batasan Umum
Untuk mengetahui informasi selengkapnya tentang Pernyataan Penyangkalan dan Batasan Umum, lihat Pernyataan Penyangkalan dan Batasan Umum
Terminologi
Berikut adalah istilah yang digunakan di Document AI Warehouse.
| Persyaratan, Konsep | Definisi, Contoh |
| Dokumen | Catatan di Document AI Warehouse yang dapat ditelusuri, dikelola, dan diterapkan kontrol aksesnya oleh pengguna. File ini terdiri dari dokumen mentah dan beberapa metadata terkait.
[Gambar yang disimpan di Document AI Warehouse juga disebut sebagai "Dokumen"] |
| Dokumen Mentah [Konten] | File konten mentah (pdf/image/binary/blob) Dokumen. |
| Skema [Jenis Dokumen] | Setiap dokumen memiliki jenis dokumen tertentu dan ditentukan oleh skema. Misalnya, Invoice berisi skema berikut: Nama Pemasok, Nama Vendor, Jumlah Invoice, dll. |
| Properti [Metadata] | Kolom Skema Dokumen yang dapat diekstrak dari dokumen atau dilengkapi (diberi label) oleh pengguna. Saat ini, Metadata mencakup jenis berikut: Nilai Teks Bebas, Enum, Numerik, Tanggal, Peta (hierarki JSON dari key-value pair). Kami berencana mendukung Boolean, Uang, dan jenis lainnya ke depannya. |
| Ekstraktor dokumen (DocAI dan lainnya) | Dokumen dapat diekstrak oleh pipeline AI, sehingga hasil ekstraksi dapat di-ingest dan dikelola di Document AI Warehouse (sebagai Metadata) bersama dengan Dokumen Mentah. Ekstraksi dapat dilakukan dengan
|
| Folder | Folder adalah kumpulan dokumen virtual (virtual karena dokumen yang sama dapat berada di satu atau beberapa folder). Objek ini memiliki "Jenis/Skema Dokumen" dan berisi metadata serta Daftar Kontrol Akses seperti dokumen.
Pengguna memerlukan izin Edit ke Folder dan izin Lihat ke Dokumen, untuk menambahkan Dokumen ke Folder |
| Link | Link digunakan untuk menambahkan dokumen ke folder atau untuk menautkan dokumen terkait. Link tidak memiliki "Jenis Link" |
| Dokumen Terkait | Dokumen dapat dihubungkan dengan link terarah dari satu dokumen ke dokumen lainnya. |
| Izin Penautan | Pengguna memerlukan izin Edit ke objek Link-dari (mis. Folder) dan izin Lihat ke objek Link-ke (mis. Dokumen), untuk menambahkan Dokumen ke Folder |
| Kebijakan | Kebijakan yang dievaluasi saat dokumen/folder dibuat/diperbarui, dan digunakan untuk memvalidasi atau memperbarui metadata dokumen, ACL, atau menambahkan/memindahkan/menghapus dokumen dari folder. Kebijakan terdiri dari:
|
| Kebijakan Notifikasi | Adalah jenis kebijakan khusus yang Tindakannya adalah memublikasikan pesan ke Topik Pub/Sub} saat kondisi tertentu terpenuhi. Aplikasi / alur kerja yang menggunakan pesan dapat menggunakan pesan tersebut untuk memicu tindakan pada dokumen atau bagian lain dari alur kerja bisnis. |
| Policy Engine, Policy API | Mesin: Server yang mengevaluasi kebijakan dan mengambil tindakan
API: Admin API yang digunakan untuk membuat/memperbarui/membaca/menghapus kebijakan. |
| Penelusuran dengan Faset | Faset adalah filter metadata yang digunakan dalam kueri penelusuran. Misalnya, penelusuran Laporan Bank dari "Bulan = Maret 2021" dan "Negara Bagian Cabang = CA" akan memfilter Hasil penelusuran menurut 2 aspek ini.
|
| → Penelusuran Semantik | Penelusuran semantik mendukung sinonim atau istilah yang "terkait secara semantik" dalam kueri penelusuran. Misalnya, "Surat izin mengemudi" menampilkan "surat izin mengemudi". |
| Histogram Penelusuran | Histogram adalah fitur Search API yang menampilkan distribusi (jumlah) hasil penelusuran menurut faset. Misalnya, Hasil penelusuran untuk Surat Izin Mengemudi menampilkan histogram "CA 500, NV 150, …" |
| Akses Universal vs. Kontrol Akses Tingkat Dokumen | Dua mode akses didukung di Document AI Warehouse untuk setiap project
|