Validasi dan koreksi

Anda dapat menggunakan Document AI untuk menentukan aturan bisnis kustom guna memvalidasi hasil pemrosesan dokumen. Validasi adalah proses pemrosesan dokumen yang menjalankan aturan validasi Anda pada entitas yang diekstrak akhir. Koreksi adalah proses opsional yang mencoba meningkatkan hasil ekstraksi berdasarkan hasil aturan validasi, sehingga meningkatkan akurasi ekstraksi.

Aturan validasi dapat, misalnya, memeriksa apakah jumlah harga item baris sama dengan nilai total, memverifikasi konsistensi kolom di beberapa dokumen, atau memastikan bahwa kolom yang diekstrak sejajar secara spasial dalam tata letak (seperti dalam blok horizontal). Tentukan aturan bisnis menggunakan Common Expression Language (CEL), dan buat aturan tersebut dari perintah bahasa natural.

Mengaktifkan validasi dan koreksi

Anda dapat mengaktifkan validasi dan koreksi secara terpisah di konsol Document AI. Setelan ini berlaku untuk semua permintaan processDocument untuk versi prosesor yang dipilih. Namun, Anda dapat mengganti perilaku ini untuk setiap permintaan menggunakan parameter dalam panggilan API processDocument.

Konfigurasi validasi dan koreksi, termasuk aturan validasi, khusus untuk setiap versi prosesor. Perhatikan bahwa semua versi prosesor terlatih yang dikelola Google menggunakan konfigurasi dasar yang sama. Saat Anda membuat versi prosesor kustom baru (misalnya, melalui penyetelan yang lebih mendalam), Document AI akan menduplikasi konfigurasi dasar dan melampirkannya ke versi baru.

Jika validasi diaktifkan, hasil semua aturan validasi yang ditentukan akan disertakan dalam respons ProcessDocument untuk permintaan sinkron dan batch. Koreksi hanya dapat diaktifkan jika validasi juga diaktifkan. Document AI menjalankan proses koreksi hanya jika setidaknya satu aturan validasi gagal untuk dokumen tertentu. Setelah koreksi, Document AI akan menjalankan kembali proses validasi untuk memberikan hasil akhir. Hasil validasi sebelum dan sesudah koreksi tersedia dalam respons processDocument dalam daftar revisi.

Aturan validasi CEL

Aturan validasi ditentukan menggunakan ekspresi berdasarkan Common Expression Language (CEL). CEL adalah bahasa ekspresi non-Turing lengkap yang dirancang untuk kesederhanaan dan keamanan. Contoh aturan yang dapat Anda tentukan:

  • Jumlah kolom A sama dengan kolom B.
  • Kolom B cocok dengan pola ekspresi reguler yang ditentukan.
  • Semua subkolom dari setiap parent entity sejajar secara horizontal.

Untuk menyederhanakan pembuatan aturan, buat aturan CEL dengan memberikan perintah dalam bahasa natural. Pendekatan ini menghindari kompleksitas sintaksis CEL. Implementasi CEL Document AI mungkin memiliki sedikit perbedaan dari spesifikasi standar. Untuk mengetahui deskripsi dan contoh mendetail, lihat referensi aturan CEL.

Mengaktifkan validasi di Google Cloud konsol

  1. Dikonsol untuk prosesor yang ada, pilih entri Validation & Correction. Google Cloud

    ce-validation-1

  2. Sebelum memproses dokumen, buka Rule management.

    ce-validation-2

  3. Pilih tombol Enable Validation.

  4. Opsional: pilih tombol Enable Correction.

Pembuatan aturan

  1. Klik Add Rule.

    ce-validation-6

  2. Di formulir pembuatan aturan, masukkan perintah bahasa natural.

    ce-validation-5

  3. Beri nama aturan, dan gunakan Common Expression Language (CEL) untuk menentukan perilaku.

  4. Opsional. Gunakan opsi Edit atau Delete untuk mengelola aturan yang ada.

Menyalin konfigurasi di seluruh prosesor

  1. Di bagian Rule management, klik Copy to another PV.

    ce-validation-4

  2. Pilih nama dan versi prosesor untuk menyalin konfigurasi.

    ce-validation-3

Hasil aturan

  1. Di halaman Manage Dataset, buka Rule management.

    ce-validation-7

  2. Evaluasi total pengujian yang lulus dan gagal.

  3. Periksa untuk melihat perincian hasil aturan individual.

  4. Anda dapat membandingkan perubahan untuk melihat entitas baru yang dibuat setelah koreksi berwarna hijau, dan entitas yang diubah berwarna kuning.

    ce-validation-8

  5. Di bagian Evaluate &test, akan ada kolom untuk skor sebelum dan sesudah mengaktifkan koreksi.

    ce-validation-9

Evaluasi

Evaluasi versi prosesor mencakup metrik utama untuk hasil pasca-koreksi dan pra-koreksi jika koreksi diaktifkan. Gunakan metrik ini untuk menilai dampak proses koreksi terhadap kualitas ekstraksi.

Langkah berikutnya