Parser Formulir mengekstrak key-value pair (KVP), tabel, tanda pilihan (seperti kotak centang), kolom umum, dan teks untuk meningkatkan dan mengotomatiskan pemrosesan dokumen.
Parser Formulir dapat dipertimbangkan daripada parser lainnya jika kasus penggunaan melibatkan:
- Menangani formulir terstruktur: Model ini sangat baik dalam mengekstrak KVP dari
formulir yang terdefinisi dengan baik yang terlihat seperti formulir konvensional dengan bagian kosong berlabel untuk diisi, seperti
name: __. Model terlatih Form Parser menawarkan akurasi tinggi untuk kolom umum seperti nama, tanggal, dan alamat. - Ekstraksi tabel yang fleksibel diperlukan: Form Parser mengekstrak dari tabel sederhana (tanpa sel yang mencakup baris atau kolom) yang terlihat seperti tabel. Tidak diperlukan (atau memungkinkan) pelatihan. Untuk ekstraksi tabel terlatih, ekstraktor kustom dapat digunakan dengan kolom yang berisi kolom (sel) turunan.
- Membutuhkan efisiensi: Hindari pembuatan dan pemeliharaan parser ekstraksi, terutama untuk tugas ekstraksi bervolume tinggi dan beragam.
Fitur ekstraksi data
Fitur Form Parser meliputi:
KVP: Ini adalah kumpulan dua item dalam dokumen—label atau kunci dan data yang sesuai (nilai). Anda dapat langsung menggunakan KVP (jika kuncinya konsisten) atau membuat logika kustom untuk menyelesaikan berbagai kunci menjadi informasi terstruktur yang konsisten.
Entitas generik: Mengurai 11 kolom berbeda dari dokumen secara langsung. Fitur tersebut meliputi:
emailphoneurldate_timeaddresspersonorganizationquantitypriceidpage_number
Teks dan tata letak: Gunakan mesin OCR terbaru kami untuk mengekstrak informasi teks dan tata letak. Hal ini mencakup teks yang disematkan dari PDF digital (khusus v2.1) atau teks dari gambar.
Tabel: Mendeteksi dan mengekstrak tabel dari gambar dan PDF.
Kotak centang: Detektor tanda pilihan berkualitas tinggi, yang mengekstrak kotak centang dari gambar dan output PDF sebagai KVP, menggunakan teks terdekat dengan kotak centang, dengan
valueTypeyang menunjukkan apakah kotak tersebut terisi atau tidak.
Bahasa dan wilayah
- Form Parser 2.0 mendukung lebih dari 200 bahasa. Pelajari lebih lanjut.
- Kami menyediakan dukungan fitur di delapan wilayah. Pelajari lebih lanjut.
Versi model
Versi prosesor berikut kompatibel dengan fitur ini. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Batasan
Kompresi JPEG sebelumnya untuk TIFF tidak didukung. Jenis enkapsulasi JPEG yang ditentukan oleh spesifikasi TIFF versi 6.0.
Model kotak centang tidak mendukung penguraian tombol pilihan. Beberapa kotak centang yang terdeteksi mungkin tidak memiliki kunci yang sesuai.
Model tidak dapat mengurai KVP dengan nilai yang tidak terisi secara andal, seperti formulir kosong.
Penguraian KVP pada dokumen dalam bahasa tertentu mungkin memiliki kualitas yang lebih rendah daripada bahasa Latin.
Memproses dokumen dengan Form Parser
Panduan memulai ini memperkenalkan fitur Parser Formulir di Document AI. Dalam panduan memulai ini, Anda akan menggunakan Google Cloud konsol untuk menyiapkan Google Cloud project dan otorisasi, membuat Parser Formulir, lalu membuat permintaan agar Document AI memproses formulir PDF.
Pelajari cara:
Aktifkan Document AI di project Google Cloud .
Buat pemroses Form Parser, yang dapat mengidentifikasi dan mengekstrak teks, key-value pair, tabel, dan entity umum dari berbagai jenis dokumen.
Gunakan pemroses untuk membuat anotasi pada dokumen contoh.
Untuk mengikuti panduan langkah demi langkah untuk tugas ini langsung di Google Cloud konsol, klik Pandu saya:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. Di bagian Navigation menu pada konsol Google Cloud , klik Document AI, lalu pilih Processor Gallery.
Di Processor Gallery,
telusuri Form Parser, lalu pilih Create.
Di jendela samping, masukkan Processor name, seperti
quickstart-form-processor.Pilih wilayah yang paling dekat dengan Anda.
Klik tombol Buat.
-
Ini adalah file PDF yang berisi contoh formulir rekam medis tulisan tangan. Dokumen ini disimpan di bucket Cloud Storage yang dapat diakses secara publik.
Klik tombol
Upload Test Document , lalu pilih dokumen yang baru saja Anda download.Anda akan berada di halaman Analisis Pengurai Formulir. Anda dapat melihat teks yang terdeteksi OCR, key-value pair, tabel, dan entity generik yang diekstrak dari dokumen.
- Tinjau Daftar pemroses.
Membuat pemroses Parser Formulir
Gunakan konsol Google Cloud untuk membuat pemroses Form Parser. Lihat membuat dan mengelola pemroses untuk mengetahui informasi selengkapnya.
Anda akan diarahkan ke halaman Processor Details dari pemroses parser formulir baru Anda.
Prosesor pengujian
Setelah membuat pemroses, Anda dapat mengirim permintaan anotasi ke pemroses tersebut.
Pembersihan
Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika tidak lagi diperlukan.