Form Parser

Parser Formulir mengekstrak key-value pair (KVP), tabel, tanda pilihan (seperti kotak centang), kolom umum, dan teks untuk meningkatkan dan mengotomatiskan pemrosesan dokumen.

Parser Formulir dapat dipertimbangkan daripada parser lainnya jika kasus penggunaan melibatkan:

  • Menangani formulir terstruktur: Model ini sangat baik dalam mengekstrak KVP dari formulir yang terdefinisi dengan baik yang terlihat seperti formulir konvensional dengan bagian kosong berlabel untuk diisi, seperti name: __. Model terlatih Form Parser menawarkan akurasi tinggi untuk kolom umum seperti nama, tanggal, dan alamat.
  • Ekstraksi tabel yang fleksibel diperlukan: Form Parser mengekstrak dari tabel sederhana (tanpa sel yang mencakup baris atau kolom) yang terlihat seperti tabel. Tidak diperlukan (atau memungkinkan) pelatihan. Untuk ekstraksi tabel terlatih, ekstraktor kustom dapat digunakan dengan kolom yang berisi kolom (sel) turunan.
  • Membutuhkan efisiensi: Hindari pembuatan dan pemeliharaan parser ekstraksi, terutama untuk tugas ekstraksi bervolume tinggi dan beragam.

Fitur ekstraksi data

Fitur Form Parser meliputi:

  • KVP: Ini adalah kumpulan dua item dalam dokumen—label atau kunci dan data yang sesuai (nilai). Anda dapat langsung menggunakan KVP (jika kuncinya konsisten) atau membuat logika kustom untuk menyelesaikan berbagai kunci menjadi informasi terstruktur yang konsisten.

  • Entitas generik: Mengurai 11 kolom berbeda dari dokumen secara langsung. Fitur tersebut meliputi:

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • Teks dan tata letak: Gunakan mesin OCR terbaru kami untuk mengekstrak informasi teks dan tata letak. Hal ini mencakup teks yang disematkan dari PDF digital (khusus v2.1) atau teks dari gambar.

  • Tabel: Mendeteksi dan mengekstrak tabel dari gambar dan PDF.

  • Kotak centang: Detektor tanda pilihan berkualitas tinggi, yang mengekstrak kotak centang dari gambar dan output PDF sebagai KVP, menggunakan teks terdekat dengan kotak centang, dengan valueType yang menunjukkan apakah kotak tersebut terisi atau tidak.

Bahasa dan wilayah

Versi model

Versi prosesor berikut kompatibel dengan fitur ini. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

Batasan

  • Kompresi JPEG sebelumnya untuk TIFF tidak didukung. Jenis enkapsulasi JPEG yang ditentukan oleh spesifikasi TIFF versi 6.0.

  • Model kotak centang tidak mendukung penguraian tombol pilihan. Beberapa kotak centang yang terdeteksi mungkin tidak memiliki kunci yang sesuai.

  • Model tidak dapat mengurai KVP dengan nilai yang tidak terisi secara andal, seperti formulir kosong.

  • Penguraian KVP pada dokumen dalam bahasa tertentu mungkin memiliki kualitas yang lebih rendah daripada bahasa Latin.

Memproses dokumen dengan Form Parser

Panduan memulai ini memperkenalkan fitur Parser Formulir di Document AI. Dalam panduan memulai ini, Anda akan menggunakan Google Cloud konsol untuk menyiapkan Google Cloud project dan otorisasi, membuat Parser Formulir, lalu membuat permintaan agar Document AI memproses formulir PDF.

Pelajari cara:

  1. Aktifkan Document AI di project Google Cloud .

  2. Buat pemroses Form Parser, yang dapat mengidentifikasi dan mengekstrak teks, key-value pair, tabel, dan entity umum dari berbagai jenis dokumen.

  3. Gunakan pemroses untuk membuat anotasi pada dokumen contoh.


Untuk mengikuti panduan langkah demi langkah untuk tugas ini langsung di Google Cloud konsol, klik Pandu saya:

Pandu saya


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Membuat pemroses Parser Formulir

    Gunakan konsol Google Cloud untuk membuat pemroses Form Parser. Lihat membuat dan mengelola pemroses untuk mengetahui informasi selengkapnya.

    1. Di bagian Navigation menu pada konsol Google Cloud , klik Document AI, lalu pilih Processor Gallery.

      Prosesor Galeri

    2. Di Processor Gallery, telusuri Form Parser, lalu pilih Create.

      Opsi Form Parser di UI

    3. Di jendela samping, masukkan Processor name, seperti quickstart-form-processor.

    4. Pilih wilayah yang paling dekat dengan Anda.

    5. Klik tombol Buat.

    Anda akan diarahkan ke halaman Processor Details dari pemroses parser formulir baru Anda.

    Prosesor pengujian

    Setelah membuat pemroses, Anda dapat mengirim permintaan anotasi ke pemroses tersebut.

    1. Download contoh dokumen.

      Ini adalah file PDF yang berisi contoh formulir rekam medis tulisan tangan. Dokumen ini disimpan di bucket Cloud Storage yang dapat diakses secara publik.

    2. Klik tombol Upload Test Document, lalu pilih dokumen yang baru saja Anda download.

    3. Anda akan berada di halaman Analisis Pengurai Formulir. Anda dapat melihat teks yang terdeteksi OCR, key-value pair, tabel, dan entity generik yang diekstrak dari dokumen.

      contoh pasangan nilai kunci formulir di UI contoh entity generik formulir di UI

    Pembersihan

    Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika tidak lagi diperlukan.

    Langkah berikutnya