Pemisah kustom

Pemisah kustom dirancang untuk memisahkan dokumen komposit (dokumen yang terdiri dari beberapa kelas) menjadi sejumlah dokumen kelas tunggal dengan mengidentifikasi setiap dokumen logis. Misalnya, paket hipotek berisi beberapa kelas di dalamnya seperti pendaftaran, verifikasi penghasilan, dan tanda pengenal berfoto. Prosesor pemisah kustom dapat digunakan langsung, atau dilatih dari awal menggunakan dokumen dan kelas kustom Anda sendiri.

Deskripsi dan penggunaan pemisah

Anda dapat membuat pemisah kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda, atau men-deploy model terlatih dengan AI generatif. Pemroses ini mengidentifikasi kelas dokumen dari serangkaian kelas yang ditentukan pengguna. Kemudian, Anda dapat menggunakan pemroses ini pada dokumen Anda. Biasanya, Anda akan menggunakan pemisah kustom pada file yang terdiri dari berbagai jenis dokumen logis, lalu menggunakan identifikasi kelas masing-masing untuk meneruskan dokumen ke pemroses ekstraksi yang sesuai guna mengekstrak entity.

Karena model ML tidak sempurna dan memiliki tingkat kesalahan tertentu, dan karena kesalahan dalam pemisahan biasanya sangat bermasalah (pemisahan yang buruk membuat dua dokumen salah dan menyebabkan kesalahan ekstraksi), praktik terbaiknya adalah selalu melakukan peninjauan oleh manusia setelah prediksi pemisahan, tetapi sebelum pemisahan file yang sebenarnya. Berdasarkan persyaratan bisnis, ada alternatif untuk tidak selalu melakukan peninjauan manual:

  • Gunakan skor keyakinan dalam prediksi untuk memutuskan apakah akan melewati peninjauan manual (jika cukup tinggi). Nilai minimum keyakinan tersebut harus ditentukan berdasarkan data historis tentang tingkat kesalahan pada skor keyakinan tertentu. Hal ini harus menjadi keputusan bisnis berdasarkan toleransi proses bisnis terhadap error dan persyaratan untuk melewati peninjauan manual.
  • Dalam beberapa kasus penggunaan, dokumen yang dibagi dapat dirutekan langsung ke pengekstrakan yang sesuai menurut kelas yang diprediksi. Kemudian, jika ekstraksi tidak lengkap atau memiliki skor keyakinan yang rendah, pisahkan dokumen yang dibagi dan picu dokumen komposit asli dan keputusan pemisahan untuk ditinjau. Hal ini memiliki persyaratan alur kerja yang cukup kompleks.

Versi model pemisah kustom

Model berikut tersedia untuk pemisah kustom. Untuk mengubah versi model, lihat Mengelola versi pemroses.

Versi 1.5 mendukung skor keyakinan.

Versi model Deskripsi Saluran rilis Tanggal rilis
pretrained-splitter-v1.5-2025-07-14 Kandidat rilis yang didukung oleh LLM Gemini 2.5 Flash. Model terlatih ini dapat digunakan tanpa pelatihan sebelumnya. Model ini mendukung pemisahan dan klasifikasi zero-shot. Kandidat Rilis 14 Juli 2025

Untuk membuat Permintaan Penambahan Kuota (QIR) untuk kuota pemroses default, ikuti langkah-langkah di Mengelola kuota Anda.

Menentukan versi pemisah kustom

Saat menggunakan pemisah kustom, latih data Anda sendiri atau gunakan versi terlatih dengan AI generatif, seperti pretrained-splitter-v1.5-2025-07-14.

Proses pelatihan dapat memerlukan waktu beberapa jam, tetapi memungkinkan Anda menyesuaikan model dengan spesifikasi data Anda. Versi yang telah dilatih sebelumnya didasarkan pada model Gemini. Model ini dapat diluncurkan ke produksi dalam waktu yang lebih singkat atau digunakan untuk melakukan iterasi dan menguji skema pemberian label dengan cepat. Model ini tidak memerlukan set data pelatihan.

Panduan berikut berlaku untuk kedua versi, dan akan menjelaskan langkah-langkah yang berbeda untuk setiap versi jika ada perbedaan.

Membuat pemisah kustom di konsol Google Cloud

Panduan memulai ini menjelaskan cara menggunakan Document AI untuk membuat dan melatih pemisah kustom yang memisahkan dan mengklasifikasikan dokumen pengadaan. Sebagian besar persiapan dokumen telah dilakukan, sehingga Anda dapat fokus membuat pemisah kustom.

Alur kerja umum untuk membuat dan menggunakan versi dasar terlatih pemisah kustom adalah sebagai berikut:

  1. Buat pemisah kustom di Document AI.
  2. Buat set data menggunakan bucket Cloud Storage kosong.
  3. Menentukan dan membuat skema pemroses (kelas).
  4. Mengimpor dokumen.
  5. Tetapkan dokumen ke set pelatihan dan pengujian.
  6. Menganotasi dokumen secara manual di Document AI atau dengan tugas pelabelan.
  7. Latih pemroses.
  8. Evaluasi pemroses.
  9. Deploy pemroses.
  10. Uji pemroses.
  11. Gunakan pemroses pada dokumen Anda.

Alur kerja umum untuk membuat dan menggunakan versi terlatih sebelumnya dari pemisah kustom adalah sebagai berikut:

  1. Membuat pemisah kustom di Document AI.
  2. Buat set data menggunakan bucket Cloud Storage kosong.
  3. Memilih versi model terlatih
  4. Menentukan dan membuat skema pemroses (kelas).
  5. (Opsional) Impor dokumen.
  6. (Opsional jika Anda ingin mengevaluasi performanya) Tetapkan dokumen ke set pengujian
  7. (Opsional) Evaluasi pemroses.
  8. Uji pemroses.
  9. Deploy pemroses.
  10. Gunakan pemroses pada dokumen Anda.

Untuk mengikuti panduan langkah demi langkah untuk tugas ini langsung di Google Cloud konsol, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Membuat pemroses

    1. Di konsol Google Cloud , di bagian Document AI, buka halaman Workbench.

      Workbench

    2. Untuk Custom Document Splitter, pilih Create processor. custom-splitter-1

    3. Di menu Buat pemroses, masukkan nama untuk pemroses Anda, misalnya my-custom-document-splitter.

      custom-splitter-2

    4. Pilih wilayah yang paling dekat dengan Anda.

    5. Pilih Create. Tab Processor Details akan muncul.

    Mengonfigurasi set data

    Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi dokumen yang ingin Anda pisahkan dan klasifikasikan.

    Set data ini memerlukan lokasi baru. Ini dapat berupa bucket Cloud Storage atau folder yang kosong, atau Anda dapat mengizinkan lokasi Dikelola Google (internal).

    • Jika Anda menginginkan penyimpanan yang dikelola Google, pilih opsi tersebut.
    • Jika Anda ingin menggunakan penyimpanan Anda sendiri untuk menggunakan Kunci Enkripsi yang Dikelola Pelanggan (CMEK), pilih Saya akan menentukan lokasi penyimpanan saya sendiri dan ikuti prosedur selanjutnya.

    custom-splitter-3

    Buat bucket Cloud Storage untuk set data

    1. Buka tab Latih prosesor Anda.

    2. Pilih Setel lokasi set data. Anda akan diminta untuk memilih atau membuat bucket atau folder Cloud Storage yang kosong.

      custom-splitter-4

    3. Pilih Jelajahi untuk membuka Pilih folder.

    4. Pilih ikon Buat bucket baru dan ikuti perintah untuk membuat bucket baru. Setelah Anda membuat bucket, halaman Pilih folder akan muncul untuk bucket tersebut. Untuk mengetahui informasi selengkapnya tentang cara membuat bucket Cloud Storage, lihat Bucket Cloud Storage.

    5. Di halaman Pilih folder untuk bucket Anda, pilih tombol Pilih di bagian bawah dialog.

      custom-splitter-5

    Pastikan jalur tujuan diisi dengan nama bucket yang Anda pilih. Pilih Create dataset. Pembuatan set data mungkin memerlukan waktu hingga beberapa menit.

    (Opsional) Pilih versi model terlatih

    Jika Anda telah memutuskan untuk menggunakan model terlatih, Anda harus memilihnya terlebih dahulu di bagian Deploy and use. Anda dapat mengabaikan bagian setelah bagian berikutnya, "Tentukan skema pemroses".

    1. Buka Deploy and use

      custom-splitter-15

    2. Klik drop-down Kelola versi.

    3. Pilih versi pemroses yang dipilih.

    Menentukan skema pemroses

    Anda dapat membuat skema pemroses sebelum atau setelah mengimpor dokumen ke dalam set data. Skema ini menyediakan label yang Anda gunakan untuk menganotasi dokumen.

    1. Di tab Build, pilih Kelola set data. Halaman kelola set data akan terbuka.

    2. Pilih Edit Skema.

    3. Pilih Buat label dan masukkan nama untuk label. Pilih Buat. Baca dokumentasi tentang cara Menentukan skema pemroses untuk petunjuk mendetail tentang cara membuat dan mengedit skema.

    4. Buat semua label berikut untuk skema pemroses.

      • bank_statement
      • form_1040
      • form_w2
      • form_w9
      • paystub
    5. Pilih Simpan setelah label selesai.

      custom-splitter-6

    Mengimpor dokumen yang tidak berlabel ke dalam set data

    Langkah berikutnya adalah mulai mengimpor dokumen tanpa label ke dalam set data dan memberinya label. Alternatif yang direkomendasikan adalah mengimpor dokumen yang disusun dalam folder menurut kelas, jika tersedia.

    Jika yang dikerjakan adalah project Anda sendiri, Anda menentukan cara memberi label pada data Anda. Lihat Opsi pelabelan.

    Prosesor kustom Document AI memerlukan minimal 10 dokumen dalam set pelatihan dan pengujian, bersama dengan 10 instance dari setiap label di setiap set. Sebaiknya tambahkan minimal 50 dokumen di setiap set, dengan 50 instance dari setiap label untuk mendapatkan performa terbaik. Secara umum, makin banyak data pelatihan yang ada, makin tinggi akurasi yang dihasilkan.

    1. Di tab Train, pilih Import documents.

      custom-splitter-7

    2. Untuk contoh ini, masukkan jalur ini di Source path. Bucket ini berisi satu PDF dokumen.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
      
    3. Tetapkan Label dokumen sebagai Tidak ada.

    4. Tetapkan dropdown Dataset split ke Unassigned.

      Dokumen dalam folder ini tidak diberi label atau ditetapkan ke set pengujian atau pelatihan secara default.

    5. Pilih Impor. Document AI membaca dokumen dari bucket ke dalam set data. Bucket impor tidak diubah atau dibaca dari bucket setelah impor selesai.

    Saat mengimpor dokumen, Anda dapat menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.

    Jika Anda ingin menghapus dokumen yang telah diimpor, pilih dokumen tersebut di tab Latih, lalu pilih Hapus.

    Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.

    Opsional: Melabeli dokumen secara berkelompok saat diimpor

    Anda dapat memberi label pada semua dokumen yang ada di direktori tertentu saat mengimpor untuk menghemat waktu dalam memberi label. Jika dokumen pelatihan Anda disusun berdasarkan kelas dalam folder, Anda dapat menggunakan kolom Label dokumen untuk menentukan kelas dokumen tersebut dan menghindari pemberian label manual pada setiap dokumen.

    custom-splitter-8

    Pada gambar, Bank_statements dan Invoice adalah label yang ditentukan yang tersedia (kelas dokumen) yang dapat Anda pilih. Atau, Anda dapat menggunakan CREATE LABEL dan menentukan class baru.

    1. Klik Impor dokumen.
    2. Masukkan jalur berikut di Source path. Bucket ini berisi dokumen tanpa label dalam format PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel

    3. Dari daftar Data split, pilih Auto-split. Dokumen akan otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian.

    4. Di bagian Terapkan label, pilih Pilih label.

    5. Untuk contoh dokumen ini, pilih lainnya.

    6. Klik Import dan tunggu hingga dokumen selesai diimpor. Anda dapat keluar dari halaman ini dan kembali lagi nanti.

    Memberi label dokumen

    Proses penerapan label ke dokumen dikenal sebagai anotasi.

    1. Kembali ke tab Train, lalu pilih dokumen untuk membuka konsol Label management.

    2. Dokumen ini berisi beberapa grup halaman yang perlu diidentifikasi dan diberi label. Pertama, Anda perlu mengidentifikasi titik pemisahan. Gerakkan kursor di antara halaman 1 dan 2 dalam tampilan gambar, lalu pilih simbol +.

      custom-splitter-9

    3. Buat titik pemisahan sebelum nomor halaman berikut: 2, 3, 4, 5.

      Konsol Anda akan terlihat seperti ini setelah selesai. custom-splitter-10

    4. Di Document type dropdown, pilih label yang sesuai untuk setiap grup halaman.

      Halaman Jenis dokumen
      1 paystub
      2 form_w9
      3 bank_statement
      4 form_w2
      5 & 6 form_1040

      Dokumen berlabel akan terlihat seperti ini setelah selesai: custom-splitter-11

    5. Pilih Tandai sebagai Berlabel setelah Anda selesai membuat anotasi pada dokumen.

      Di tab Train, panel sebelah kiri menunjukkan bahwa 1 dokumen telah diberi label.

    Menetapkan dokumen yang dianotasi ke set pelatihan

    Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.

    1. Di tab Latih, pilih kotak centang Pilih Semua.

    2. Dari daftar Tetapkan ke Set, pilih Training.

    Di panel sebelah kiri, Anda dapat melihat bahwa 1 dokumen telah ditetapkan ke set pelatihan.

    Mengimpor data dengan pelabelan batch

    Selanjutnya, Anda mengimpor file PDF tak berlabel yang diurutkan ke dalam berbagai folder Cloud Storage menurut jenisnya. Pelabelan batch membantu menghemat waktu dalam pelabelan dengan menetapkan label pada waktu impor berdasarkan jalur.

    1. Di tab Train, pilih Import documents.

    2. Masukkan jalur berikut di Source path. Folder ini berisi PDF laporan mutasi bank.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
      
    3. Tetapkan Label dokumen sebagai bank_statement.

    4. Di menu Dataset split , setel ke Auto-split. Dokumen akan otomatis terbagi menjadi 80% dalam set pelatihan dan 20% dalam set pengujian.

    5. Pilih Tambahkan Folder Lain untuk menambahkan folder lainnya.

    6. Ulangi langkah-langkah sebelumnya dengan jalur dan label dokumen berikut:

      Jalur bucket Label dokumen
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040 form_1040
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2 form_w2
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9 form_w9
      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub paystub

      Konsol akan terlihat seperti ini setelah selesai: custom-splitter-12

    7. Pilih Impor. Proses impor memerlukan waktu beberapa menit.

    Setelah impor selesai, temukan dokumen di tab Train.

    Mengimpor data yang telah diberi label

    Dalam panduan ini, Anda akan disediakan data yang telah diberi label sebelumnya dalam format Document sebagai file JSON.

    Format ini sama dengan yang dihasilkan Document AI saat memproses dokumen, memberi label dengan Human-in-the-Loop, atau mengekspor set data.

    1. Di tab Train, pilih Import documents.

    2. Masukkan jalur berikut di Source path.

      cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
      
    3. Tetapkan Label dokumen sebagai Tidak ada.

    4. Setel dropdown Dataset split ke Auto-split.

    5. Pilih Impor.

    Setelah impor selesai, temukan dokumen di tab Train.

    Melatih pemroses

    Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih pemroses. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.

    1. Pilih Train New Version.

    2. Di kolom Version name, masukkan nama untuk versi pemroses ini, misalnya my-cds-version-1.

    3. (Opsional) Pilih Lihat Statistik Label untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.

      custom-splitter-13

    4. Pilih Mulai pelatihan Anda dapat memeriksa status di panel sebelah kanan.

    Men-deploy versi pemroses

    1. Setelah pelatihan selesai, buka tab Kelola Versi. Anda dapat melihat detail tentang versi yang baru saja Anda latih.

    2. Pilih tiga titik vertikal di sebelah kanan versi yang ingin Anda deploy, lalu pilih Deploy version.

    3. Pilih Deploy dari jendela pop-up.

      Proses deployment memerlukan waktu beberapa menit hingga selesai.

    Mengevaluasi dan menguji pemroses

    1. Setelah deployment selesai, buka tab Evaluate & Test.

      Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi prosesor.

    2. Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.

      Download PDF

    3. Pilih Upload Test Document, lalu pilih dokumen yang baru saja Anda download.

      Halaman Analisis pemisah kustom akan terbuka. Output layar menunjukkan seberapa baik dokumen dibagi dan diklasifikasikan.

      Konsol akan terlihat seperti ini setelah selesai: custom-splitter-14

      Anda juga dapat menjalankan kembali evaluasi terhadap set pengujian atau versi prosesor yang berbeda.

    (Opsional) Mengimpor data dengan pelabelan otomatis

    Setelah menerapkan versi prosesor terlatih, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan saat mengimpor dokumen baru.

    1. Di tab Train, pilih Import documents.

    2. Masukkan jalur berikut di Source path. Folder ini berisi PDF tanpa label dari beberapa jenis dokumen.

      cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
      
    3. Tetapkan Label dokumen sebagai Pemberian label otomatis.

    4. Setel dropdown Dataset split ke Auto-split.

    5. Di bagian Auto-labeling, tetapkan Version sebagai versi yang sebelumnya Anda latih.

      • Contoh: 2af620b2fd4d1fcf
    6. Pilih Impor dan tunggu hingga dokumen selesai diimpor.

    7. Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian Berlabel otomatis untuk melihat dokumen berlabel otomatis.

    8. Pilih dokumen pertama untuk masuk ke konsol pelabelan.

    9. Verifikasi label untuk memastikan label sudah benar, dan sesuaikan jika tidak.

    10. Pilih Tandai sebagai Berlabel setelah selesai.

    11. Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis.

    12. Kembali ke halaman Train, lalu pilih Train New Version untuk menggunakan data tersebut dalam pelatihan.

    Menggunakan pemroses

    Anda telah berhasil membuat dan melatih pemroses pemisah kustom.

    Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

    Setelah di-deploy, Anda dapat Mengirim permintaan pemrosesan ke pemroses kustom, dan respons dapat ditangani sama seperti pemroses pemisah lainnya.

    Pembersihan

    Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

    Untuk menghindari tagihan Google Cloud yang tidak perlu, gunakan Google Cloud console untuk menghapus prosesor dan project Anda jika tidak lagi diperlukan.

    Jika Anda membuat project baru untuk mempelajari Document AI dan Anda tidak lagi memerlukan project tersebut, hapus project tersebut.

    Jika Anda menggunakan project Google Cloud yang sudah ada, hapus resource yang Anda buat untuk menghindari tagihan pada akun Anda:

    1. Di Google Cloud menu navigasi konsol, pilih Document AI, lalu pilih My Processors.

    2. Pilih Tindakan lainnya di baris yang sama dengan prosesor yang ingin Anda hapus.

    3. Pilih Hapus prosesor, ketik nama prosesor, lalu pilih Hapus lagi untuk mengonfirmasi.

    Langkah berikutnya