Membuat, menggunakan, dan mengelola pengklasifikasi dokumen kustom

Gunakan pengklasifikasi kustom untuk mengklasifikasikan dokumen. Bangun dari awal dengan dokumen Anda sendiri dan kelas kustom. Aspek AI generatifnya memungkinkan pembelajaran multi-shot dan penyesuaian. Hal ini meningkatkan akurasi dengan lebih sedikit sampel dan koreksi dengan pelabelan otomatis iteratif.

Pengklasifikasi kustom mencakup tiga kasus penggunaan umum ini.

  • Model terlatih: Gunakan model dasar AI generatif terlatih untuk mengklasifikasikan dokumen dengan cepat menggunakan label yang Anda berikan.
  • Fine-tuning: Tingkatkan akurasi dengan melatih model dasar AI generatif menggunakan data dan label Anda sendiri.
  • Melatih model kustom: Latih pengekstrak kustom AI non-generatif menggunakan data dan label Anda sendiri.

Versi model pengklasifikasi kustom

Skor keyakinan didukung untuk model pengklasifikasi kustom dalam Pratinjau. Untuk performa terbaik, gunakan dengan model yang telah disesuaikan.

Versi model Deskripsi Saluran rilis Pemrosesan ML di AS/Uni Eropa Penyesuaian di Amerika Serikat/Uni Eropa Tanggal rilis
pretrained-foundation-model-v1.4-2025-05-16 Kandidat rilis yang didukung oleh LLM Gemini 2.0 Flash. Juga mencakup fitur OCR lanjutan. Kandidat Rilis Ya Amerika Serikat, Uni Eropa (Pratinjau) 16 Mei 2025
pretrained-classifier-v1.5-2025-08-05 Model siap produksi yang didukung oleh LLM Gemini 2.5 Flash. Juga mencakup fitur OCR lanjutan. Model terlatih ini dapat digunakan tanpa pelatihan sebelumnya. Model ini mendukung klasifikasi zero-shot dan memberikan dukungan yang lebih baik untuk class catch-all. Stabil Ya Amerika Serikat, Uni Eropa (Pratinjau) 5 Agustus 2025

Membuat pengklasifikasi kustom di konsol Google Cloud

Anda dapat membuat pengklasifikasi kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi kelas dokumen dari serangkaian kelas yang ditentukan pengguna. Selanjutnya, Anda dapat menggunakan pemroses terlatih ini pada dokumen lain. Biasanya, Anda akan menggunakan pengklasifikasi kustom pada dokumen yang memiliki jenis berbeda, lalu menggunakan identifikasi untuk meneruskan dokumen ke pemroses ekstraksi guna mengekstrak entity.

Untuk proses umum dalam membuat dan menggunakan prosesor, lihat bagian Cara.

Anda dapat membuat pilihan konfigurasi sendiri yang sesuai dengan alur kerja Anda.


Untuk mengikuti panduan langkah demi langkah untuk tugas ini langsung di Google Cloud konsol, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk membuat pengklasifikasi kustom, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Membuat pemroses

Selesaikan langkah-langkah berikut.

  1. Buka Workbench

  2. Untuk pengklasifikasi dokumen kustom, pilih Buat prosesor.

    custom-classifier-1

  3. Di menu Buat pemroses, masukkan nama untuk pemroses Anda, misalnya my-custom-document-classifier.

    custom-classifier-2

  4. Pilih wilayah yang terdekat dengan Anda.

  5. Pilih Create. Tab Processor Details akan muncul.

Mengonfigurasi set data

Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi dokumen yang ingin Anda pisahkan dan klasifikasikan. Set data ini memerlukan lokasi baru. Ini dapat berupa bucket Cloud Storage atau folder yang kosong, atau Anda dapat mengizinkan lokasi yang dikelola secara internal.

Setelah tab Detail Pemroses muncul, Anda dapat:

  1. Pilih Penyimpanan yang dikelola Google jika Anda ingin menggunakan Cloud Storage.
  2. Pilih Saya akan menentukan lokasi penyimpanan saya sendiri jika Anda ingin menggunakan penyimpanan Anda sendiri untuk menggunakan Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan ikuti prosedur di Membuat set data.

custom-classifier-3

Mengimpor dokumen ke dalam set data

Selanjutnya, Anda mengimpor dokumen ke dalam set data.

  1. Di tab Build, pilih Import documents.

    custom-classifier-6

  2. Saat memilih untuk menggunakan bucket penyimpanan, Anda harus memasukkan Jalur Sumber untuk bucket tersebut. Untuk contoh pelatihan ini, masukkan nama bucket ini di Source path. Link ini mengarah langsung ke satu dokumen.

    cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
    
  3. Untuk Pemisahan data, pilih Tidak ditetapkan. Dokumen dalam folder ini tidak ditetapkan ke set pengujian atau pelatihan. Biarkan Import with auto-labeling tidak dicentang.

  4. Pilih Impor Document AI membaca dokumen dari bucket ke dalam set data. Tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.

  5. Opsional: Untuk menghapus dokumen yang diimpor, di tab Build, buka Manage dataset > pilih dokumen > klik Delete.

Saat mengimpor dokumen, Anda dapat secara opsional menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.

Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.

Menentukan skema pemroses

Anda dapat membuat skema pemroses sebelum atau setelah mengimpor dokumen ke dalam set data. Skema ini menyediakan label yang Anda gunakan untuk menganotasi dokumen.

  1. Di tab Build, pilih Manage Dataset > Edit Schema. Halaman Edit skema akan terbuka.

  2. Pilih Buat label.

  3. Masukkan nama untuk label.

  4. Pilih Create. Baca dokumentasi tentang cara Menentukan skema pemroses untuk petunjuk mendetail tentang cara membuat dan mengedit skema.

  5. Buat semua label berikut untuk skema pemroses.

    • computer_vision
    • crypto
    • med_tech
    • other
  6. Pilih Simpan setelah label selesai.

    custom-classifier-7

Memberi label dokumen

Proses memilih teks dalam dokumen dan menerapkan label disebut sebagai anotasi.

  1. Kembali ke tab Build, lalu pilih dokumen untuk membuka konsol Manage Dataset.

  2. Di antara opsi, pilih label yang sesuai untuk dokumen. Jika Anda menggunakan dokumen contoh yang disediakan, pilih computer_vision.

    Setelah diberi label, dokumen akan terlihat seperti ini: custom-classifier-8

  3. Pilih Tandai sebagai Berlabel setelah Anda selesai membuat anotasi pada dokumen.

    Di tab Manage Dataset, panel Document menunjukkan bahwa satu dokumen telah diberi label.

Menetapkan dokumen yang dianotasi ke set pelatihan

Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.

  1. Di tab Kelola Set Data, centang kotak Pilih Semua.

  2. Dari daftar Tetapkan ke Set, pilih Training.

Di panel Dokumen, Anda dapat menemukan bahwa satu dokumen telah ditetapkan ke set pelatihan.

(Opsional) Mengimpor data yang telah diberi label ke set pelatihan dan pengujian

Jika menggunakan v1.4, Anda harus mengupload set pelatihan dan pengujian untuk melatih prosesor kustom. Anda dapat melewati langkah ini saat menggunakan v1.5.

Dalam panduan ini, Anda akan disediakan data yang telah diberi label. Jika yang dikerjakan adalah project Anda sendiri, Anda harus menentukan cara memberi label pada data Anda. Lihat Opsi pelabelan.

Prosesor kustom Document AI memerlukan minimal satu dokumen dalam set pelatihan dan pengujian untuk setiap jenis dokumen yang akan diberi label. Sebaiknya Anda memiliki minimal 10 dokumen untuk setiap label agar mendapatkan performa terbaik. Untuk 5 label, Anda memerlukan 50 dokumen untuk pelatihan dan 50 dokumen untuk pengujian. Makin banyak data pelatihan, biasanya makin tinggi akurasinya.

  1. Pilih Impor dokumen.

  2. Masukkan jalur berikut di Source path. Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format Document JSON.

    cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
    
  3. Dari daftar Data split, pilih Auto-split. Dokumen akan otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian. Abaikan bagian Terapkan label.

  4. Pilih Impor Proses impor mungkin memerlukan waktu beberapa menit.

Setelah impor selesai, Anda akan menemukan dokumen di tab Kelola Set Data.

Memberi label pada dokumen dalam batch saat mengimpor

Secara opsional, setelah skema dikonfigurasi, Anda dapat memberi label pada semua dokumen yang ada di direktori tertentu saat mengimpor untuk menghemat waktu pelabelan.

custom-classifier-9

  1. Pilih Impor dokumen.

  2. Masukkan jalur berikut di Source path. Bucket ini berisi dokumen tanpa label dalam format PDF.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
    
  3. Dari daftar Data split, pilih Auto-split. Dokumen akan otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian.

  4. Di bagian Terapkan label, pilih Pilih label.

  5. Untuk dokumen contoh ini, pilih other.

  6. Pilih Impor dan tunggu hingga proses selesai. Anda dapat keluar dari halaman ini dan kembali lagi nanti. Setelah selesai, Anda akan menemukan dokumen di tab Manage Dataset dengan label yang diterapkan.

(Opsional) Melatih pemroses

Jika menggunakan v1.4, Anda harus melatih pemroses kustom pada set data pelatihan dan pengujian. Anda dapat melewati langkah ini saat menggunakan v1.5.

Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih pemroses. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.

Anda dapat melatih model kustom dan yang disesuaikan dengan data berlabel Anda. Model yang di-tuning secara halus menggunakan AI generatif. Model kustom melatih Model bahasa besar (LLM) unik menggunakan data berlabel Anda. Anda memerlukan minimal dua label dalam skema, dengan rekomendasi sepuluh dokumen pelatihan dan 10 dokumen pengujian (minimal 1).

  1. Pilih Train New Version.
custom-classifier-10
  1. Di kolom Version name, masukkan nama untuk versi pemroses ini, misalnya my-cdc-version-1.

  2. Opsional: Pilih Lihat Statistik Label untuk menemukan informasi tentang label dokumen yang dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.

  3. Pilih Mulai pelatihan. Anda dapat memeriksa statusnya di panel samping.

Men-deploy versi pemroses

  1. Setelah pelatihan selesai, buka tab Kelola Versi. Anda dapat melihat detail tentang versi yang baru saja Anda latih.

  2. Pilih di samping versi yang ingin Anda deploy, lalu pilih Deploy versi.

  3. Pilih Deploy dari jendela dialog.

    Deployment memerlukan waktu beberapa menit hingga selesai.

Mengevaluasi dan menguji pemroses

  1. Setelah deployment selesai, buka tab Evaluate & Test.

    Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi prosesor.

  2. Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan kumpulan dokumen yang disediakan untuk tujuan ini.

    Download PDF

  3. Pilih Upload Test Document , lalu pilih dokumen yang baru saja Anda download.

    Halaman Analisis Pengklasifikasi Dokumen Kustom akan terbuka. Output menunjukkan seberapa baik dokumen diklasifikasikan.

    Anda juga dapat menjalankan kembali evaluasi terhadap set pengujian atau versi prosesor yang berbeda.

Otomatis melabeli dokumen yang baru diimpor

Setelah menerapkan versi prosesor terlatih, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan saat mengimpor dokumen baru.

  1. Di halaman Kelola Set Data, Impor dokumen.

  2. Salin dan tempel jalur Cloud Storage berikut. Direktori ini berisi lima PDF paten tanpa label. Dari daftar drop-down Data split, pilih Training.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
    
  3. Di bagian Terapkan label, pilih Pemberian label otomatis.

  4. Pilih versi prosesor yang ada untuk melabeli dokumen.

    • Contoh: 2af620b2fd4d1fcf
  5. Pilih Impor dan tunggu hingga proses selesai. Anda dapat keluar dari halaman ini dan kembali lagi nanti. Setelah selesai, dokumen akan muncul di bagian Auto-labeled di halaman Manage Dataset.

  6. Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian Berlabel otomatis untuk melihat dokumen berlabel otomatis.

  7. Pilih dokumen pertama untuk masuk ke konsol pelabelan.

  8. Verifikasi label untuk memastikan keakuratannya. Sesuaikan jika salah.

  9. Pilih Tandai sebagai Berlabel setelah selesai.

  10. Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis, lalu kembali ke halaman Kelola Set Data untuk menetapkan data untuk pelatihan.

Menggunakan pemroses

Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

Anda juga dapat Mengirim permintaan pemrosesan ke pemroses kustom, dan respons dapat ditangani sama seperti pemroses pengklasifikasi lainnya.

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. Di menu navigasi konsol Google Cloud , pilih Document AI, lalu My Processors.

  2. Pilih Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.

  3. Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.

Langkah berikutnya