Deteksi kolom turunan dan tanda tangan
Fitur kolom turunan pratinjau publik memungkinkan pelanggan Document AI mengonfigurasi kolom yang akan diisi melalui inferensi atau pembuatan cerdas berdasarkan konteks dokumen, bukan ekstraksi teks langsung.
Rilis ini juga menambahkan fitur lain untuk mendeteksi keberadaan tanda tangan dalam dokumen. Anda dapat menggunakan jenis entity signature baru untuk menentukan skema bagi entity tersebut. Entity tanda tangan diturunkan menggunakan petunjuk visual dari dokumen.
Kolom turunan di ekstraktor kustom
Ekstraktor kustom mendukung kolom turunan dalam model berikut:
pretrained-foundation-model-v1.4-2025-02-05sebagai Ketersediaan Umum (GA)pretrained-foundation-model-v1.5-2025-05-05sebagai Pratinjaupretrained-foundation-model-v1.5-pro-2025-06-20sebagai Pratinjau
Anda dapat mengaktifkan fitur ini di UI konsol saat membuat atau mengedit label dalam skema dokumen.
Kolom Turunan adalah fitur canggih yang memungkinkan Anda mengekstrak informasi yang tidak ditulis secara eksplisit dalam dokumen. Fitur ini memungkinkan Anda mengonfigurasi kolom yang akan diisi melalui inferensi atau pembuatan cerdas berdasarkan konteks keseluruhan dokumen. Fitur ini lebih dari sekadar ekstraksi teks dasar dan mendukung kasus penggunaan lanjutan, seperti:
- Menyimpulkan negara dari alamat.
- Menghitung jumlah total item dalam tabel.
- Mendeteksi apakah kartu ID adalah "ID Asli".
Contoh pembuatan skema
Berikut adalah contoh pembuatan skema untuk kolom turunan untuk kasus penggunaan tersebut dan output yang diharapkan, menggunakan surat izin mengemudi AS.
Pilih metode
Derivedsaat membuat elemen skema.
Tambahkan label deskriptif untuk meningkatkan performa.

Kolom turunan seperti tanda tangan tidak memerlukan penetapan kotak pembatas saat memberi label pada dokumen. Untuk Value, pilih Detected.

Untuk kolom turunan selain tanda tangan, Anda dapat memasukkan Value apa pun sebagai bagian dari pemberian label untuk menentukan kemungkinan output.

Output yang diharapkan akan terlihat mirip dengan ini, dengan keberadaan tanda tangan yang ditampilkan sebagai "Detected" atau "", dan kolom turunan yang ditampilkan sebagai teks seperti yang diminta oleh deskripsi label.

Ringkasan ekstraksi versus turunan
Saat menentukan entity dalam skema pemroses, Anda dapat memilih metode untuk cara nilai entity diisi.
Ekstraksi: Ini adalah metode default. Metode ini berfungsi saat nilai entity harus diekstrak langsung dari teks dokumen. Sistem mengidentifikasi teks dan mengisi kolom seperti
textAnchordanpageAnchoruntuk menampilkan lokasinya.Turunan: Metode ini digunakan saat nilai entity perlu disimpulkan dari konten dokumen. Karena nilai tidak ada langsung dalam teks, kolom
textAnchordanpageAnchortidak diisi.
Contoh kasus penggunaan: menemukan kode mata uang
Bayangkan Anda perlu mengidentifikasi kode mata uang (misalnya, USD, CAD, EUR) untuk transaksi dalam dokumen.
Kapan harus menggunakan
Extract: Jika dokumen secara konsisten berisi simbol atau kode mata uang yang tidak ambigu seperti "USD" atau "€", gunakan metodeExtractuntuk menemukan dan mengekstrak teks yang tepat.Kapan harus menggunakan
Derived: Jika dokumen menggunakan simbol yang ambigu seperti "$" (yang dapat merujuk ke USD, CAD, AUD, dll.) atau tidak memiliki simbol sama sekali, gunakan metodeDerived. Model menganalisis konteks dokumen—seperti alamat penagihan atau lokasi perusahaan—untuk menyimpulkan kode mata uang ISO 4217 yang benar.
Contoh kasus penggunaan: petunjuk normalisasi kustom
Bayangkan Anda perlu mengekstrak informasi dari dokumen dalam format yang berbeda dengan bagian dokumen lainnya. Sebagian besar kasus penggunaan seharusnya sudah di tangani oleh logika normalisasi. Untuk kasus ekstrem yang tidak tercakup, entity ini dapat ditampilkan dalam format output kustom yang Anda tentukan menggunakan kolom turunan. Misalnya, Anda dapat menghapus tanda hubung dari angka menggunakan perintah: Return the number without all non-numeric characters.

Demikian pula, tanggal faktur dapat dinormalisasi menggunakan kolom turunan dengan deskripsi: Return the invoice date in yyyy-mm-dd (ISO 8601) format. Format tanggal dalam faktur akan menggunakan format tanggal lokal. Gunakan negara asal faktur untuk mendapatkan format tanggal lokal.
Praktik terbaik konfigurasi
Untuk mendapatkan hasil terbaik dengan kolom turunan, sebaiknya tulis
description yang jelas dan instruksional untuk properti dalam skema Anda
selama pemberian label. Hal ini membantu memandu model dalam tugas turunannya.
Dalam contoh kode mata uang, Anda dapat membuat kolom dengan nama currency_code dan memberikan deskripsi berikut: "Find the ISO 4217 currency code of the amount values in the document, using contextual signals present in the document, like currency symbols and addresses."
Batasan
Kolom turunan dibuat per halaman. Artinya, kasus penggunaan yang memerlukan informasi dari beberapa halaman tidak sepenuhnya didukung. Misalnya, jika Anda mengonfigurasi kolom turunan untuk meringkas dokumen, kolom tersebut akan membuat ringkasan terpisah untuk setiap halaman, bukan satu ringkasan yang kohesif untuk seluruh dokumen. Batasan ini berlaku untuk kolom apa pun yang nilainya harus diturunkan menggunakan informasi lintas halaman.
Deteksi tanda tangan di ekstraktor kustom
Ekstraktor kustom Document AI mendukung deteksi tanda tangan dalam model ekstraktor kustom pretrained-foundation-model-v1.4-2025-02-05 dan pretrained-foundation-model-v1.5-2025-05-05. Anda dapat mengaktifkan fitur ini di UI konsol saat membuat atau mengedit label dalam skema dokumen.
Deteksi tanda tangan adalah fitur yang memungkinkan Anda menentukan apakah tanda tangan ada dalam dokumen. Fitur ini memverifikasi keberadaan tanda tangan dengan menganalisis petunjuk visual, bukan mengekstrak teks.
Cara kerja deteksi tanda tangan
Untuk mengaktifkan fungsi ini, jenis data signature tersedia saat menentukan skema pemroses. Perilaku pemroses bergantung pada apakah tanda tangan terdeteksi dalam dokumen.
Jika tanda tangan ditemukan, ekstraktor akan menampilkan entity tanda tangan dalam responsnya.
Untuk kolom bernama has_signed, objek respons memiliki struktur berikut:
"has_signed": {
"mention_text": "Detected",
"confidence": <confidence_score_between 0 to 1>,
"normalized_value": {
"text": "Detected",
"signature_value": true
}
}
Jika tanda tangan tidak ditemukan, entity tidak akan ditampilkan dalam respons pemroses.
Mengonfigurasi dan menyiapkan persyaratan utama
Untuk menyiapkan deteksi tanda tangan:
- Tentukan skema: Dalam skema pemroses, tambahkan entity baru untuk tanda tangan yang ingin Anda deteksi.
- Tetapkan jenis data: Pilih Tanda Tangan sebagai jenis data untuk entity baru ini.
- Tetapkan metode ke turunan: Entity dengan jenis data
signaturehanya dapat menggunakan metodeDerived. Karena model menyimpulkan keberadaan tanda tangan secara visual, model tidak mengekstrak nilai teks. Oleh karena itu, kolom sepertitextAnchordanpageAnchortidak diisi untuk entity tanda tangan.
Contoh kasus penggunaan
Bayangkan Anda memproses kontrak dan perlu memverifikasi bahwa kontrak tersebut telah ditandatangani.
Anda dapat membuat kolom skema bernama is_contract_signed dan menetapkan jenis datanya ke signature. Saat Anda memproses kontrak yang ditandatangani, respons akan menyertakan entity is_contract_signed, yang mengonfirmasi keberadaan tanda tangan. Jika tidak ada tanda tangan, entity ini tidak ada dalam respons. Hal ini memungkinkan Anda menandai dokumen yang tidak ditandatangani dengan cepat untuk ditinjau.
Langkah berikutnya
Pelajari cara melatih pemroses khusus.