Halaman ini menunjukkan cara memulai Library Klien Cloud untuk Document AI Toolbox API. Library klien mempermudah akses Google Cloud API dari bahasa yang didukung. Meskipun Anda dapat menggunakanGoogle Cloud API secara langsung dengan membuat permintaan mentah ke server, library klien memberikan penyederhanaan yang secara signifikan mengurangi jumlah kode yang perlu ditulis.
Baca lebih lanjut Library Klien Cloud dan Library Klien Google API versi lama di Penjelasan library klien.
Menginstal library klien
Python
pip install --upgrade google-cloud-documentai-toolbox
Untuk informasi selengkapnya, lihat Menyiapkan Lingkungan Pengembangan Python.
Menyiapkan autentikasi
Untuk mengautentikasi panggilan ke Google Cloud API, library klien mendukung Kredensial Default Aplikasi (ADC). Library ini mencari kredensial dalam kumpulan lokasi yang ditentukan dan menggunakan kredensial tersebut untuk mengautentikasi permintaan ke API. Dengan ADC, Anda dapat menyediakan kredensial untuk aplikasi di berbagai lingkungan, seperti produksi atau pengembangan lokal, tanpa perlu mengubah kode aplikasi.Untuk lingkungan produksi, cara menyiapkan ADC bergantung pada layanan dan konteksnya. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan Kredensial Default Aplikasi.
Untuk lingkungan pengembangan lokal, Anda dapat menyiapkan ADC dengan kredensial yang terkait dengan Akun Google Anda:
-
Instal Google Cloud CLI. Setelah penginstalan, inisialisasi Google Cloud CLI dengan menjalankan perintah berikut:
gcloud initJika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus terlebih dahulu login ke gcloud CLI dengan identitas gabungan Anda.
-
Jika Anda menggunakan shell lokal, buat kredensial autentikasi lokal untuk akun pengguna Anda:
gcloud auth application-default login
Anda tidak perlu melakukan hal ini jika menggunakan Cloud Shell.
Jika error autentikasi ditampilkan, dan Anda menggunakan penyedia identitas (IdP) eksternal, pastikan Anda telah login ke gcloud CLI dengan identitas gabungan Anda.
Layar login akan muncul. Setelah Anda login, kredensial Anda akan disimpan dalam file kredensial lokal yang digunakan oleh ADC.
Menggunakan library klien
Document AI Toolbox adalah SDK untuk Python yang menyediakan fungsi utilitas
untuk mengelola, memanipulasi, dan mengekstrak informasi dari respons dokumen.
SDK ini membuat objek dokumen "tergabung" dari respons dokumen yang diproses dari file JSON di
Cloud Storage, file JSON lokal, atau output langsung dari process_document()
metode.
SDK ini dapat melakukan tindakan berikut:
- Menggabungkan file JSON
Documentyang terfragmentasi dari Pemrosesan Batch menjadi satu dokumen "tergabung". - Mengekspor pecahan sebagai
Documentterpadu. -
Mendapatkan
Documentoutput dari: - Mengakses teks dari
Pages,Lines,Paragraphs,FormFields, danTablestanpa menangani informasiLayout. - Menelusuri
Pagesyang berisi string target atau yang cocok dengan ekspresi reguler. - Menelusuri
FormFieldsberdasarkan nama. - Menelusuri
Entitiesberdasarkan jenis. - Mengonversi
Tableske Pandas Dataframe atau CSV. - Menyisipkan
EntitiesdanFormFieldske dalam tabel BigQuery. - Membagi file PDF berdasarkan output dari pemroses Splitter/Classifier.
- Mengekstrak gambar
EntitiesdariDocumentkotak pembatas. -
Mengonversi
Documentske dan dari format yang umum digunakan:- Cloud Vision API
AnnotateFileResponse - hOCR
- Format pemrosesan dokumen pihak ketiga
- Cloud Vision API
- Membuat batch dokumen untuk diproses dari folder Cloud Storage.
Contoh Kode
Contoh kode berikut menunjukkan cara menggunakan Document AI Toolbox.
Panduan memulai
Tabel
Ekspor BigQuery
Pemisahan PDF
Ekstraksi gambar
Konversi Vision
Konversi hOCR
Konversi pihak ketiga
Batch dokumen
Menggabungkan pecahan Dokumen
Referensi lainnya
Python
Daftar berikut berisi link ke referensi lainnya yang terkait dengan library klien untuk Python: