Dokumen ini menjelaskan cara menggunakan utilitas impor glosarium untuk melakukan impor massal glosarium, kategori, dan istilah dari Google Spreadsheet ke Knowledge Catalog (sebelumnya Dataplex Universal Catalog).
Utilitas glossary_import mengurai dan memvalidasi data dari Google Spreadsheet,
mengonversinya ke dalam format yang kompatibel dengan Knowledge Catalog
CreateMetadataJob API,
dan menguploadnya ke bucket Cloud Storage sebelum memicu tugas impor.
Sebelum memulai
Sebelum mengimpor glosarium, selesaikan prasyarat berikut.
Menyiapkan akun layanan
Untuk menjalankan utilitas impor menggunakan Google Spreadsheet, Anda harus menyiapkan akun layanan dengan izin yang diperlukan untuk mengakses Google Sheets API dan meniru kredensial pengguna Anda:
Identifikasi atau buat akun layanan.
Pilih akun layanan yang ada atau buat akun layanan baru di project tempat Anda menjalankan utilitas impor. Untuk mengetahui informasi selengkapnya, lihat Membuat akun layanan. Perhatikan email akun layanan (misalnya,
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).Konfigurasi peniruan akun layanan.
Untuk menjalankan skrip utilitas impor secara lokal, akun pengguna Anda harus memiliki izin untuk meniru akun layanan. Beri akun pengguna Anda peran Service Account Token Creator (
roles/iam.serviceAccountTokenCreator) di akun layanan.Untuk mengetahui informasi selengkapnya, lihat Mengelola akses ke akun layanan.
Beri akun layanan akses
Editorke Google Spreadsheet.Buka Google Spreadsheet yang ingin Anda gunakan untuk proses impor, klik Share, dan tambahkan email akun layanan sebagai
Editor. Izin ini memungkinkan akun layanan membaca dari atau menulis data ke spreadsheet Anda.
Membuat bucket Cloud Storage
Buat bucket Cloud Storage untuk berfungsi sebagai area staging untuk file impor.
Peran yang diperlukan
Untuk memastikan bahwa akun layanan memiliki izin yang diperlukan untuk mengimpor glosarium dari Google Spreadsheet, minta administrator untuk memberikan peran IAM berikut ke akun layanan:
- Dataplex Administrator (
roles/dataplex.admin) di project - Dataplex Catalog Admin (
roles/dataplex.catalogAdmin) di project - Dataplex Catalog Editor (
roles/dataplex.catalogEditor) di project - Storage Object Admin (
roles/storage.objectAdmin) di bucket Cloud Storage
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Administrator Anda mungkin juga dapat memberikan izin yang diperlukan kepada akun layanan melalui peran kustom atau peran yang telah ditetapkan.
Mengaktifkan API
Untuk mengimpor glosarium, aktifkan API berikut di project Anda:
Peran yang diperlukan untuk mengaktifkan API
Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin
(roles/serviceusage.serviceUsageAdmin),
yang berisi izin serviceusage.services.enable. Pelajari cara memberikan
peran.
Menyiapkan repositori git
Clone repositori dataplex-labs:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/import
Menginstal dependensi
Instal dependensi Python yang diperlukan:
pip3 install -r requirements.txt
Jika Anda mengalami masalah dengan penginstalan paket, siapkan lingkungan pengembangan Python baru.
Mengautentikasi dan mengonfigurasi peniruan akun layanan
Inisialisasi Google Cloud CLI dan autentikasi menggunakan Kredensial Default Aplikasi (ADC) dengan peniruan akun layanan:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
Ganti SERVICE_ACCOUNT_EMAIL dengan ID email akun layanan. Contoh:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
Membuat dan menyusun Google Spreadsheet untuk impor
Untuk berhasil menjalankan impor massal, Anda harus membuat Google Spreadsheet baru menggunakan skema kolom yang tepat sehingga utilitas impor dapat berhasil mengurai dan memvalidasi kolom metadata Anda. Pastikan Anda telah memberikan akses Editor akun layanan ke Google Spreadsheet.
Baris pertama spreadsheet harus berisi header skema yang sama dan peka huruf besar/kecil:
| Kolom | Wajib Diisi atau Opsional | Deskripsi |
|---|---|---|
id |
Wajib | ID unik untuk istilah atau kategori dalam glosarium. |
parent |
Opsional | ID kategori induk. Jika kosong, item tersebut adalah turunan tingkat root dari glosarium. Perhatikan bahwa ID induk yang direferensikan harus ada di spreadsheet dan harus termasuk dalam kategori. |
display_name |
Wajib | Nama tampilan istilah atau kategori. |
description |
Opsional | Deskripsi singkat istilah atau kategori. |
overview |
Opsional | Deskripsi teks lengkap istilah atau kategori (mendukung tag HTML). |
type |
Wajib | Jenis baris. Nilai yang valid adalah TERM atau CATEGORY. |
contact1_email |
Opsional | Alamat email pengelola data utama untuk istilah atau kategori. |
contact1_name |
Opsional | Nama pengelola data utama untuk istilah atau kategori. |
contact2_email |
Opsional | Alamat email pengelola data sekunder untuk istilah atau kategori. |
contact2_name |
Opsional | Nama pengelola data sekunder untuk istilah atau kategori. |
label1_key |
Opsional | Kunci untuk label pertama yang ditetapkan. |
label1_value |
Opsional | Nilai untuk label pertama yang ditetapkan. |
label2_key |
Opsional | Kunci untuk label kedua yang ditetapkan. |
label2_value |
Opsional | Nilai untuk label kedua yang ditetapkan. |
Mengimpor glosarium dari Google Spreadsheet
Setelah menyiapkan lingkungan dan menyiapkan Google Spreadsheet, jalankan skrip glossary_import.py:
python3 bg_import/dataplex-glossary/glossary_import.py
Utilitas impor mencetak hasil eksekusi CreateMetadataJob API langsung ke terminal Anda. Pastikan status tugas menunjukkan keberhasilan.
Anda dapat meninjau log eksekusi di direktori logs/ di jalur eksekusi lokal Anda. Log ini membantu Anda mengaudit proses transfer dan mengidentifikasi entri yang dilewati atau peringatan pemformatan.
Langkah berikutnya
- Pelajari cara mengelola glosarium bisnis.
- Pelajari cara mengimpor glosarium menggunakan file JSON.
- Pelajari cara mengekspor glosarium ke Google Spreadsheet.
- Pelajari lebih lanjut pengelolaan metadata.