Mengekspor glosarium bisnis ke Spreadsheet Google

Dokumen ini menjelaskan cara menggunakan utilitas ekspor glosarium bisnis untuk mengekstrak glosarium, kategori, dan istilah dari Knowledge Catalog (sebelumnya Dataplex Universal Catalog) ke Google Spreadsheet untuk pengelolaan dan pelaporan massal.

Utilitas glossary_export mengambil metadata dari glosarium bisnis Knowledge Catalog Anda dan mengisi Google Spreadsheet dengan skema terstruktur, termasuk deskripsi, pengelola data, dan label.

Sebelum memulai

Sebelum mengekspor glosarium, selesaikan prasyarat berikut.

Menyiapkan akun layanan

Untuk menjalankan utilitas ekspor, Anda harus menyiapkan akun layanan dengan izin yang diperlukan untuk mengakses Google Sheets API dan meniru kredensial pengguna Anda:

  1. Identifikasi atau buat akun layanan.

    Pilih akun layanan yang ada atau buat akun baru di project tempat Anda menjalankan utilitas impor. Untuk mengetahui informasi selengkapnya, lihat Membuat akun layanan. Perhatikan email akun layanan (misalnya, SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. Konfigurasi peniruan akun layanan.

    Untuk menjalankan skrip utilitas ekspor secara lokal, akun pengguna Anda harus memiliki izin untuk meniru akun layanan. Beri akun pengguna Anda peran Service Account Token Creator (roles/iam.serviceAccountTokenCreator) di akun layanan.

    Untuk mengetahui informasi selengkapnya, lihat Mengelola akses ke akun layanan.

  3. Beri akun layanan akses Editor ke Google Spreadsheet.

    Buka Google Spreadsheet yang ingin Anda gunakan untuk proses impor, klik Share, lalu tambahkan email akun layanan sebagai Editor. Izin ini memungkinkan akun layanan membaca dari atau menulis data ke spreadsheet Anda.

Peran yang diperlukan

Untuk memastikan bahwa akun layanan memiliki izin yang diperlukan untuk mengekspor glosarium ke Google Spreadsheet, minta administrator Anda untuk memberikan peran IAM berikut ke akun layanan:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Administrator Anda mungkin juga dapat memberikan izin yang diperlukan kepada akun layanan melalui peran kustom atau peran yang telah ditetapkan.

Mengaktifkan API

Untuk mengekspor glosarium, aktifkan API berikut di project Anda:

Peran yang diperlukan untuk mengaktifkan API

Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

Aktifkan API

Menyiapkan repositori git

Clone repositori dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

Menginstal dependensi

Instal dependensi Python yang diperlukan:

pip3 install -r requirements.txt

Jika Anda mengalami masalah dengan penginstalan paket, siapkan lingkungan pengembangan Python baru.

Mengautentikasi dan mengonfigurasi peniruan akun layanan

Inisialisasi Google Cloud CLI dan autentikasi menggunakan Kredensial Default Aplikasi (ADC) dengan peniruan akun layanan:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

Ganti SERVICE_ACCOUNT_EMAIL dengan ID email akun layanan. Contoh:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

Menyiapkan Google Spreadsheet target untuk ekspor

Buat Google Spreadsheet kosong atau gunakan yang sudah ada. Skrip ekspor akan menulis ke spreadsheet pertama. Pastikan Anda telah memberikan akses Editor akun layanan ke Google Spreadsheet.

Mengekspor glosarium ke Google Spreadsheet

Jalankan skrip glossary-export.py. Utilitas akan meminta Anda untuk menentukan Google Spreadsheet target dan nama glosarium tertentu yang ingin Anda ekspor, selama eksekusi:

python3 glossary-export.py

Anda dapat meninjau log eksekusi di direktori logs/ di jalur eksekusi lokal Anda. Log ini membantu Anda mengaudit proses transfer dan mengidentifikasi entri yang dilewati atau peringatan pemformatan.

Memverifikasi data glosarium yang diekspor

Skrip ekspor akan mengisi Google Spreadsheet dengan kolom berikut. Verifikasi data yang diekspor.

Kolom Deskripsi
id ID unik untuk istilah atau kategori dalam glosarium.
parent ID kategori induk.
display_name Nama tampilan istilah atau kategori.
description Deskripsi singkat istilah atau kategori.
overview Deskripsi teks lengkap istilah atau kategori (mendukung tag HTML).
type Jenis baris: TERM atau CATEGORY.
contact1_email Alamat email pengelola data utama untuk istilah atau kategori.
contact1_name Nama pengelola data utama untuk istilah atau kategori.
contact2_email Alamat email pengelola data sekunder untuk istilah atau kategori.
contact2_name Nama pengelola data sekunder untuk istilah atau kategori.
label1_key Kunci untuk label pertama yang ditetapkan.
label1_value Nilai untuk label pertama yang ditetapkan.
label2_key Kunci untuk label kedua yang ditetapkan.
label2_value Nilai untuk label kedua yang ditetapkan.

Langkah berikutnya