Menyinkronkan Metastore Dataproc ke Data Catalog

Dokumen ini menunjukkan cara menyinkronkan metadata Dataproc Metastore dengan Data Catalog.

Setelah menyinkronkan kedua layanan ini, Anda dapat menggunakan Data Catalog untuk mengelola metadata Dataproc Metastore. Misalnya, dengan menggunakan Data Catalog, Anda dapat memberi tag dan menelusuri resource Dataproc Metastore tertentu, seperti database dan tabel.

Apa yang dimaksud dengan Data Catalog

Data Catalog adalah layanan pengelolaan metadata yang skalabel dan terkelola sepenuhnya. Layanan ini menyediakan tampilan terpadu dan mekanisme pemberian tag untuk metadata teknis dan bisnis.

Untuk mengetahui informasi selengkapnya, lihat panduan fitur Data Catalog berikut:

Sebelum memulai

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan guna menyinkronkan metadata Dataproc Metastore dengan Data Catalog, minta administrator untuk memberi Anda peran IAM Lihat entri Dataproc Metastore yang disinkronkan di Data Catalog (roles/metastore.metadataViewer) di project Anda, berdasarkan prinsip hak istimewa terendah. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk menyinkronkan metadata Dataproc Metastore dengan Data Catalog. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menyinkronkan metadata Dataproc Metastore dengan Data Catalog:

  • Untuk mendapatkan database Dataproc Metastore: metastore.databases.get
  • Untuk mencantumkan database Dataproc Metastore: metastore.databases.list
  • Untuk mendapatkan tabel Dataproc Metastore: metastore.tables.get
  • Untuk mencantumkan tabel Dataproc Metastore: metastore.tables.list

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Untuk mengetahui informasi selengkapnya tentang peran dan izin Dataproc Metastore tertentu, lihat Mengelola akses dengan IAM.

Cara kerja izin antar-layanan

Data Catalog mematuhi izin tingkat Dataproc Metastore. Untuk metadata yang disinkronkan dari Dataproc Metastore ke Data Catalog, izin IAM yang ditentukan di Dataproc Metastore juga berlaku untuk metadata di Data Catalog.

Data Catalog memeriksa izin untuk setiap database dan tabel metastore pada saat akses sehingga hanya pengguna yang memiliki akses ke layanan Dataproc Metastore yang dapat melihat resource layanan yang disinkronkan sebagai entri di Data Catalog.

Cara kerja sinkronisasi Data Catalog dengan Dataproc Metastore

Anda dapat mengaktifkan sinkronisasi Dataproc Metastore ke Data Catalog saat membuat atau memperbarui layanan Dataproc Metastore menggunakan konsol Google Cloud . Anda dapat menonaktifkan sinkronisasi dengan cara yang sama.

Setelah mengaktifkan sinkronisasi Data Catalog, metadata database dan tabel akan otomatis disinkronkan dari Dataproc Metastore ke Data Catalog.

Data Catalog menyinkronkan metadata berikut:

  • Instance.
  • Database, termasuk nama dan deskripsi.
  • Tabel, termasuk nama, deskripsi, dan skema (kolom dengan deskripsi).

Tabel berikut menunjukkan pemetaan resource antara Dataproc Metastore dan Data Catalog:

Resource Dataproc Metastore Resource Data Catalog
Instance Grup entri
Entri
Database Entri
Tabel Entri
Kolom Skema

Pertimbangan

  • Diperlukan waktu hingga 6 jam sebelum metadata Dataproc Metastore Anda sepenuhnya disinkronkan dengan Data Catalog. Setelah sinkronisasi awal selesai, perubahan inkremental akan disinkronkan sesuai permintaan (seperti update tabel atau database). Jika sinkronisasi sesuai permintaan gagal, sinkronisasi akan disertakan dalam pengulangan batch yang terjadi setiap 6 jam.

  • Jika Anda mencurigai adanya masalah dengan sinkronisasi, periksa log publikasi metadata di Dataproc Metastore Cloud Logging dengan filter textPayload=~".*Publish.*". Untuk mengetahui informasi selengkapnya tentang cara mengakses log, lihat Mengakses log tugas di Logging.

  • Jika Anda menonaktifkan sinkronisasi Data Catalog, metadata Anda akan berhenti disinkronkan dari Dataproc Metastore ke Data Catalog. Namun, metadata yang sudah disinkronkan akan tetap berada di Data Catalog.

  • Jika Anda menghapus instance Dataproc Metastore, entri instance, database, dan tabel yang sesuai juga akan dihapus dari Data Catalog.

  • Metadata Dataproc Metastore yang disimpan di Data Catalog mematuhi periode retensi standar Google Cloud .

  • Tidak ada biaya tambahan untuk mengaktifkan sinkronisasi Data Catalog untuk Dataproc Metastore.

Membuat layanan dengan sinkronisasi Data Catalog diaktifkan

Sinkronisasi Data Catalog dinonaktifkan secara default.

Untuk mengaktifkan sinkronisasi Data Catalog untuk layanan baru, gunakan petunjuk berikut.

Konsol

  1. Di Google Cloud konsol, buka halaman Dataproc Metastore:

    Buka Dataproc Metastore

  2. Di bagian atas halaman Dataproc Metastore, klik Create.

    Halaman Create service akan terbuka.

  3. Pilih versi Dataproc Metastore yang ingin Anda gunakan.

  4. Di bagian Metadata integration, klik Data Catalog sync.

  5. Untuk opsi konfigurasi layanan yang tersisa, gunakan nilai default yang disediakan. Atau Konfigurasikan layanan Anda sesuai kebutuhan.

  6. Klik Submit.

Mengaktifkan atau menonaktifkan sinkronisasi Data Catalog untuk layanan yang ada

Untuk mengaktifkan atau menonaktifkan sinkronisasi Data Catalog untuk layanan yang ada, gunakan petunjuk berikut.

Konsol

  1. Di Google Cloud konsol, buka halaman Dataproc Metastore:

    Buka Dataproc Metastore

  2. Di halaman Dataproc Metastore, klik layanan yang ingin Anda perbarui.

    Halaman Service detail untuk layanan tersebut akan terbuka.

  3. Di tab Configuration, klik Edit.

    Halaman Edit service akan terbuka.

  4. Di bagian Metadata integration, aktifkan atau nonaktifkan Data Catalog sync.

  5. Klik Submit.

Menelusuri dengan Data Catalog

Anda dapat menelusuri metadata Dataproc Metastore yang disinkronkan menggunakan Data Catalog.

Meskipun tidak ada opsi penelusuran kustom untuk Dataproc Metastore, ada beberapa cara untuk menelusuri berbagai resource Dataproc Metastore, termasuk yang berikut:

  • Instance Dataproc Metastore
    • Berdasarkan nama tampilan
    • Fungsi Data Catalog standar — misalnya, menggunakan tag.
  • Database
    • Berdasarkan nama tampilan
    • Berdasarkan deskripsi
    • Berdasarkan instance Dataproc Metastore
    • Fungsi Data Catalog standar — misalnya, menggunakan tag.
  • Tabel
    • Berdasarkan nama tampilan
    • Berdasarkan deskripsi
    • Berdasarkan nama kolom
    • Berdasarkan deskripsi kolom
    • Berdasarkan database
    • Berdasarkan instance Dataproc Metastore
    • Fungsi Data Catalog standar — misalnya, menggunakan tag.

Langkah berikutnya