Membangun mesh data

Anda dapat menggunakan Knowledge Catalog (sebelumnya Dataplex Universal Catalog) untuk membangun arsitektur mesh data. Panduan memulai ini menunjukkan cara menggunakan fitur Knowledge Catalog, seperti lake, zona, dan aset, untuk membangun mesh data.

Mesh data adalah pendekatan organisasi dan teknis yang mendesentralisasi kepemilikan data di antara pemilik data domain. Pemilik ini menyediakan data sebagai produk dengan cara standar dan memfasilitasi komunikasi di antara berbagai bagian organisasi untuk mendistribusikan set data di berbagai lokasi. Pelajari lebih lanjut arsitektur data mesh.

Tujuan

Dalam panduan ini, Anda akan menggunakan entity Knowledge Catalog untuk membangun arsitektur mesh data:

  • Buat lake Knowledge Catalog yang berfungsi sebagai domain untuk jaring data Anda.
  • Tambahkan zona ke lake Anda yang menampilkan tim perorangan dalam setiap domain dan menyediakan kontrak data terkelola.
  • Lampirkan aset yang dipetakan ke data yang disimpan di Cloud Storage.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Setelah menyelesaikan tugas yang dijelaskan dalam dokumen ini, Anda dapat menghindari penagihan berkelanjutan dengan menghapus resource yang Anda buat. Untuk mengetahui informasi selengkapnya, baca bagian Pembersihan.

Sebelum memulai

  1. Di konsol Google Cloud , pada halaman pemilih project, pilih atau buat project Google Cloud .

    Peran yang diperlukan untuk memilih atau membuat project

    • Pilih project: Memilih project tidak memerlukan peran IAM tertentu—Anda dapat memilih project mana pun yang telah diberi peran.
    • Membuat project: Untuk membuat project, Anda memerlukan peran Pembuat Project (roles/resourcemanager.projectCreator), yang berisi izin resourcemanager.projects.create. Pelajari cara memberikan peran.

    Buka pemilih project

  2. Verifikasi bahwa penagihan diaktifkan untuk project Google Cloud Anda.

  3. Mengaktifkan Dataplex API.

    Peran yang diperlukan untuk mengaktifkan API

    Untuk mengaktifkan API, Anda memerlukan peran IAM Service Usage Admin (roles/serviceusage.serviceUsageAdmin), yang berisi izin serviceusage.services.enable. Pelajari cara memberikan peran.

    Mengaktifkan API

  4. Buat layanan Dataproc Metastore.

Membuat bucket Cloud Storage

Anda memerlukan bucket Cloud Storage untuk menyimpan aset data mesh data Anda.

Untuk membuat bucket Cloud Storage, ikuti petunjuk di bagian membuat bucket Cloud Storage. Saat melakukannya, perhatikan hal berikut:

  • Beri nama bucket Anda.
  • Untuk Location type, pilih Region, lalu pilih us-central1 (Iowa) dari menu.

Membuat domain

  1. Di konsol Google Cloud , buka halaman Lakes Knowledge Catalog.

    Buka Lakes

  2. Klik Create untuk membuat lake baru, yang berfungsi sebagai mesh data Anda.

  3. Di kolom Nama tampilan, masukkan My data mesh.

  4. Untuk Region, pilih us-central1.

  5. Pilih layanan Dataproc Metastore yang Anda buat dan konfigurasi sebelumnya sebagai metastore terkait.

  6. Klik Create.

Membuat zona di data lake

Setelah membuat domain dengan membuat data lake Katalog Pengetahuan, Anda dapat menghosting kontrak data terkelola dan setiap tim dalam domain menggunakan zona. Ada dua jenis zona:

  • Zona mentah biasanya digunakan untuk menyimpan data dalam format apa pun dari sumber eksternal di Cloud Storage. Zona mentah berguna untuk data yang memerlukan pemrosesan lebih lanjut sebelum siap digunakan.

  • Zona yang dikurasi digunakan untuk data terstruktur di Cloud Storage yang harus sesuai dengan format file tertentu, dan disusun dalam tata letak direktori yang kompatibel dengan Hive. Objek ini paling berguna untuk data yang siap digunakan dan dianalisis.

Setiap domain (misalnya, sales, customers, products) harus memiliki setidaknya zona mentah dan zona pilihan.

Zona tambahan digunakan untuk mengelola kontrak data antar-tim atau untuk memberikan perincian yang lebih terperinci bagi tim dalam domain tertentu. Misalnya, pengelolaan inventaris dalam domain produk. Pemilik data dapat mengelola data dalam domain mereka dan mengaksesnya.

  1. Di konsol Google Cloud , buka tampilan Knowledge Catalog Manage.

  2. Klik nama danau (My data mesh) yang ingin Anda tambahi zona.

  3. Di tab Zones, klik Add Zone.

  4. Di kolom Nama tampilan, masukkan My sub domain. Katalog Pengetahuan secara otomatis membuat ID untuk zona Anda.

  5. Untuk Type, pilih Raw zone.

  6. Klik Create.

Menghubungkan aset ke zona Anda

Lampirkan aset data ke zona Anda. Aset data, yaitu resource penyimpanan yang berisi data Anda, dapat berupa bucket Cloud Storage atau set data BigQuery. Ini adalah langkah terakhir dalam membuat arsitektur mesh data Anda.

  1. Di tampilan Manage Knowledge Catalog, klik lake yang Anda buat (My data mesh).

  2. Di tab Zones, klik zona (My sub domain) yang akan ditambahkan asetnya.

  3. Di tab Aset, klik Tambahkan aset

  4. Klik Tambahkan Aset.

  5. Untuk Type, pilih Cloud Storage bucket.

  6. Di kolom Nama tampilan , masukkan Data mesh asset. Katalog Pengetahuan secara otomatis membuat ID aset untuk Anda.

  7. Di kolom Bucket, klik Browse.

    1. Pilih bucket Anda dari daftar.
    2. Klik Pilih.
  8. Klik Selesai, lalu klik Lanjutkan.

  9. Klik Lanjutkan untuk menyetujui Setelan lanjutan default.

  10. Klik Kirim.

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Menghapus project

  1. Di Konsol Google Cloud , buka halaman Manage resources.

    Buka Kelola resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus arsitektur mesh data Anda

  1. Di konsol Google Cloud , buka tampilan Knowledge Catalog Manage.

  2. Untuk danau yang ingin Anda hapus, klik Lihat lainnya, lalu klik Hapus.

  3. Untuk mengonfirmasi tindakan, masukkan delete, lalu klik Hapus danau.

Langkah berikutnya