Anda dapat menggunakan Dataplex Universal Catalog untuk membangun arsitektur mesh data. Panduan memulai cepat ini menunjukkan cara menggunakan fitur Dataplex Universal Catalog, seperti lake, zona, dan aset, untuk membangun mesh data.
Mesh data adalah pendekatan organisasi dan teknis yang mendesentralisasi kepemilikan data di antara pemilik data domain. Pemilik ini menyediakan data sebagai produk dengan cara standar dan memfasilitasi komunikasi di antara berbagai bagian organisasi untuk mendistribusikan set data di berbagai lokasi. Pelajari lebih lanjut arsitektur data mesh.
Membuat domain
Di konsol Google Cloud , buka halaman Lakes Dataplex Universal Catalog.
Klik Create untuk membuat lake baru, yang berfungsi sebagai mesh data Anda.
Di kolom Nama tampilan, masukkan
My data mesh
.Untuk Region, pilih
us-central1
.Pilih layanan Dataproc Metastore yang Anda buat dan konfigurasi sebelumnya sebagai metastore terkait.
Klik Buat.
Membuat zona di data lake
Setelah membuat domain dengan membuat data lake Dataplex Universal Catalog, Anda dapat menghosting kontrak data terkelola dan tim individual dalam domain menggunakan zona. Ada dua jenis zona:
Zona mentah biasanya digunakan untuk menyimpan data dalam format apa pun dari sumber eksternal di Cloud Storage. Zona mentah berguna untuk data yang memerlukan pemrosesan lebih lanjut sebelum siap digunakan.
Zona yang dikurasi digunakan untuk data terstruktur di Cloud Storage yang harus sesuai dengan format file tertentu, dan disusun dalam tata letak direktori yang kompatibel dengan Hive. Objek ini paling berguna untuk data yang siap digunakan dan dianalisis.
Setiap domain (misalnya, sales
, customers
, products
) harus memiliki setidaknya
zona mentah dan zona pilihan.
Zona tambahan digunakan untuk mengelola kontrak data antar-tim atau untuk memberikan perincian yang lebih terperinci bagi tim dalam domain tertentu. Misalnya, pengelolaan inventaris dalam domain produk. Pemilik data dapat mengelola data dalam domain mereka dan mengaksesnya.
Di konsol Google Cloud , buka tampilan Dataplex Universal Catalog Kelola.
Klik nama danau (
My data mesh
) yang ingin Anda tambahi zona.Di tab Zones, klik
Add Zone.Di kolom Nama tampilan, masukkan
My sub domain
. Dataplex Universal Catalog akan otomatis membuat ID untuk zona Anda.Untuk Type, pilih Raw zone.
Klik Buat.
Menghubungkan aset ke zona Anda
Lampirkan aset data ke zona Anda. Aset data, yaitu resource penyimpanan yang berisi data Anda, dapat berupa bucket Cloud Storage atau set data BigQuery. Ini adalah langkah terakhir dalam membuat arsitektur jaring data Anda.
Di tampilan Kelola Dataplex Universal Catalog, klik lake yang Anda buat (
My data mesh
).Di tab Zones, klik zona (
My sub domain
) yang akan ditambahkan asetnya.Di tab Aset, klik
Tambahkan asetKlik Tambahkan Aset.
Untuk Type, pilih Cloud Storage bucket.
Di kolom Nama tampilan , masukkan
Data mesh asset
. Dataplex Universal Catalog membuat ID aset secara otomatis untuk Anda.Di kolom Bucket, klik Browse.
- Pilih bucket Anda dari daftar.
- Klik Pilih.
Klik Selesai, lalu klik Lanjutkan.
Klik Lanjutkan untuk menerima Setelan lanjutan default.
Klik Kirim.