Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Men-deploy platform analisis dan pengelolaan data perusahaan

Last reviewed 2025-04-04 UTC

Platform pengelolaan dan analisis data perusahaan menyediakan enclave tempat Anda dapat menyimpan, menganalisis, dan memanipulasi informasi sensitif sambil mempertahankan kontrol keamanan. Anda dapat menggunakan arsitektur mesh data perusahaan untuk men-deploy platform di Google Cloud untuk pengelolaan dan analisis data. Arsitektur dirancang untuk berfungsi di lingkungan hybrid, tempat komponen Google Cloud berinteraksi dengan komponen lokal dan proses operasi yang ada.

Arsitektur mesh data perusahaan mencakup hal berikut:

Repositori GitHub yang berisi kumpulan konfigurasi, skrip, dan kode Terraform untuk membangun berikut ini:
- Project tata kelola yang memungkinkan Anda menggunakan penerapan Framework Kontrol Utama Kemampuan Pengelolaan Data Cloud (CDMS) Google.
- Contoh platform data yang mendukung alur kerja interaktif dan produksi.
- Lingkungan produser dalam platform data yang mendukung beberapa domain data. Domain data adalah pengelompokan logis elemen data.
- Lingkungan konsumen dalam platform data yang mendukung beberapa project konsumen.
- Layanan transfer data yang menggunakan Workload Identity Federation dan library enkripsi Tink untuk membantu Anda mentransfer data ke dalam Google Cloud secara aman.
- Contoh domain data yang berisi project penyerapan, tidak rahasia, dan rahasia.
- Contoh sistem akses data yang memungkinkan konsumen data meminta akses ke set data dan pemilik data memberikan akses ke set data tersebut. Contoh ini juga mencakup pengelola alur kerja yang mengubah izin IAM kumpulan data tersebut.
Panduan untuk arsitektur, desain, kontrol keamanan, dan proses operasional yang akan Anda terapkan menggunakan arsitektur ini (dokumen ini).

Arsitektur mesh data perusahaan dirancang agar kompatibel dengan cetak biru dasar-dasar perusahaan. Cetak biru fondasi perusahaan menyediakan sejumlah layanan tingkat dasar yang digunakan oleh arsitektur ini, seperti jaringan VPC dan logging. Anda dapat men-deploy arsitektur ini tanpa men-deploy blueprint fondasi perusahaan jika Google Cloud lingkungan Anda menyediakan fungsi yang diperlukan.

Dokumen ini ditujukan untuk arsitek cloud, data scientist, data engineer, dan arsitek keamanan yang dapat menggunakan arsitektur ini untuk membangun dan men-deploy layanan data yang komprehensif di Google Cloud. Dokumen ini mengasumsikan bahwa Anda telah memahami konsep data mesh, Google Cloud layanan data, dan penerapan Google Cloud framework CDMC.

Arsitektur

Arsitektur mesh data perusahaan menggunakan pendekatan berlayer untuk menyediakan kemampuan yang memungkinkan penyerapan data, pemrosesan data, dan tata kelola. Arsitektur ini ditujukan untuk di-deploy dan dikontrol melalui alur kerja CI/CD. Diagram berikut menunjukkan hubungan antara lapisan data yang di-deploy oleh arsitektur ini dengan lapisan lain di lingkungan Anda.

Arsitektur mesh data.

Diagram ini mencakup hal berikut:

Google Cloud infrastruktur menyediakan kemampuan keamanan seperti enkripsi saat tidak digunakan dan enkripsi saat dalam perjalanan, serta blok bangunan dasar seperti komputasi dan penyimpanan.
Fondasi perusahaan menyediakan dasar pengukuran resource seperti sistem identitas, jaringan, logging, pemantauan, dan deployment yang memungkinkan Anda menggunakan Google Cloud untuk workload data Anda.
Lapisan data menyediakan berbagai kemampuan seperti penyerapan data, penyimpanan data, kontrol akses data, tata kelola data, pemantauan data, dan berbagi data.
Lapisan aplikasi merepresentasikan berbagai aplikasi berbeda yang menggunakan aset lapisan data.
CI/CD menyediakan alat untuk mengotomatiskan penyediaan, konfigurasi, pengelolaan, dan deployment infrastruktur, alur kerja, dan komponen software. Komponen ini membantu Anda memastikan deployment yang konsisten, andal, dan dapat diaudit; meminimalkan kesalahan manual; dan mempercepat siklus pengembangan secara keseluruhan.

Untuk menunjukkan cara penggunaan lingkungan data, arsitektur ini mencakup contoh alur kerja data. Alur kerja data sampel akan memandu Anda melalui proses berikut: tata kelola data, penyerapan data, pemrosesan data, berbagi data, dan konsumsi data.

Keputusan arsitektur penting

Tabel berikut merangkum keputusan tingkat tinggi dari arsitektur.

Area keputusan	Keputusan
Google Cloud arsitektur
Hierarki resource	Arsitektur ini menggunakan hierarki resource dari blueprint dasar-dasar perusahaan.
Jaringan	Arsitektur ini mencakup contoh layanan transfer data yang menggunakan Workload Identity Federation dan library Tink.
Peran dan izin IAM	Arsitektur ini mencakup peran produsen data yang tersegmentasi, peran konsumen data, peran tata kelola data, dan peran platform data.
Layanan data umum
Metadata	Arsitektur ini menggunakan Data Catalog untuk mengelola metadata data.
Pengelolaan kebijakan terpusat	Untuk mengelola kebijakan, arsitektur menggunakan penerapan framework CDMC Google Cloud.
Pengelolaan akses data	Untuk mengontrol akses ke data, arsitektur mencakup proses independen yang mewajibkan konsumen data untuk meminta akses ke aset data dari pemilik data.
Kualitas data	Arsitektur ini menggunakan Cloud Data Quality Engine untuk menentukan dan menjalankan aturan kualitas data pada kolom tabel yang ditentukan, mengukur kualitas data berdasarkan metrik seperti kebenaran dan kelengkapan.
Keamanan data	Arsitektur ini menggunakan kontrol pemberian tag, enkripsi, penyamaran, tokenisasi, dan IAM untuk memberikan keamanan data.
Domain data
Lingkungan data	Arsitektur ini mencakup tiga lingkungan. Dua lingkungan (non-produksi dan produksi) adalah lingkungan operasional yang didorong oleh pipeline. Satu lingkungan (pengembangan) adalah lingkungan interaktif.
Pemilik data	Pemilik data menyerap, memproses, mengekspos, dan memberikan akses ke aset data.
Konsumen data	Konsumen data meminta akses ke aset data.
Orientasi dan operasi
Pipeline	Arsitektur ini menggunakan pipeline berikut untuk men-deploy resource: Pipeline fondasi Pipeline infrastruktur Pipeline artefak Pipeline Service Catalog
Repositori	Setiap pipeline menggunakan repositori terpisah untuk memungkinkan pemisahan tanggung jawab.
Alur proses	Proses ini mengharuskan perubahan pada lingkungan produksi menyertakan pengirim dan pemberi persetujuan.
Cloud operations
Kartu skor produk data	Report Engine membuat kartu skor produk data.
Cloud Logging	Arsitektur ini menggunakan infrastruktur logging dari cetak biru dasar perusahaan.
Cloud Monitoring	Arsitektur ini menggunakan infrastruktur pemantauan dari blueprint fondasi perusahaan.

Identitas: Memetakan peran ke grup

Mesh data memanfaatkan arsitektur pengelolaan siklus proses identitas, otorisasi, dan autentikasi yang ada dalam cetak biru fondasi perusahaan. Pengguna tidak diberi peran secara langsung. Sebagai gantinya, grup adalah metode utama untuk menetapkan peran dan izin di IAM. Peran dan izin IAM ditetapkan selama pembuatan project melalui pipeline fondasi.

Data mesh mengaitkan grup dengan salah satu dari empat area utama: infrastruktur, tata kelola data, produsen data berbasis domain, dan konsumen berbasis domain.

Cakupan izin untuk grup ini adalah sebagai berikut:

Cakupan izin grup infrastruktur adalah keseluruhan data mesh.
Cakupan izin grup tata kelola data adalah project tata kelola data.
Izin produsen dan konsumen berbasis domain dicakup ke domain data mereka.

Tabel berikut menunjukkan berbagai peran yang digunakan dalam penerapan mesh data ini dan izin terkaitnya.

Infrastruktur

Grup	Deskripsi	Peran
`data-mesh-ops@example.com`	Administrator keseluruhan mesh data	`roles/owner` (platform data)

Tata kelola data

Grup	Deskripsi	Peran
`gcp-dm-governance-admins@example.com`	Administrator project tata kelola data	`roles/owner` di project tata kelola data
`gcp-dm-governance-developers@example.com`	Developer yang membuat dan mengelola komponen tata kelola data	Beberapa peran di project tata kelola data, termasuk `roles/viewer`, peran BigQuery, dan peran Data Catalog
`gcp-dm-governance-data-readers@example.com`	Pembaca informasi tata kelola data	`roles/viewer`
`gcp-dm-governance-security-administrator@example.com`	Administrator keamanan project tata kelola	`roles/orgpolicy.policyAdmin` dan `roles/iam.securityReviewer`
`gcp-dm-governance-tag-template-users@example.com`	Grup dengan izin untuk menggunakan template tag	`roles/datacatalog.tagTemplateUser`
`gcp-dm-governance-tag-users@example.com`	Grup dengan izin untuk menggunakan template tag dan menambahkan tag	`roles/datacatalog.tagTemplateUser` dan `roles/datacatalog.tagEditor`
`gcp-dm-governance-scc-notifications@example.com`	Grup akun layanan untuk notifikasi Security Command Center	Tidak ada. Ini adalah grup untuk keanggotaan, dan akun layanan dibuat dengan nama ini, yang memiliki izin yang diperlukan.

Produsen data berbasis domain

Grup	Deskripsi	Peran
`gcp-dm-{data_domain_name}-admins@example.com`	Administrator domain data tertentu	`roles/owner` di project domain data
`gcp-dm-{data_domain_name}-developers@example.com`	Developer yang membangun dan mengelola produk data dalam domain data	Beberapa peran di project domain data, termasuk `roles/viewer`, peran BigQuery, dan peran Cloud Storage
`gcp-dm-{data_domain_name}-data-readers@example.com`	Pembaca informasi domain data	`roles/viewer`
`gcp-dm-{data_domain_name}-metadata-editors@{var.domain}`	Editor entri Data Catalog	Peran untuk mengedit entri Data Catalog
`gcp-dm-{data_domain_name}-data-stewards@example.com`	Data steward untuk domain data	Peran untuk mengelola aspek metadata dan tata kelola data

Konsumen data berbasis domain

Grup	Deskripsi	Peran
`gcp-dm-consumer-{project_name}-admins@example.com`	Administrator project konsumen tertentu	`roles/owner` di project konsumen
`gcp-dm-consumer-{project_name}-developers@example.com`	Developer yang bekerja dalam project konsumen	Beberapa peran di project konsumen, termasuk `roles/viewer` dan peran BigQuery
`gcp-dm-consumer-{project_name}-data-readers@example.com`	Pembaca informasi project konsumen	`roles/viewer`

Struktur organisasi

Untuk membedakan antara operasi produksi dan data produksi, arsitektur ini menggunakan lingkungan yang berbeda untuk mengembangkan dan merilis alur kerja. Operasi produksi mencakup tata kelola, ketertelusuran, dan kemampuan pengulangan alur kerja serta kemampuan audit hasil alur kerja. Data produksi mengacu pada data yang mungkin sensitif yang Anda butuhkan untuk menjalankan organisasi Anda. Semua lingkungan dirancang untuk memiliki kontrol keamanan yang memungkinkan Anda menyerap dan mengoperasikan data Anda.

Untuk membantu data scientist dan engineer, arsitektur ini mencakup lingkungan interaktif, tempat developer dapat bekerja dengan lingkungan secara langsung dan menambahkan layanan melalui katalog solusi yang telah dikurasi. Lingkungan operasional didorong melalui pipeline yang memiliki arsitektur dan konfigurasi yang dikodifikasi.

Arsitektur ini menggunakan struktur organisasi cetak biru fondasi perusahaan sebagai dasar untuk men-deploy workload data. Diagram berikut menunjukkan folder dan project tingkat teratas yang digunakan dalam arsitektur mesh data perusahaan.

Struktur organisasi mesh data.

Tabel berikut menjelaskan folder dan project tingkat teratas yang merupakan bagian dari arsitektur.

Folder	Komponen	Deskripsi
`common`	`prj-c-artifact-pipeline`	Berisi pipeline deployment yang digunakan untuk mem-build artefak kode arsitektur.
	`prj-c-service-catalog`	Berisi infrastruktur yang digunakan oleh Katalog Layanan untuk men-deploy resource di lingkungan interaktif.
	`prj-c-datagovernance`	Berisi semua sumber daya yang digunakan oleh penerapan Google Cloud's terhadap framework CDMC.
`development`	`fldr-d-dataplatform`	Berisi project dan resource platform data untuk mengembangkan kasus penggunaan dalam mode interaktif.
`non-production`	`fldr-n-dataplatform`	Berisi project dan resource platform data untuk kasus penggunaan pengujian yang ingin Anda deploy di lingkungan operasional.
`production`	`fldr-p-dataplatform`	Berisi project dan resource platform data untuk deployment ke produksi.

Folder platform data

Folder platform data berisi semua komponen bidang data dan beberapa resource CDMC. Selain itu, folder platform data dan project tata kelola data berisi resource CDMC. Diagram berikut menunjukkan folder dan project yang di-deploy di folder platform data.

Folder platform data

Setiap folder platform data mencakup folder lingkungan (produksi, non-produksi, dan pengembangan). Tabel berikut menjelaskan folder dalam setiap folder platform data.

Folder	Deskripsi
Produsen	Berisi domain data.
Konsumen	Berisi project konsumen.
Domain data	Berisi project yang terkait dengan domain tertentu.

Folder produser

Setiap folder produsen mencakup satu atau beberapa domain data. Domain data mengacu pada pengelompokan logis elemen data yang memiliki makna, tujuan, atau konteks bisnis yang sama. Domain data memungkinkan Anda mengategorikan dan mengatur aset data dalam organisasi. Diagram berikut menunjukkan struktur domain data. Arsitektur ini men-deploy project di folder platform data untuk setiap lingkungan.

Folder produser.

Tabel berikut menjelaskan project yang di-deploy di folder platform data untuk setiap lingkungan.

Project	Deskripsi
Penyerapan	Project penyerapan menyerap data ke dalam domain data. Arsitektur ini memberikan contoh cara melakukan streaming data ke BigQuery, Cloud Storage, dan Pub/Sub. Project penyerapan juga berisi contoh Dataflow dan Managed Service untuk Apache Airflow yang dapat Anda gunakan untuk mengatur transformasi dan pemindahan data yang diserap.
Tidak rahasia	Project non-rahasia berisi data yang telah dianonimkan. Anda dapat menyamarkan, membuat dalam penampung, mengenkripsi, membuat token, atau meng-obfuscate data. Gunakan tag kebijakan untuk mengontrol cara data ditampilkan.
Rahasia	Project rahasia berisi data teks biasa. Anda dapat mengontrol akses melalui izin IAM.

Folder konsumen

Folder konsumen berisi project konsumen. Project konsumen menyediakan mekanisme untuk menyegmentasikan pengguna data berdasarkan batas kepercayaan yang diperlukan. Setiap project ditetapkan ke grup pengguna terpisah dan grup tersebut diberi akses ke aset data yang diperlukan berdasarkan project. Anda dapat menggunakan project konsumen untuk mengumpulkan, menganalisis, dan meningkatkan kualitas data untuk grup.

Folder umum

Folder umum berisi layanan yang digunakan oleh berbagai lingkungan dan project. Bagian ini menjelaskan kemampuan yang ditambahkan ke folder umum untuk mengaktifkan data mesh perusahaan.

Arsitektur CDMC

Arsitektur ini menggunakan arsitektur CDMC untuk tata kelola data. Fungsi tata kelola data berada di project tata kelola data di folder umum. Diagram berikut menunjukkan komponen arsitektur CDMC. Angka-angka dalam diagram menunjukkan kontrol utama yang ditangani dengan layanan Google Cloud.

Arsitektur CDMC.

Tabel berikut menjelaskan komponen arsitektur CDMC yang digunakan oleh arsitektur mesh data perusahaan.

Komponen CDMC	Google Cloud layanan	Deskripsi
Komponen akses dan siklus proses
Pengelolaan kunci	Cloud KMS	Layanan yang mengelola kunci enkripsi secara aman yang melindungi data sensitif.
Pengelola Catatan	Cloud Run	Aplikasi yang menyimpan log dan catatan komprehensif tentang aktivitas pemrosesan data, sehingga organisasi dapat melacak dan mengaudit penggunaan data.
Kebijakan pengarsipan	BigQuery	Tabel BigQuery yang berisi kebijakan penyimpanan untuk data.
Hak	BigQuery	Tabel BigQuery yang menyimpan informasi tentang siapa yang dapat mengakses data sensitif. Tabel ini memastikan bahwa hanya pengguna yang diberi otorisasi yang dapat mengakses data tertentu berdasarkan peran dan hak istimewa mereka.
Komponen pemindaian
Kehilangan data	Sensitive Data Protection	Layanan yang digunakan untuk memeriksa aset guna menemukan data sensitif.
Temuan DLP	BigQuery	Tabel BigQuery yang mengatalogkan klasifikasi data dalam platform data.
Kebijakan	BigQuery	Tabel BigQuery yang berisi praktik tata kelola data yang konsisten (misalnya, jenis akses data).
Ekspor penagihan	BigQuery	Tabel yang menyimpan informasi biaya yang diekspor dari Penagihan Cloud untuk memungkinkan analisis metrik biaya yang terkait dengan aset data.
Cloud Data Quality Engine	Cloud Run	Aplikasi yang menjalankan pemeriksaan kualitas data untuk tabel dan kolom.
Temuan kualitas data	BigQuery	Tabel BigQuery yang mencatat perbedaan yang teridentifikasi antara aturan kualitas data yang ditentukan dan kualitas aset data yang sebenarnya.
Komponen pelaporan
Scheduler	Cloud Scheduler	Layanan yang mengontrol kapan Cloud Data Quality Engine berjalan dan kapan pemeriksaan Perlindungan Data Sensitif terjadi.
Mesin Pelaporan	Cloud Run	Aplikasi yang membuat laporan yang membantu melacak dan mengukur kepatuhan terhadap kontrol framework CDMC.
Temuan dan aset	BigQuery dan Pub/Sub	Laporan BigQuery tentang perbedaan atau inkonsistensi dalam kontrol pengelolaan data, seperti tag yang tidak ada, klasifikasi yang salah, atau lokasi penyimpanan yang tidak mematuhi kebijakan.
Ekspor tag	BigQuery	Tabel BigQuery yang berisi informasi tag yang diekstrak dari Data Catalog.
Komponen lainnya
Manajemen kebijakan	Organization Policy Service	Layanan yang menentukan dan menerapkan batasan terkait tempat data dapat disimpan secara geografis.
Kebijakan akses berbasis atribut	Access Context Manager	Layanan yang menentukan dan menerapkan kebijakan akses terperinci berbasis atribut sehingga hanya pengguna yang berwenang dari lokasi dan perangkat yang diizinkan yang dapat mengakses informasi sensitif.
Metadata	Data Catalog	Layanan yang menyimpan informasi metadata tentang tabel yang sedang digunakan dalam data mesh.
Tag Engine	Cloud Run	Aplikasi yang menambahkan tag ke data dalam tabel BigQuery.
Laporan CDMC	Data Studio	Dasbor yang memungkinkan analis Anda melihat laporan yang dihasilkan oleh mesin arsitektur CDMC.

Penerapan CDMC

Tabel berikut menjelaskan cara arsitektur mengimplementasikan kontrol utama dalam framework CDMC.

Persyaratan kontrol CDMC	Penerapan
Kepatuhan kontrol data	Report Engine mendeteksi aset data yang tidak mematuhi kebijakan melalui dan memublikasikan temuan ke topik Pub/Sub. Temuan ini juga dimuat ke BigQuery untuk pelaporan menggunakan Looker Studio.
Kepemilikan data ditetapkan untuk data yang dimigrasikan dan yang dihasilkan cloud	Data Catalog secara otomatis mengambil metadata teknis dari BigQuery. Tag Engine menerapkan tag metadata bisnis seperti nama pemilik dan tingkat sensitivitas dari tabel referensi, yang membantu memastikan bahwa semua data sensitif diberi tag dengan informasi pemilik untuk kepatuhan. Proses pemberian tag otomatis ini membantu menyediakan tata kelola dan kepatuhan data dengan mengidentifikasi dan memberi label pada data sensitif dengan informasi pemilik yang sesuai.
Sumber dan konsumsi data diatur dan didukung oleh otomatisasi	Data Catalog mengklasifikasikan aset data dengan memberi tag `is_authoritative` saat aset tersebut merupakan sumber otoritatif. Data Catalog otomatis menyimpan informasi tersebut, beserta metadata teknis, dalam daftar data. Report Engine dan Tag Engine dapat memvalidasi dan melaporkan pendaftaran data sumber tepercaya menggunakan Pub/Sub.
Kedaulatan data dan pergerakan data lintas batas dikelola	Organization Policy Service menentukan region penyimpanan yang diizinkan untuk aset data dan Access Context Manager membatasi akses berdasarkan lokasi pengguna. Data Catalog menyimpan lokasi penyimpanan yang disetujui sebagai tag metadata. Report Engine membandingkan tag ini dengan lokasi aset data sebenarnya di BigQuery dan memublikasikan setiap perbedaan sebagai temuan menggunakan Pub/Sub. Security Command Center memberikan lapisan pemantauan tambahan dengan menghasilkan temuan kerentanan jika data disimpan atau diakses di luar kebijakan yang ditentukan.
Katalog data diterapkan, digunakan, dan dapat dioperasikan	Data Catalog menyimpan dan memperbarui metadata teknis untuk semua aset data BigQuery, sehingga secara efektif membuat Data Catalog yang disinkronkan secara berkelanjutan. Katalog Data memastikan bahwa setiap tabel dan tampilan yang baru atau diubah segera ditambahkan ke katalog, sehingga inventaris aset data selalu up-to-date.
Klasifikasi data ditetapkan dan digunakan	Sensitive Data Protection memeriksa data BigQuery dan mengidentifikasi jenis informasi sensitif. Temuan ini kemudian diberi peringkat berdasarkan tabel referensi klasifikasi, dan tingkat sensitivitas tertinggi ditetapkan sebagai tag di Data Catalog pada tingkat kolom dan tabel. Tag Engine mengelola proses ini dengan memperbarui Katalog Data menggunakan tag sensitivitas setiap kali aset data baru ditambahkan atau aset data yang ada diubah. Proses ini memastikan klasifikasi data yang terus diperbarui berdasarkan sensitivitas, yang dapat Anda pantau dan laporkan menggunakan Pub/Sub dan alat pelaporan terintegrasi.
Hak kepemilikan data dikelola, diterapkan, dan dilacak	Tag kebijakan BigQuery mengontrol akses ke data sensitif di tingkat kolom, sehingga hanya pengguna yang diizinkan yang dapat mengakses data tertentu berdasarkan tag kebijakan yang ditetapkan kepada mereka. IAM mengelola akses keseluruhan ke data warehouse, sementara Data Catalog menyimpan klasifikasi sensitivitas. Pemeriksaan rutin dilakukan untuk memastikan semua data sensitif memiliki tag kebijakan yang sesuai, dengan setiap perbedaan dilaporkan menggunakan Pub/Sub untuk perbaikan.
Akses, penggunaan, dan hasil data yang etis dikelola	Perjanjian berbagi data untuk penyedia dan konsumen disimpan di data warehouse BigQuery khusus untuk mengontrol tujuan penggunaan. Data Catalog memberi label pada aset data dengan informasi perjanjian penyedia, sementara perjanjian konsumen ditautkan ke binding IAM untuk kontrol akses. Label kueri menerapkan tujuan konsumsi, yang mewajibkan konsumen untuk menentukan tujuan yang valid saat membuat kueri data sensitif, yang divalidasi berdasarkan hak mereka di BigQuery. Jejak audit di BigQuery melacak semua akses data dan memastikan kepatuhan terhadap perjanjian berbagi data.
Data diamankan, dan kontrol dibuktikan	Enkripsi dalam penyimpanan default Google membantu melindungi data yang disimpan di disk. Cloud KMS mendukung kunci enkripsi yang dikelola pelanggan (CMEK) untuk pengelolaan kunci yang lebih baik. BigQuery menerapkan penyamaran data dinamis tingkat kolom untuk penghapusan identitas dan mendukung penghapusan identitas tingkat aplikasi selama penyerapan data. Data Catalog menyimpan tag metadata untuk teknik enkripsi dan de-identifikasi yang diterapkan pada aset data. Pemeriksaan otomatis memastikan bahwa metode enkripsi dan anonimisasi sesuai dengan kebijakan keamanan yang telah ditentukan sebelumnya, dengan setiap perbedaan yang dilaporkan sebagai temuan menggunakan Pub/Sub.
Framework privasi data ditetapkan dan beroperasi	Data Catalog memberi tag pada aset data sensitif dengan informasi yang relevan untuk penilaian dampak, seperti lokasi subjek dan link laporan penilaian. Tag Engine menerapkan tag ini berdasarkan sensitivitas data dan tabel kebijakan di BigQuery, yang menentukan persyaratan penilaian berdasarkan data dan tempat tinggal subjek. Proses pemberian tag otomatis ini memungkinkan pemantauan dan pelaporan berkelanjutan terhadap kepatuhan terhadap persyaratan penilaian dampak, sehingga memastikan bahwa penilaian dampak perlindungan data (DPIA) atau penilaian dampak perlindungan (PIA) dilakukan jika diperlukan.
Siklus proses data direncanakan dan dikelola	Data Catalog memberi label pada aset data dengan kebijakan retensi, yang menentukan periode retensi dan tindakan akhir masa berlaku (seperti pengarsipan atau penghapusan). Record Manager mengotomatiskan penerapan kebijakan ini dengan menghapus permanen atau mengarsipkan tabel BigQuery berdasarkan tag yang ditentukan. Penerapan ini memastikan kepatuhan terhadap kebijakan siklus proses data dan mempertahankan kepatuhan terhadap persyaratan retensi data, dengan setiap perbedaan yang terdeteksi dan dilaporkan menggunakan Pub/Sub.
Kualitas data dikelola	Cloud Data Quality Engine menentukan dan menjalankan aturan kualitas data pada kolom tabel tertentu, mengukur kualitas data berdasarkan metrik seperti kebenaran dan kelengkapan. Hasil dari pemeriksaan ini, termasuk persentase keberhasilan dan nilai minimum, disimpan sebagai tag di Data Catalog. Dengan menyimpan hasil ini, kualitas data dapat dipantau dan dilaporkan secara berkelanjutan, dengan masalah atau penyimpangan dari nilai minimum yang dapat diterima dipublikasikan sebagai temuan menggunakan Pub/Sub.
Prinsip pengelolaan biaya ditetapkan dan diterapkan	Data Catalog menyimpan metrik terkait biaya untuk aset data, seperti biaya kueri, biaya penyimpanan, dan biaya keluar data, yang dihitung menggunakan informasi penagihan yang diekspor dari Penagihan Cloud ke BigQuery. Menyimpan metrik terkait biaya memungkinkan pelacakan dan analisis biaya yang komprehensif, memastikan kepatuhan terhadap kebijakan biaya dan pemanfaatan resource yang efisien, dengan anomali apa pun yang dilaporkan menggunakan Pub/Sub.
Asal dan silsilah data dipahami	Fitur silsilah data bawaan Data Catalog melacak asal dan silsilah aset data, yang secara visual merepresentasikan aliran data. Selain itu, skrip penyerapan data mengidentifikasi dan memberi tag pada sumber asli data di Data Catalog, sehingga meningkatkan ketertelusuran data kembali ke asalnya.

Pengelolaan akses data

Akses arsitektur ke data dikontrol melalui proses independen yang memisahkan kontrol operasional (misalnya, menjalankan tugas Dataflow) dari kontrol akses data. Akses pengguna ke layanan Google Cloud ditentukan oleh masalah lingkungan atau operasional dan disediakan serta disetujui oleh grup rekayasa cloud. Akses pengguna ke aset data (misalnya, tabel BigQuery) merupakan masalah privasi, peraturan, atau tata kelola dan tunduk pada perjanjian akses antara pihak yang membuat dan menggunakan data serta dikontrol melalui proses berikut. Google Cloud Diagram berikut menunjukkan cara akses data disediakan melalui interaksi berbagai komponen software.

Pengelolaan akses data

Seperti yang ditunjukkan dalam diagram sebelumnya, aktivasi akses data ditangani oleh proses berikut:

Aset data cloud dikumpulkan dan diinventarisasi oleh Katalog Data.
Pengelola alur kerja mengambil aset data dari Data Catalog.
Pemilik data diaktifkan ke pengelola alur kerja.

Pengoperasian pengelolaan akses data adalah sebagai berikut:

Konsumen data membuat permintaan untuk aset tertentu.
Pemilik data aset akan diberi tahu tentang permintaan tersebut.
Pemilik data menyetujui atau menolak permintaan tersebut.
Jika permintaan disetujui, pengelola alur kerja akan meneruskan grup, aset, dan tag terkait ke pemeta IAM.
Pemeta IAM menerjemahkan tag pengelola alur kerja menjadi izin IAM, dan memberikan izin IAM untuk aset data kepada grup yang ditentukan.
Saat pengguna ingin mengakses aset data, IAM akan mengevaluasi akses ke aset Google Cloud berdasarkan izin grup.
Jika diizinkan, pengguna akan mengakses aset data.

Jaringan

Proses keamanan data dimulai di aplikasi sumber, yang mungkin berada di lokal atau di lingkungan lain di luar projectGoogle Cloud target. Sebelum transfer jaringan terjadi, aplikasi ini menggunakan Federasi Identitas Beban Kerja untuk mengautentikasi dirinya secara aman ke Google Cloud API. Dengan menggunakan kredensial ini, aplikasi berinteraksi dengan Cloud KMS untuk mendapatkan atau membungkus kunci yang diperlukan, lalu menggunakan library Tink untuk melakukan enkripsi dan penghilangan identitas awal pada payload data sensitif sesuai dengan template yang telah ditentukan sebelumnya.

Setelah muatan data dilindungi, muatan harus ditransfer dengan aman ke dalam project penyerapan Google Cloud . Untuk aplikasi lokal, Anda dapat menggunakan Cloud Interconnect atau Cloud VPN. Dalam jaringanGoogle Cloud , gunakan Private Service Connect untuk merutekan data ke endpoint penyerapan dalam jaringan VPC project target. Private Service Connect memungkinkan aplikasi sumber terhubung ke Google API menggunakan alamat IP pribadi, sehingga memastikan traffic tidak diekspos ke internet.

Seluruh jalur jaringan dan layanan penyerapan target (Cloud Storage, BigQuery, dan Pub/Sub) dalam project penyerapan diamankan oleh perimeter Kontrol Layanan VPC. Perimeter ini menerapkan batas keamanan, sehingga memastikan bahwa data yang dilindungi yang berasal dari sumber hanya dapat di-ingest ke dalam layananGoogle Cloud yang sah dalam project tertentu tersebut.

Logging

Arsitektur ini menggunakan kemampuan Cloud Logging yang disediakan oleh cetak biru dasar perusahaan.

Pipeline

Arsitektur mesh data perusahaan menggunakan serangkaian pipeline untuk menyediakan infrastruktur, orkestrasi, set data, pipeline data, dan komponen aplikasi. Pipeline deployment resource arsitektur menggunakan Terraform sebagai alat infrastruktur sebagai kode (IaC) dan Cloud Build sebagai layanan CI/CD untuk men-deploy konfigurasi Terraform ke lingkungan arsitektur. Diagram berikut menunjukkan hubungan antara pipeline.

Hubungan pipeline

Pipeline fondasi dan pipeline infrastruktur adalah bagian dari blueprint fondasi perusahaan. Tabel berikut menjelaskan tujuan pipeline dan resource yang disediakan.

Pipeline	Disediakan oleh	Resource
Pipeline fondasi	Bootstrap	Folder dan subfolder platform data Project umum Akun layanan pipeline infrastruktur Pemicu Cloud Build untuk pipeline Infrastruktur VPC Bersama Perimeter Kontrol Layanan VPC
Pipeline infrastruktur	Pipeline fondasi	Project konsumen Akun layanan Service Catalog Pemicu Cloud Build untuk pipeline Service Catalog Akun layanan pipeline artefak Pemicu Cloud Build untuk pipeline artefak
Pipeline Service Catalog	Pipeline infrastruktur	Resource yang di-deploy di bucket Service Catalog
Pipeline artefak	Pipeline infrastruktur	Pipeline artefak menghasilkan berbagai container dan komponen lain dari codebase yang digunakan oleh data mesh.

Setiap pipeline memiliki serangkaian repositorinya sendiri yang digunakan untuk menarik kode dan file konfigurasi. Setiap repositori memiliki pemisahan tugas di mana pengirim dan pemberi persetujuan deployment kode operasional adalah tanggung jawab grup yang berbeda.

Deployment interaktif melalui Katalog Layanan

Lingkungan interaktif adalah lingkungan pengembangan dalam arsitektur dan ada di bawah folder pengembangan. Antarmuka utama untuk lingkungan interaktif adalah Service Catalog, yang memungkinkan developer menggunakan template yang telah dikonfigurasi sebelumnya untuk membuat instance layanan Google. Template yang telah dikonfigurasi sebelumnya ini dikenal sebagai template layanan. Template layanan membantu Anda menerapkan postur keamanan, seperti mewajibkan enkripsi CMEK, dan juga mencegah pengguna Anda memiliki akses langsung ke Google API.

Diagram berikut menunjukkan komponen lingkungan interaktif dan cara ilmuwan data men-deploy resource.

Lingkungan interaktif dengan Katalog Layanan.

Untuk men-deploy resource menggunakan Service Catalog, langkah-langkah berikut terjadi:

Engineer MLOps menempatkan template resource Terraform untuk Google Cloud ke dalam repositori Git.
Perintah Git Commit memicu pipeline Cloud Build.
Cloud Build menyalin template dan file konfigurasi terkait ke Cloud Storage.
Engineer MLOps menyiapkan solusi Katalog Layanan dan Katalog Layanan secara manual. Kemudian, engineer membagikan Katalog Layanan ke project layanan di lingkungan interaktif.
Data scientist memilih resource dari Service Catalog.
Service Catalog men-deploy template ke lingkungan interaktif.
Resource akan menarik skrip konfigurasi yang diperlukan.
Ilmuwan data berinteraksi dengan resource.

Pipeline artefak

Proses penyerapan data menggunakan Managed Airflow dan Dataflow untuk mengatur pergerakan dan transformasi data dalam domain data. Pipeline artefak membangun semua resource yang diperlukan untuk penyerapan data dan memindahkan resource ke lokasi yang sesuai agar layanan dapat mengaksesnya. Pipeline artefak membuat artefak container yang digunakan oleh pengorkestrasi.

Kontrol keamanan

Arsitektur data mesh perusahaan menggunakan model keamanan pertahanan mendalam berlapis yang mencakup kemampuan,layanan, dan kemampuan keamanan default yang dikonfigurasi melalui cetak biru fondasi perusahaan. Google Cloud Google CloudDiagram berikut menunjukkan pelapisan berbagai kontrol keamanan untuk arsitektur.

Kontrol keamanan dalam arsitektur mesh data.

Tabel berikut menjelaskan kontrol keamanan yang terkait dengan resource di setiap lapisan.

Lapisan	Resource	Kontrol keamanan
Framework CDMC	Google Cloud Penerapan CDMC	Menyediakan framework tata kelola yang membantu mengamankan, mengelola, dan mengontrol aset data Anda. Lihat Framework Kontrol Utama CDMC untuk mengetahui informasi selengkapnya.
Deployment	Pipeline infrastruktur	Menyediakan serangkaian pipeline yang men-deploy infrastruktur, membangun container, dan membuat pipeline data. Penggunaan pipeline memungkinkan audit, keterlacakan, dan pengulangan.
	Pipeline artefak	Men-deploy berbagai komponen yang tidak di-deploy oleh pipeline infrastruktur.
	Template Terraform	Membangun infrastruktur sistem.
	Open Policy Agent	Membantu memastikan bahwa platform sesuai dengan kebijakan yang dipilih.
Jaringan	Private Service Connect	Menyediakan perlindungan terhadap pencurian data di sekitar resource arsitektur di lapisan API dan lapisan IP. Memungkinkan Anda berkomunikasi dengan Google Cloud API menggunakan alamat IP pribadi sehingga Anda dapat menghindari pemaparan traffic ke internet.
	Jaringan VPC dengan alamat IP pribadi	Membantu menghilangkan eksposur terhadap ancaman yang terhubung ke internet.
	Kontrol Layanan VPC	Membantu melindungi resource sensitif dari pemindahan data yang tidak sah.
	Firewall	Membantu melindungi jaringan VPC dari akses yang tidak sah.
Pengelolaan Akses	Access Context Manager	Mengontrol siapa yang dapat mengakses resource apa dan membantu mencegah penggunaan resource Anda yang tidak sah.
	Workload Identity Federation	Tidak memerlukan kredensial eksternal untuk mentransfer data ke platform dari lingkungan lokal.
	Data Catalog	Menyediakan indeks aset yang tersedia untuk pengguna.
	IAM	Menyediakan akses terperinci.
Enkripsi	Cloud KMS	Memungkinkan Anda mengelola kunci dan rahasia enkripsi, serta membantu melindungi data Anda melalui enkripsi saat disimpan dan enkripsi saat dikirim.
	Secret Manager	Menyediakan penyimpanan rahasia untuk pipeline yang dikontrol oleh IAM.
	Enkripsi dalam penyimpanan	Secara default, Google Cloud mengenkripsi data dalam penyimpanan.
	Enkripsi saat transit	Secara default, Google Cloud mengenkripsi data dalam transit.
Detektif	Security Command Center	Membantu Anda mendeteksi kesalahan konfigurasi dan aktivitas berbahaya di organisasi Anda. Google Cloud
	Arsitektur berkelanjutan	Terus-menerus memeriksa organisasi Anda berdasarkan serangkaian kebijakan OPA yang telah Anda tetapkan. Google Cloud
	Pemberi Rekomendasi IAM	Menganalisis izin pengguna dan memberikan saran tentang cara mengurangi izin untuk membantu menerapkan prinsip hak istimewa terendah.
	Analisis Firewall	Menganalisis aturan firewall, mengidentifikasi aturan firewall yang terlalu permisif, dan menyarankan firewall yang lebih ketat untuk membantu memperkuat postur keamanan Anda secara keseluruhan.
	Cloud Logging	Memberikan visibilitas ke dalam aktivitas sistem dan membantu mengaktifkan deteksi anomali dan aktivitas berbahaya.
	Cloud Monitoring	Melacak sinyal dan peristiwa utama yang dapat membantu mengidentifikasi aktivitas mencurigakan.
Preventif	Kebijakan Organisasi	Memungkinkan Anda mengontrol dan membatasi tindakan dalam organisasi Google Cloud Anda.

Workflows

Bagian berikut menguraikan alur kerja produsen data dan alur kerja konsumen data, serta memastikan kontrol akses yang sesuai berdasarkan sensitivitas data dan peran pengguna.

Alur kerja produsen data

Diagram berikut menunjukkan cara data dilindungi saat ditransfer ke BigQuery.

Alur kerja produsen data

Alur kerja untuk transfer data adalah sebagai berikut:

Aplikasi yang terintegrasi dengan Workload Identity Federation menggunakan Cloud KMS untuk mendekripsi kunci enkripsi gabungan.
Aplikasi menggunakan library Tink untuk menyamarkan atau mengenkripsi data menggunakan template.
Aplikasi mentransfer data ke project penyerapan di Google Cloud.
Data tiba di Cloud Storage, BigQuery, atau Pub/Sub.
Dalam project penyerapan, data didekripsi atau diidentifikasi ulang menggunakan template.
Data yang didekripsi dienkripsi atau disamarkan berdasarkan template de-identifikasi lain, lalu ditempatkan di project yang tidak rahasia. Tag diterapkan oleh mesin pemberian tag sebagaimana mestinya.
Data dari project non-rahasia ditransfer ke project rahasia dan diidentifikasi ulang.

Akses data berikut diizinkan:

Pengguna yang memiliki akses ke project rahasia dapat mengakses semua data teks biasa mentah.
Pengguna yang memiliki akses ke project non-rahasia dapat mengakses data yang disamarkan, di-tokenisasi, atau dienkripsi berdasarkan tag yang terkait dengan data dan izin mereka.

Alur kerja konsumen data

Langkah-langkah berikut menjelaskan cara konsumen dapat mengakses data yang disimpan di BigQuery.

Konsumen data menelusuri aset data menggunakan Data Catalog.
Setelah konsumen menemukan aset yang mereka cari, konsumen data akan meminta akses ke aset data.
Pemilik data memutuskan apakah akan memberikan akses ke aset.
Jika mendapatkan akses, konsumen dapat menggunakan notebook dan Katalog Solusi untuk membuat lingkungan tempat mereka dapat menganalisis dan mengubah aset data.

Menyatukan semuanya

Repositori GitHub memberikan petunjuk mendetail tentang cara men-deploy data mesh di Google Cloud setelah Anda men-deploy fondasi perusahaan. Proses untuk men-deploy arsitektur ini melibatkan modifikasi repositori infrastruktur yang ada dan men-deploy komponen khusus data mesh baru.

Selesaikan langkah-langkah berikut:

Selesaikan semua prasyarat, termasuk yang berikut:
1. Instal Google Cloud CLI, Terraform, Tink, Java, dan Go.
2. Deploy enterprise foundations blueprint (v4.1).
3. Pertahankan repositori lokal berikut:
  - gcp-data-mesh-foundations
  - gcp-bootstrap
  - gcp-environments
  - gcp-networks
  - gcp-org
  - gcp-projects
Ubah cetak biru dasar yang ada, lalu deploy aplikasi data mesh. Untuk setiap item, selesaikan hal berikut:
1. Di repositori target, periksa cabang Plan.
2. Untuk menambahkan komponen data mesh, salin file dan direktori yang relevan dari gcp-data-mesh-foundations ke direktori dasar yang sesuai. Timpa file jika diperlukan.
3. Perbarui variabel, peran, dan setelan data mesh di file Terraform (misalnya, *.tfvars dan *.tf). Tetapkan token GitHub sebagai variabel lingkungan.
4. Lakukan operasi inisialisasi, rencana, dan penerapan Terraform pada setiap repositori.
5. Lakukan perubahan, kirim kode ke repositori jarak jauh, buat permintaan tarik, dan gabungkan ke lingkungan pengembangan, non-produksi, dan produksi.

Men-deploy platform analisis dan pengelolaan data perusahaan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Arsitektur

Keputusan arsitektur penting

Identitas: Memetakan peran ke grup

Infrastruktur

Tata kelola data

Produsen data berbasis domain

Konsumen data berbasis domain

Struktur organisasi

Folder platform data

Folder produser

Folder konsumen

Folder umum

Arsitektur CDMC

Penerapan CDMC

Pengelolaan akses data

Jaringan

Logging

Pipeline

Deployment interaktif melalui Katalog Layanan

Pipeline artefak

Kontrol keamanan

Workflows

Alur kerja produsen data

Alur kerja konsumen data

Menyatukan semuanya

Langkah berikutnya

Men-deploy platform analisis dan pengelolaan data perusahaan