Platform pengelolaan dan analisis data perusahaan menyediakan enclave tempat Anda dapat menyimpan, menganalisis, dan memanipulasi informasi sensitif sambil mempertahankan kontrol keamanan. Anda dapat menggunakan arsitektur mesh data perusahaan untuk men-deploy platform di Google Cloud untuk pengelolaan dan analisis data. Arsitektur dirancang untuk berfungsi di lingkungan hybrid, tempat komponen Google Cloud berinteraksi dengan komponen lokal dan proses operasi yang ada.
Arsitektur mesh data perusahaan mencakup hal berikut:
- Repositori
GitHub
yang berisi kumpulan konfigurasi, skrip, dan kode Terraform untuk membangun
berikut ini:
- Project tata kelola yang memungkinkan Anda menggunakan penerapan Framework Kontrol Utama Kemampuan Pengelolaan Data Cloud (CDMS) Google.
- Contoh platform data yang mendukung alur kerja interaktif dan produksi.
- Lingkungan produser dalam platform data yang mendukung beberapa domain data. Domain data adalah pengelompokan logis elemen data.
- Lingkungan konsumen dalam platform data yang mendukung beberapa project konsumen.
- Layanan transfer data yang menggunakan Workload Identity Federation dan library enkripsi Tink untuk membantu Anda mentransfer data ke dalam Google Cloud secara aman.
- Contoh domain data yang berisi project penyerapan, tidak rahasia, dan rahasia.
- Contoh sistem akses data yang memungkinkan konsumen data meminta akses ke set data dan pemilik data memberikan akses ke set data tersebut. Contoh ini juga mencakup pengelola alur kerja yang mengubah izin IAM kumpulan data tersebut.
- Panduan untuk arsitektur, desain, kontrol keamanan, dan proses operasional yang akan Anda terapkan menggunakan arsitektur ini (dokumen ini).
Arsitektur mesh data perusahaan dirancang agar kompatibel dengan cetak biru dasar-dasar perusahaan. Cetak biru fondasi perusahaan menyediakan sejumlah layanan tingkat dasar yang digunakan oleh arsitektur ini, seperti jaringan VPC dan logging. Anda dapat men-deploy arsitektur ini tanpa men-deploy blueprint fondasi perusahaan jika Google Cloud lingkungan Anda menyediakan fungsi yang diperlukan.
Dokumen ini ditujukan untuk arsitek cloud, data scientist, data engineer, dan arsitek keamanan yang dapat menggunakan arsitektur ini untuk membangun dan men-deploy layanan data yang komprehensif di Google Cloud. Dokumen ini mengasumsikan bahwa Anda telah memahami konsep data mesh, Google Cloud layanan data, dan penerapan Google Cloud framework CDMC.
Arsitektur
Arsitektur mesh data perusahaan menggunakan pendekatan berlayer untuk menyediakan kemampuan yang memungkinkan penyerapan data, pemrosesan data, dan tata kelola. Arsitektur ini ditujukan untuk di-deploy dan dikontrol melalui alur kerja CI/CD. Diagram berikut menunjukkan hubungan antara lapisan data yang di-deploy oleh arsitektur ini dengan lapisan lain di lingkungan Anda.
Diagram ini mencakup hal berikut:
- Google Cloud infrastruktur menyediakan kemampuan keamanan seperti enkripsi saat tidak digunakan dan enkripsi saat dalam perjalanan, serta blok bangunan dasar seperti komputasi dan penyimpanan.
- Fondasi perusahaan menyediakan dasar pengukuran resource seperti sistem identitas, jaringan, logging, pemantauan, dan deployment yang memungkinkan Anda menggunakan Google Cloud untuk workload data Anda.
- Lapisan data menyediakan berbagai kemampuan seperti penyerapan data, penyimpanan data, kontrol akses data, tata kelola data, pemantauan data, dan berbagi data.
- Lapisan aplikasi merepresentasikan berbagai aplikasi berbeda yang menggunakan aset lapisan data.
- CI/CD menyediakan alat untuk mengotomatiskan penyediaan, konfigurasi, pengelolaan, dan deployment infrastruktur, alur kerja, dan komponen software. Komponen ini membantu Anda memastikan deployment yang konsisten, andal, dan dapat diaudit; meminimalkan kesalahan manual; dan mempercepat siklus pengembangan secara keseluruhan.
Untuk menunjukkan cara penggunaan lingkungan data, arsitektur ini mencakup contoh alur kerja data. Alur kerja data sampel akan memandu Anda melalui proses berikut: tata kelola data, penyerapan data, pemrosesan data, berbagi data, dan konsumsi data.
Keputusan arsitektur penting
Tabel berikut merangkum keputusan tingkat tinggi dari arsitektur.
| Area keputusan | Keputusan |
|---|---|
| Google Cloud arsitektur | |
Hierarki resource |
Arsitektur ini menggunakan hierarki resource dari blueprint dasar-dasar perusahaan. |
Jaringan |
Arsitektur ini mencakup contoh layanan transfer data yang menggunakan Workload Identity Federation dan library Tink. |
Peran dan izin IAM |
Arsitektur ini mencakup peran produsen data yang tersegmentasi, peran konsumen data, peran tata kelola data, dan peran platform data. |
| Layanan data umum | |
Metadata |
Arsitektur ini menggunakan Data Catalog untuk mengelola metadata data. |
Pengelolaan kebijakan terpusat |
Untuk mengelola kebijakan, arsitektur menggunakan penerapan framework CDMC Google Cloud. |
Pengelolaan akses data |
Untuk mengontrol akses ke data, arsitektur mencakup proses independen yang mewajibkan konsumen data untuk meminta akses ke aset data dari pemilik data. |
Kualitas data |
Arsitektur ini menggunakan Cloud Data Quality Engine untuk menentukan dan menjalankan aturan kualitas data pada kolom tabel yang ditentukan, mengukur kualitas data berdasarkan metrik seperti kebenaran dan kelengkapan. |
Keamanan data |
Arsitektur ini menggunakan kontrol pemberian tag, enkripsi, penyamaran, tokenisasi, dan IAM untuk memberikan keamanan data. |
| Domain data | |
Lingkungan data |
Arsitektur ini mencakup tiga lingkungan. Dua lingkungan (non-produksi dan produksi) adalah lingkungan operasional yang didorong oleh pipeline. Satu lingkungan (pengembangan) adalah lingkungan interaktif. |
Pemilik data |
Pemilik data menyerap, memproses, mengekspos, dan memberikan akses ke aset data. |
Konsumen data |
Konsumen data meminta akses ke aset data. |
| Orientasi dan operasi | |
Pipeline |
Arsitektur ini menggunakan pipeline berikut untuk men-deploy resource:
|
Repositori |
Setiap pipeline menggunakan repositori terpisah untuk memungkinkan pemisahan tanggung jawab. |
Alur proses |
Proses ini mengharuskan perubahan pada lingkungan produksi menyertakan pengirim dan pemberi persetujuan. |
| Cloud operations | |
Kartu skor produk data |
Report Engine membuat kartu skor produk data. |
Cloud Logging |
Arsitektur ini menggunakan infrastruktur logging dari cetak biru dasar perusahaan. |
Cloud Monitoring |
Arsitektur ini menggunakan infrastruktur pemantauan dari blueprint fondasi perusahaan. |
Identitas: Memetakan peran ke grup
Mesh data memanfaatkan arsitektur pengelolaan siklus proses identitas, otorisasi, dan autentikasi yang ada dalam cetak biru fondasi perusahaan. Pengguna tidak diberi peran secara langsung. Sebagai gantinya, grup adalah metode utama untuk menetapkan peran dan izin di IAM. Peran dan izin IAM ditetapkan selama pembuatan project melalui pipeline fondasi.
Data mesh mengaitkan grup dengan salah satu dari empat area utama: infrastruktur, tata kelola data, produsen data berbasis domain, dan konsumen berbasis domain.
Cakupan izin untuk grup ini adalah sebagai berikut:
- Cakupan izin grup infrastruktur adalah keseluruhan data mesh.
- Cakupan izin grup tata kelola data adalah project tata kelola data.
- Izin produsen dan konsumen berbasis domain dicakup ke domain data mereka.
Tabel berikut menunjukkan berbagai peran yang digunakan dalam penerapan mesh data ini dan izin terkaitnya.
Infrastruktur
| Grup | Deskripsi | Peran |
|---|---|---|
|
Administrator keseluruhan mesh data |
|
Tata kelola data
| Grup | Deskripsi | Peran |
|---|---|---|
|
Administrator project tata kelola data |
|
|
Developer yang membuat dan mengelola komponen tata kelola data |
Beberapa peran di project tata kelola data, termasuk
|
|
Pembaca informasi tata kelola data |
|
|
Administrator keamanan project tata kelola |
|
|
Grup dengan izin untuk menggunakan template tag |
|
|
Grup dengan izin untuk menggunakan template tag dan menambahkan tag |
|
|
Grup akun layanan untuk notifikasi Security Command Center |
Tidak ada. Ini adalah grup untuk keanggotaan, dan akun layanan dibuat dengan nama ini, yang memiliki izin yang diperlukan. |
Produsen data berbasis domain
| Grup | Deskripsi | Peran |
|---|---|---|
|
Administrator domain data tertentu |
|
|
Developer yang membangun dan mengelola produk data dalam domain data |
Beberapa peran di project domain data, termasuk
|
|
Pembaca informasi domain data |
|
|
Editor entri Data Catalog |
Peran untuk mengedit entri Data Catalog |
|
Data steward untuk domain data |
Peran untuk mengelola aspek metadata dan tata kelola data |
Konsumen data berbasis domain
| Grup | Deskripsi | Peran |
|---|---|---|
|
Administrator project konsumen tertentu |
|
|
Developer yang bekerja dalam project konsumen |
Beberapa peran di project konsumen, termasuk
|
|
Pembaca informasi project konsumen |
|
Struktur organisasi
Untuk membedakan antara operasi produksi dan data produksi, arsitektur ini menggunakan lingkungan yang berbeda untuk mengembangkan dan merilis alur kerja. Operasi produksi mencakup tata kelola, ketertelusuran, dan kemampuan pengulangan alur kerja serta kemampuan audit hasil alur kerja. Data produksi mengacu pada data yang mungkin sensitif yang Anda butuhkan untuk menjalankan organisasi Anda. Semua lingkungan dirancang untuk memiliki kontrol keamanan yang memungkinkan Anda menyerap dan mengoperasikan data Anda.
Untuk membantu data scientist dan engineer, arsitektur ini mencakup lingkungan interaktif, tempat developer dapat bekerja dengan lingkungan secara langsung dan menambahkan layanan melalui katalog solusi yang telah dikurasi. Lingkungan operasional didorong melalui pipeline yang memiliki arsitektur dan konfigurasi yang dikodifikasi.
Arsitektur ini menggunakan struktur organisasi cetak biru fondasi perusahaan sebagai dasar untuk men-deploy workload data. Diagram berikut menunjukkan folder dan project tingkat teratas yang digunakan dalam arsitektur mesh data perusahaan.
Tabel berikut menjelaskan folder dan project tingkat teratas yang merupakan bagian dari arsitektur.
| Folder | Komponen | Deskripsi |
|---|---|---|
|
|
Berisi pipeline deployment yang digunakan untuk mem-build artefak kode arsitektur. |
|
Berisi infrastruktur yang digunakan oleh Katalog Layanan untuk men-deploy resource di lingkungan interaktif. |
|
|
Berisi semua sumber daya yang digunakan oleh penerapan Google Cloud's terhadap framework CDMC. |
|
|
|
Berisi project dan resource platform data untuk mengembangkan kasus penggunaan dalam mode interaktif. |
|
|
Berisi project dan resource platform data untuk kasus penggunaan pengujian yang ingin Anda deploy di lingkungan operasional. |
|
|
Berisi project dan resource platform data untuk deployment ke produksi. |
Folder platform data
Folder platform data berisi semua komponen bidang data dan beberapa resource CDMC. Selain itu, folder platform data dan project tata kelola data berisi resource CDMC. Diagram berikut menunjukkan folder dan project yang di-deploy di folder platform data.
Setiap folder platform data mencakup folder lingkungan (produksi, non-produksi, dan pengembangan). Tabel berikut menjelaskan folder dalam setiap folder platform data.
| Folder | Deskripsi |
|---|---|
Produsen |
Berisi domain data. |
Konsumen |
Berisi project konsumen. |
Domain data |
Berisi project yang terkait dengan domain tertentu. |
Folder produser
Setiap folder produsen mencakup satu atau beberapa domain data. Domain data mengacu pada pengelompokan logis elemen data yang memiliki makna, tujuan, atau konteks bisnis yang sama. Domain data memungkinkan Anda mengategorikan dan mengatur aset data dalam organisasi. Diagram berikut menunjukkan struktur domain data. Arsitektur ini men-deploy project di folder platform data untuk setiap lingkungan.
Tabel berikut menjelaskan project yang di-deploy di folder platform data untuk setiap lingkungan.
| Project | Deskripsi |
|---|---|
Penyerapan |
Project penyerapan menyerap data ke dalam domain data. Arsitektur ini memberikan contoh cara melakukan streaming data ke BigQuery, Cloud Storage, dan Pub/Sub. Project penyerapan juga berisi contoh Dataflow dan Managed Service untuk Apache Airflow yang dapat Anda gunakan untuk mengatur transformasi dan pemindahan data yang diserap. |
Tidak rahasia |
Project non-rahasia berisi data yang telah dianonimkan. Anda dapat menyamarkan, membuat dalam penampung, mengenkripsi, membuat token, atau meng-obfuscate data. Gunakan tag kebijakan untuk mengontrol cara data ditampilkan. |
Rahasia |
Project rahasia berisi data teks biasa. Anda dapat mengontrol akses melalui izin IAM. |
Folder konsumen
Folder konsumen berisi project konsumen. Project konsumen menyediakan mekanisme untuk menyegmentasikan pengguna data berdasarkan batas kepercayaan yang diperlukan. Setiap project ditetapkan ke grup pengguna terpisah dan grup tersebut diberi akses ke aset data yang diperlukan berdasarkan project. Anda dapat menggunakan project konsumen untuk mengumpulkan, menganalisis, dan meningkatkan kualitas data untuk grup.
Folder umum
Folder umum berisi layanan yang digunakan oleh berbagai lingkungan dan project. Bagian ini menjelaskan kemampuan yang ditambahkan ke folder umum untuk mengaktifkan data mesh perusahaan.
Arsitektur CDMC
Arsitektur ini menggunakan arsitektur CDMC untuk tata kelola data. Fungsi tata kelola data berada di project tata kelola data di folder umum. Diagram berikut menunjukkan komponen arsitektur CDMC. Angka-angka dalam diagram menunjukkan kontrol utama yang ditangani dengan layanan Google Cloud.
Tabel berikut menjelaskan komponen arsitektur CDMC yang digunakan oleh arsitektur mesh data perusahaan.
| Komponen CDMC | Google Cloud layanan | Deskripsi |
|---|---|---|
| Komponen akses dan siklus proses | ||
Pengelolaan kunci |
Cloud KMS |
Layanan yang mengelola kunci enkripsi secara aman yang melindungi data sensitif. |
Pengelola Catatan |
Cloud Run |
Aplikasi yang menyimpan log dan catatan komprehensif tentang aktivitas pemrosesan data, sehingga organisasi dapat melacak dan mengaudit penggunaan data. |
Kebijakan pengarsipan |
BigQuery |
Tabel BigQuery yang berisi kebijakan penyimpanan untuk data. |
Hak |
BigQuery |
Tabel BigQuery yang menyimpan informasi tentang siapa yang dapat mengakses data sensitif. Tabel ini memastikan bahwa hanya pengguna yang diberi otorisasi yang dapat mengakses data tertentu berdasarkan peran dan hak istimewa mereka. |
| Komponen pemindaian | ||
Kehilangan data |
Sensitive Data Protection |
Layanan yang digunakan untuk memeriksa aset guna menemukan data sensitif. |
Temuan DLP |
BigQuery |
Tabel BigQuery yang mengatalogkan klasifikasi data dalam platform data. |
Kebijakan |
BigQuery |
Tabel BigQuery yang berisi praktik tata kelola data yang konsisten (misalnya, jenis akses data). |
Ekspor penagihan |
BigQuery |
Tabel yang menyimpan informasi biaya yang diekspor dari Penagihan Cloud untuk memungkinkan analisis metrik biaya yang terkait dengan aset data. |
Cloud Data Quality Engine |
Cloud Run |
Aplikasi yang menjalankan pemeriksaan kualitas data untuk tabel dan kolom. |
Temuan kualitas data |
BigQuery |
Tabel BigQuery yang mencatat perbedaan yang teridentifikasi antara aturan kualitas data yang ditentukan dan kualitas aset data yang sebenarnya. |
| Komponen pelaporan | ||
Scheduler |
Cloud Scheduler |
Layanan yang mengontrol kapan Cloud Data Quality Engine berjalan dan kapan pemeriksaan Perlindungan Data Sensitif terjadi. |
Mesin Pelaporan |
Cloud Run |
Aplikasi yang membuat laporan yang membantu melacak dan mengukur kepatuhan terhadap kontrol framework CDMC. |
Temuan dan aset |
BigQuery dan Pub/Sub |
Laporan BigQuery tentang perbedaan atau inkonsistensi dalam kontrol pengelolaan data, seperti tag yang tidak ada, klasifikasi yang salah, atau lokasi penyimpanan yang tidak mematuhi kebijakan. |
Ekspor tag |
BigQuery |
Tabel BigQuery yang berisi informasi tag yang diekstrak dari Data Catalog. |
| Komponen lainnya | ||
Manajemen kebijakan |
Organization Policy Service |
Layanan yang menentukan dan menerapkan batasan terkait tempat data dapat disimpan secara geografis. |
Kebijakan akses berbasis atribut |
Access Context Manager |
Layanan yang menentukan dan menerapkan kebijakan akses terperinci berbasis atribut sehingga hanya pengguna yang berwenang dari lokasi dan perangkat yang diizinkan yang dapat mengakses informasi sensitif. |
Metadata |
Data Catalog |
Layanan yang menyimpan informasi metadata tentang tabel yang sedang digunakan dalam data mesh. |
Tag Engine |
Cloud Run |
Aplikasi yang menambahkan tag ke data dalam tabel BigQuery. |
Laporan CDMC |
Data Studio |
Dasbor yang memungkinkan analis Anda melihat laporan yang dihasilkan oleh mesin arsitektur CDMC. |
Penerapan CDMC
Tabel berikut menjelaskan cara arsitektur mengimplementasikan kontrol utama dalam framework CDMC.
| Persyaratan kontrol CDMC | Penerapan |
|---|---|
Report Engine mendeteksi aset data yang tidak mematuhi kebijakan melalui dan memublikasikan temuan ke topik Pub/Sub. Temuan ini juga dimuat ke BigQuery untuk pelaporan menggunakan Looker Studio. |
|
Kepemilikan data ditetapkan untuk data yang dimigrasikan dan yang dihasilkan cloud |
Data Catalog secara otomatis mengambil metadata teknis dari BigQuery. Tag Engine menerapkan tag metadata bisnis seperti nama pemilik dan tingkat sensitivitas dari tabel referensi, yang membantu memastikan bahwa semua data sensitif diberi tag dengan informasi pemilik untuk kepatuhan. Proses pemberian tag otomatis ini membantu menyediakan tata kelola dan kepatuhan data dengan mengidentifikasi dan memberi label pada data sensitif dengan informasi pemilik yang sesuai. |
Sumber dan konsumsi data diatur dan didukung oleh otomatisasi |
Data Catalog mengklasifikasikan aset data dengan memberi tag |
Organization Policy Service menentukan region penyimpanan yang diizinkan untuk aset data dan Access Context Manager membatasi akses berdasarkan lokasi pengguna. Data Catalog menyimpan lokasi penyimpanan yang disetujui sebagai tag metadata. Report Engine membandingkan tag ini dengan lokasi aset data sebenarnya di BigQuery dan memublikasikan setiap perbedaan sebagai temuan menggunakan Pub/Sub. Security Command Center memberikan lapisan pemantauan tambahan dengan menghasilkan temuan kerentanan jika data disimpan atau diakses di luar kebijakan yang ditentukan. |
|
Data Catalog menyimpan dan memperbarui metadata teknis untuk semua aset data BigQuery, sehingga secara efektif membuat Data Catalog yang disinkronkan secara berkelanjutan. Katalog Data memastikan bahwa setiap tabel dan tampilan yang baru atau diubah segera ditambahkan ke katalog, sehingga inventaris aset data selalu up-to-date. |
|
Sensitive Data Protection memeriksa data BigQuery dan mengidentifikasi jenis informasi sensitif. Temuan ini kemudian diberi peringkat berdasarkan tabel referensi klasifikasi, dan tingkat sensitivitas tertinggi ditetapkan sebagai tag di Data Catalog pada tingkat kolom dan tabel. Tag Engine mengelola proses ini dengan memperbarui Katalog Data menggunakan tag sensitivitas setiap kali aset data baru ditambahkan atau aset data yang ada diubah. Proses ini memastikan klasifikasi data yang terus diperbarui berdasarkan sensitivitas, yang dapat Anda pantau dan laporkan menggunakan Pub/Sub dan alat pelaporan terintegrasi. |
|
Tag kebijakan BigQuery mengontrol akses ke data sensitif di tingkat kolom, sehingga hanya pengguna yang diizinkan yang dapat mengakses data tertentu berdasarkan tag kebijakan yang ditetapkan kepada mereka. IAM mengelola akses keseluruhan ke data warehouse, sementara Data Catalog menyimpan klasifikasi sensitivitas. Pemeriksaan rutin dilakukan untuk memastikan semua data sensitif memiliki tag kebijakan yang sesuai, dengan setiap perbedaan dilaporkan menggunakan Pub/Sub untuk perbaikan. |
|
Perjanjian berbagi data untuk penyedia dan konsumen disimpan di data warehouse BigQuery khusus untuk mengontrol tujuan penggunaan. Data Catalog memberi label pada aset data dengan informasi perjanjian penyedia, sementara perjanjian konsumen ditautkan ke binding IAM untuk kontrol akses. Label kueri menerapkan tujuan konsumsi, yang mewajibkan konsumen untuk menentukan tujuan yang valid saat membuat kueri data sensitif, yang divalidasi berdasarkan hak mereka di BigQuery. Jejak audit di BigQuery melacak semua akses data dan memastikan kepatuhan terhadap perjanjian berbagi data. |
|
Enkripsi dalam penyimpanan default Google membantu melindungi data yang disimpan di disk. Cloud KMS mendukung kunci enkripsi yang dikelola pelanggan (CMEK) untuk pengelolaan kunci yang lebih baik. BigQuery menerapkan penyamaran data dinamis tingkat kolom untuk penghapusan identitas dan mendukung penghapusan identitas tingkat aplikasi selama penyerapan data. Data Catalog menyimpan tag metadata untuk teknik enkripsi dan de-identifikasi yang diterapkan pada aset data. Pemeriksaan otomatis memastikan bahwa metode enkripsi dan anonimisasi sesuai dengan kebijakan keamanan yang telah ditentukan sebelumnya, dengan setiap perbedaan yang dilaporkan sebagai temuan menggunakan Pub/Sub. |
|
Data Catalog memberi tag pada aset data sensitif dengan informasi yang relevan untuk penilaian dampak, seperti lokasi subjek dan link laporan penilaian. Tag Engine menerapkan tag ini berdasarkan sensitivitas data dan tabel kebijakan di BigQuery, yang menentukan persyaratan penilaian berdasarkan data dan tempat tinggal subjek. Proses pemberian tag otomatis ini memungkinkan pemantauan dan pelaporan berkelanjutan terhadap kepatuhan terhadap persyaratan penilaian dampak, sehingga memastikan bahwa penilaian dampak perlindungan data (DPIA) atau penilaian dampak perlindungan (PIA) dilakukan jika diperlukan. |
|
Data Catalog memberi label pada aset data dengan kebijakan retensi, yang menentukan periode retensi dan tindakan akhir masa berlaku (seperti pengarsipan atau penghapusan). Record Manager mengotomatiskan penerapan kebijakan ini dengan menghapus permanen atau mengarsipkan tabel BigQuery berdasarkan tag yang ditentukan. Penerapan ini memastikan kepatuhan terhadap kebijakan siklus proses data dan mempertahankan kepatuhan terhadap persyaratan retensi data, dengan setiap perbedaan yang terdeteksi dan dilaporkan menggunakan Pub/Sub. |
|
Cloud Data Quality Engine menentukan dan menjalankan aturan kualitas data pada kolom tabel tertentu, mengukur kualitas data berdasarkan metrik seperti kebenaran dan kelengkapan. Hasil dari pemeriksaan ini, termasuk persentase keberhasilan dan nilai minimum, disimpan sebagai tag di Data Catalog. Dengan menyimpan hasil ini, kualitas data dapat dipantau dan dilaporkan secara berkelanjutan, dengan masalah atau penyimpangan dari nilai minimum yang dapat diterima dipublikasikan sebagai temuan menggunakan Pub/Sub. |
|
Data Catalog menyimpan metrik terkait biaya untuk aset data, seperti biaya kueri, biaya penyimpanan, dan biaya keluar data, yang dihitung menggunakan informasi penagihan yang diekspor dari Penagihan Cloud ke BigQuery. Menyimpan metrik terkait biaya memungkinkan pelacakan dan analisis biaya yang komprehensif, memastikan kepatuhan terhadap kebijakan biaya dan pemanfaatan resource yang efisien, dengan anomali apa pun yang dilaporkan menggunakan Pub/Sub. |
|
Fitur silsilah data bawaan Data Catalog melacak asal dan silsilah aset data, yang secara visual merepresentasikan aliran data. Selain itu, skrip penyerapan data mengidentifikasi dan memberi tag pada sumber asli data di Data Catalog, sehingga meningkatkan ketertelusuran data kembali ke asalnya. |
Pengelolaan akses data
Akses arsitektur ke data dikontrol melalui proses independen yang memisahkan kontrol operasional (misalnya, menjalankan tugas Dataflow) dari kontrol akses data. Akses pengguna ke layanan Google Cloud ditentukan oleh masalah lingkungan atau operasional dan disediakan serta disetujui oleh grup rekayasa cloud. Akses pengguna ke aset data (misalnya, tabel BigQuery) merupakan masalah privasi, peraturan, atau tata kelola dan tunduk pada perjanjian akses antara pihak yang membuat dan menggunakan data serta dikontrol melalui proses berikut. Google Cloud Diagram berikut menunjukkan cara akses data disediakan melalui interaksi berbagai komponen software.
Seperti yang ditunjukkan dalam diagram sebelumnya, aktivasi akses data ditangani oleh proses berikut:
- Aset data cloud dikumpulkan dan diinventarisasi oleh Katalog Data.
- Pengelola alur kerja mengambil aset data dari Data Catalog.
- Pemilik data diaktifkan ke pengelola alur kerja.
Pengoperasian pengelolaan akses data adalah sebagai berikut:
- Konsumen data membuat permintaan untuk aset tertentu.
- Pemilik data aset akan diberi tahu tentang permintaan tersebut.
- Pemilik data menyetujui atau menolak permintaan tersebut.
- Jika permintaan disetujui, pengelola alur kerja akan meneruskan grup, aset, dan tag terkait ke pemeta IAM.
- Pemeta IAM menerjemahkan tag pengelola alur kerja menjadi izin IAM, dan memberikan izin IAM untuk aset data kepada grup yang ditentukan.
- Saat pengguna ingin mengakses aset data, IAM akan mengevaluasi akses ke aset Google Cloud berdasarkan izin grup.
- Jika diizinkan, pengguna akan mengakses aset data.
Jaringan
Proses keamanan data dimulai di aplikasi sumber, yang mungkin berada di lokal atau di lingkungan lain di luar projectGoogle Cloud target. Sebelum transfer jaringan terjadi, aplikasi ini menggunakan Federasi Identitas Beban Kerja untuk mengautentikasi dirinya secara aman ke Google Cloud API. Dengan menggunakan kredensial ini, aplikasi berinteraksi dengan Cloud KMS untuk mendapatkan atau membungkus kunci yang diperlukan, lalu menggunakan library Tink untuk melakukan enkripsi dan penghilangan identitas awal pada payload data sensitif sesuai dengan template yang telah ditentukan sebelumnya.
Setelah muatan data dilindungi, muatan harus ditransfer dengan aman ke dalam project penyerapan Google Cloud . Untuk aplikasi lokal, Anda dapat menggunakan Cloud Interconnect atau Cloud VPN. Dalam jaringanGoogle Cloud , gunakan Private Service Connect untuk merutekan data ke endpoint penyerapan dalam jaringan VPC project target. Private Service Connect memungkinkan aplikasi sumber terhubung ke Google API menggunakan alamat IP pribadi, sehingga memastikan traffic tidak diekspos ke internet.
Seluruh jalur jaringan dan layanan penyerapan target (Cloud Storage, BigQuery, dan Pub/Sub) dalam project penyerapan diamankan oleh perimeter Kontrol Layanan VPC. Perimeter ini menerapkan batas keamanan, sehingga memastikan bahwa data yang dilindungi yang berasal dari sumber hanya dapat di-ingest ke dalam layananGoogle Cloud yang sah dalam project tertentu tersebut.
Logging
Arsitektur ini menggunakan kemampuan Cloud Logging yang disediakan oleh cetak biru dasar perusahaan.
Pipeline
Arsitektur mesh data perusahaan menggunakan serangkaian pipeline untuk menyediakan infrastruktur, orkestrasi, set data, pipeline data, dan komponen aplikasi. Pipeline deployment resource arsitektur menggunakan Terraform sebagai alat infrastruktur sebagai kode (IaC) dan Cloud Build sebagai layanan CI/CD untuk men-deploy konfigurasi Terraform ke lingkungan arsitektur. Diagram berikut menunjukkan hubungan antara pipeline.
Pipeline fondasi dan pipeline infrastruktur adalah bagian dari blueprint fondasi perusahaan. Tabel berikut menjelaskan tujuan pipeline dan resource yang disediakan.
| Pipeline | Disediakan oleh | Resource |
|---|---|---|
Pipeline fondasi |
Bootstrap |
|
Pipeline infrastruktur |
Pipeline fondasi |
|
Pipeline Service Catalog |
Pipeline infrastruktur |
|
Pipeline artefak |
Pipeline infrastruktur |
Pipeline artefak menghasilkan berbagai container dan komponen lain dari codebase yang digunakan oleh data mesh. |
Setiap pipeline memiliki serangkaian repositorinya sendiri yang digunakan untuk menarik kode dan file konfigurasi. Setiap repositori memiliki pemisahan tugas di mana pengirim dan pemberi persetujuan deployment kode operasional adalah tanggung jawab grup yang berbeda.
Deployment interaktif melalui Katalog Layanan
Lingkungan interaktif adalah lingkungan pengembangan dalam arsitektur dan ada di bawah folder pengembangan. Antarmuka utama untuk lingkungan interaktif adalah Service Catalog, yang memungkinkan developer menggunakan template yang telah dikonfigurasi sebelumnya untuk membuat instance layanan Google. Template yang telah dikonfigurasi sebelumnya ini dikenal sebagai template layanan. Template layanan membantu Anda menerapkan postur keamanan, seperti mewajibkan enkripsi CMEK, dan juga mencegah pengguna Anda memiliki akses langsung ke Google API.
Diagram berikut menunjukkan komponen lingkungan interaktif dan cara ilmuwan data men-deploy resource.
Untuk men-deploy resource menggunakan Service Catalog, langkah-langkah berikut terjadi:
- Engineer MLOps menempatkan template resource Terraform untuk Google Cloud ke dalam repositori Git.
- Perintah Git Commit memicu pipeline Cloud Build.
- Cloud Build menyalin template dan file konfigurasi terkait ke Cloud Storage.
- Engineer MLOps menyiapkan solusi Katalog Layanan dan Katalog Layanan secara manual. Kemudian, engineer membagikan Katalog Layanan ke project layanan di lingkungan interaktif.
- Data scientist memilih resource dari Service Catalog.
- Service Catalog men-deploy template ke lingkungan interaktif.
- Resource akan menarik skrip konfigurasi yang diperlukan.
- Ilmuwan data berinteraksi dengan resource.
Pipeline artefak
Proses penyerapan data menggunakan Managed Airflow dan Dataflow untuk mengatur pergerakan dan transformasi data dalam domain data. Pipeline artefak membangun semua resource yang diperlukan untuk penyerapan data dan memindahkan resource ke lokasi yang sesuai agar layanan dapat mengaksesnya. Pipeline artefak membuat artefak container yang digunakan oleh pengorkestrasi.
Kontrol keamanan
Arsitektur data mesh perusahaan menggunakan model keamanan pertahanan mendalam berlapis yang mencakup kemampuan,layanan, dan kemampuan keamanan default yang dikonfigurasi melalui cetak biru fondasi perusahaan. Google Cloud Google CloudDiagram berikut menunjukkan pelapisan berbagai kontrol keamanan untuk arsitektur.
Tabel berikut menjelaskan kontrol keamanan yang terkait dengan resource di setiap lapisan.
| Lapisan | Resource | Kontrol keamanan |
|---|---|---|
Framework CDMC |
Google Cloud Penerapan CDMC |
Menyediakan framework tata kelola yang membantu mengamankan, mengelola, dan mengontrol aset data Anda. Lihat Framework Kontrol Utama CDMC untuk mengetahui informasi selengkapnya. |
Deployment |
Pipeline infrastruktur |
Menyediakan serangkaian pipeline yang men-deploy infrastruktur, membangun container, dan membuat pipeline data. Penggunaan pipeline memungkinkan audit, keterlacakan, dan pengulangan. |
Pipeline artefak |
Men-deploy berbagai komponen yang tidak di-deploy oleh pipeline infrastruktur. |
|
Template Terraform |
Membangun infrastruktur sistem. |
|
Open Policy Agent |
Membantu memastikan bahwa platform sesuai dengan kebijakan yang dipilih. |
|
Jaringan |
Private Service Connect |
Menyediakan perlindungan terhadap pencurian data di sekitar resource arsitektur di lapisan API dan lapisan IP. Memungkinkan Anda berkomunikasi dengan Google Cloud API menggunakan alamat IP pribadi sehingga Anda dapat menghindari pemaparan traffic ke internet. |
Jaringan VPC dengan alamat IP pribadi |
Membantu menghilangkan eksposur terhadap ancaman yang terhubung ke internet. |
|
Kontrol Layanan VPC |
Membantu melindungi resource sensitif dari pemindahan data yang tidak sah. |
|
Firewall |
Membantu melindungi jaringan VPC dari akses yang tidak sah. |
|
Pengelolaan Akses |
Access Context Manager |
Mengontrol siapa yang dapat mengakses resource apa dan membantu mencegah penggunaan resource Anda yang tidak sah. |
Workload Identity Federation |
Tidak memerlukan kredensial eksternal untuk mentransfer data ke platform dari lingkungan lokal. |
|
Data Catalog |
Menyediakan indeks aset yang tersedia untuk pengguna. |
|
IAM |
Menyediakan akses terperinci. |
|
Enkripsi |
Cloud KMS |
Memungkinkan Anda mengelola kunci dan rahasia enkripsi, serta membantu melindungi data Anda melalui enkripsi saat disimpan dan enkripsi saat dikirim. |
Secret Manager |
Menyediakan penyimpanan rahasia untuk pipeline yang dikontrol oleh IAM. |
|
Enkripsi dalam penyimpanan |
Secara default, Google Cloud mengenkripsi data dalam penyimpanan. |
|
Enkripsi saat transit |
Secara default, Google Cloud mengenkripsi data dalam transit. |
|
Detektif |
Security Command Center |
Membantu Anda mendeteksi kesalahan konfigurasi dan aktivitas berbahaya di organisasi Anda. Google Cloud |
Arsitektur berkelanjutan |
Terus-menerus memeriksa organisasi Anda berdasarkan serangkaian kebijakan OPA yang telah Anda tetapkan. Google Cloud |
|
Pemberi Rekomendasi IAM |
Menganalisis izin pengguna dan memberikan saran tentang cara mengurangi izin untuk membantu menerapkan prinsip hak istimewa terendah. |
|
Analisis Firewall |
Menganalisis aturan firewall, mengidentifikasi aturan firewall yang terlalu permisif, dan menyarankan firewall yang lebih ketat untuk membantu memperkuat postur keamanan Anda secara keseluruhan. |
|
Cloud Logging |
Memberikan visibilitas ke dalam aktivitas sistem dan membantu mengaktifkan deteksi anomali dan aktivitas berbahaya. |
|
Cloud Monitoring |
Melacak sinyal dan peristiwa utama yang dapat membantu mengidentifikasi aktivitas mencurigakan. |
|
Preventif |
Kebijakan Organisasi |
Memungkinkan Anda mengontrol dan membatasi tindakan dalam organisasi Google Cloud Anda. |
Workflows
Bagian berikut menguraikan alur kerja produsen data dan alur kerja konsumen data, serta memastikan kontrol akses yang sesuai berdasarkan sensitivitas data dan peran pengguna.
Alur kerja produsen data
Diagram berikut menunjukkan cara data dilindungi saat ditransfer ke BigQuery.
Alur kerja untuk transfer data adalah sebagai berikut:
- Aplikasi yang terintegrasi dengan Workload Identity Federation menggunakan Cloud KMS untuk mendekripsi kunci enkripsi gabungan.
- Aplikasi menggunakan library Tink untuk menyamarkan atau mengenkripsi data menggunakan template.
- Aplikasi mentransfer data ke project penyerapan di Google Cloud.
- Data tiba di Cloud Storage, BigQuery, atau Pub/Sub.
- Dalam project penyerapan, data didekripsi atau diidentifikasi ulang menggunakan template.
- Data yang didekripsi dienkripsi atau disamarkan berdasarkan template de-identifikasi lain, lalu ditempatkan di project yang tidak rahasia. Tag diterapkan oleh mesin pemberian tag sebagaimana mestinya.
- Data dari project non-rahasia ditransfer ke project rahasia dan diidentifikasi ulang.
Akses data berikut diizinkan:
- Pengguna yang memiliki akses ke project rahasia dapat mengakses semua data teks biasa mentah.
- Pengguna yang memiliki akses ke project non-rahasia dapat mengakses data yang disamarkan, di-tokenisasi, atau dienkripsi berdasarkan tag yang terkait dengan data dan izin mereka.
Alur kerja konsumen data
Langkah-langkah berikut menjelaskan cara konsumen dapat mengakses data yang disimpan di BigQuery.
- Konsumen data menelusuri aset data menggunakan Data Catalog.
- Setelah konsumen menemukan aset yang mereka cari, konsumen data akan meminta akses ke aset data.
- Pemilik data memutuskan apakah akan memberikan akses ke aset.
- Jika mendapatkan akses, konsumen dapat menggunakan notebook dan Katalog Solusi untuk membuat lingkungan tempat mereka dapat menganalisis dan mengubah aset data.
Menyatukan semuanya
Repositori GitHub memberikan petunjuk mendetail tentang cara men-deploy data mesh di Google Cloud setelah Anda men-deploy fondasi perusahaan. Proses untuk men-deploy arsitektur ini melibatkan modifikasi repositori infrastruktur yang ada dan men-deploy komponen khusus data mesh baru.
Selesaikan langkah-langkah berikut:
- Selesaikan semua prasyarat, termasuk yang berikut:
- Instal Google Cloud CLI, Terraform, Tink, Java, dan Go.
- Deploy enterprise foundations blueprint (v4.1).
- Pertahankan repositori lokal berikut:
gcp-data-mesh-foundationsgcp-bootstrapgcp-environmentsgcp-networksgcp-orggcp-projects
- Ubah cetak biru dasar yang ada, lalu deploy aplikasi data mesh. Untuk setiap item, selesaikan hal berikut:
- Di repositori target, periksa cabang
Plan. - Untuk menambahkan komponen data mesh, salin file dan direktori yang relevan dari
gcp-data-mesh-foundationske direktori dasar yang sesuai. Timpa file jika diperlukan. - Perbarui variabel, peran, dan setelan data mesh di file Terraform (misalnya,
*.tfvarsdan*.tf). Tetapkan token GitHub sebagai variabel lingkungan. - Lakukan operasi inisialisasi, rencana, dan penerapan Terraform pada setiap repositori.
- Lakukan perubahan, kirim kode ke repositori jarak jauh, buat permintaan tarik, dan gabungkan ke lingkungan pengembangan, non-produksi, dan produksi.
- Di repositori target, periksa cabang
Langkah berikutnya
- Baca tentang arsitektur dan fungsi dalam mesh data.
- Mengimpor data dari Google Cloud ke data warehouse BigQuery yang aman.
- Menerapkan framework kontrol utama CDMC di data warehouse BigQuery.
- Baca tentang cetak biru dasar-dasar perusahaan.