Prinsip dalam pilar keberlanjutan Google Cloud Well-Architected Framework ini memberikan rekomendasi untuk membantu Anda mengoptimalkan efisiensi energi dan jejak karbon untuk resource penyimpanan Anda di Google Cloud.
Ringkasan prinsip
Data yang disimpan bukanlah resource pasif. Energi dikonsumsi dan emisi karbon terjadi sepanjang siklus proses data. Setiap gigabyte data yang disimpan memerlukan infrastruktur fisik yang terus-menerus diberi daya, didinginkan, dan dikelola. Untuk mencapai arsitektur cloud yang berkelanjutan, perlakukan data sebagai aset berharga tetapi mahal secara lingkungan dan prioritaskan tata kelola data proaktif.
Keputusan Anda tentang retensi, kualitas, dan lokasi data dapat membantu Anda mencapai pengurangan yang signifikan dalam biaya cloud dan konsumsi energi. Minimalkan data yang Anda simpan, optimalkan tempat dan cara Anda menyimpan data, serta terapkan strategi penghapusan dan pengarsipan otomatis. Saat Anda mengurangi kekacauan data, Anda meningkatkan performa sistem dan pada dasarnya mengurangi jejak lingkungan jangka panjang data Anda.
Rekomendasi
Untuk mengoptimalkan siklus proses data dan resource penyimpanan Anda demi keberlanjutan, pertimbangkan rekomendasi di bagian berikut.
Prioritaskan data bernilai tinggi
Data yang disimpan dan tidak digunakan, diduplikasi, atau sudah tidak berlaku terus mengonsumsi energi untuk mendukung infrastruktur yang mendasarinya. Untuk mengurangi jejak karbon terkait penyimpanan, gunakan teknik berikut.
Identifikasi dan hilangkan duplikasi
Tetapkan kebijakan untuk mencegah replikasi set data yang tidak perlu di beberapa project atau layanan Google Cloud . Gunakan repositori data pusat seperti set data BigQuery atau bucket Cloud Storage sebagai satu sumber tepercaya dan berikan akses yang sesuai ke repositori ini.
Hapus data bayangan dan data gelap
Data gelap adalah data yang utilitas atau pemiliknya tidak diketahui. Data bayangan berarti salinan data yang tidak sah. Pindai sistem penyimpanan Anda dan temukan data gelap dan data bayangan menggunakan solusi penemuan dan pembuatan katalog data seperti Knowledge Catalog. Audit temuan ini secara berkala dan terapkan proses pengarsipan atau penghapusan data gelap dan data bayangan sebagaimana mestinya.
Minimalkan volume data untuk workload AI
Simpan hanya fitur dan data yang diproses yang diperlukan untuk pelatihan dan penayangan model. Jika memungkinkan, gunakan teknik seperti pengambilan sampel data, agregasi, dan pembuatan data sintetis untuk mencapai performa model tanpa bergantung pada set data mentah yang besar.
Integrasikan pemeriksaan kualitas data
Terapkan pipeline validasi data dan pembersihan data otomatis menggunakan layanan seperti Managed Service for Apache Spark, Dataflow, atau Knowledge Catalog pada titik penyerapan data. Data berkualitas rendah menyebabkan ruang penyimpanan terbuang. Hal ini juga menyebabkan konsumsi energi yang tidak perlu saat data digunakan nanti untuk analisis atau pelatihan AI.
Tinjau kepadatan nilai data
Tinjau set data bervolume tinggi seperti log dan aliran IoT secara berkala. Tentukan apakah data dapat diringkas, diagregasi, atau di-down-sample untuk mempertahankan kepadatan informasi yang diperlukan dan mengurangi volume penyimpanan fisik.
Evaluasi secara kritis kebutuhan akan pencadangan
Nilai kebutuhan pencadangan data yang dapat Anda buat ulang dengan upaya minimal. Contoh data tersebut mencakup hasil ETL menengah, cache sementara, dan data pelatihan yang berasal dari sumber permanen yang stabil. Pertahankan pencadangan hanya untuk data yang unik atau mahal untuk dibuat ulang.
Optimalkan pengelolaan siklus proses penyimpanan
Otomatiskan siklus proses penyimpanan sehingga saat utilitas data menurun, data dipindahkan ke kelas penyimpanan hemat energi atau dihentikan, sebagaimana mestinya. Gunakan teknik berikut.
Pilih kelas Cloud Storage yang sesuai
Otomatiskan transisi data di Cloud Storage ke kelas penyimpanan karbon yang lebih rendah berdasarkan frekuensi akses menggunakan Object Lifecycle Management.
- Gunakan penyimpanan Standar hanya untuk set data yang aktif digunakan, seperti model produksi saat ini.
- Transisikan data seperti set data pelatihan AI yang lebih lama atau pencadangan yang lebih jarang diakses ke penyimpanan Nearline atau Coldline.
- Untuk retensi jangka panjang, gunakan penyimpanan Arsip, yang dioptimalkan untuk efisiensi energi dalam skala besar.
Terapkan kebijakan siklus proses data yang agresif
Tentukan kebijakan time to live (TTL) yang jelas dan otomatis untuk data yang tidak penting, seperti file log, artefak model sementara, dan hasil menengah yang sudah tidak berlaku. Gunakan aturan siklus proses untuk menghapus data tersebut secara otomatis setelah periode yang ditentukan.
Wajibkan pemberian tag resource
Wajibkan penggunaan tag dan label resource yang konsisten untuk semua bucket Cloud Storage, set data BigQuery, dan persistent disk Anda. Buat tag yang menunjukkan pemilik data, tujuan data, dan periode retensi. Gunakan batasan Layanan Kebijakan Organisasi untuk memastikan bahwa tag yang diperlukan, seperti periode retensi, diterapkan ke resource. Tag memungkinkan Anda mengotomatiskan pengelolaan siklus proses, membuat laporan FinOps terperinci, dan membuat laporan emisi karbon.
Sesuaikan ukuran dan hentikan penyediaan penyimpanan komputasi
Audit persistent disk yang terpasang ke instance Compute Engine secara berkala dan pastikan disk tidak disediakan secara berlebihan. Gunakan snapshot hanya jika diperlukan untuk pencadangan. Hapus snapshot lama yang tidak digunakan. Untuk database, gunakan kebijakan retensi data untuk mengurangi ukuran persistent disk yang mendasarinya.
Optimalkan format penyimpanan
Untuk penyimpanan yang melayani workload analisis, sebaiknya gunakan format kolom terkompresi seperti Parquet atau Avro yang dioptimalkan daripada format berbasis baris seperti JSON atau CSV. Penyimpanan kolom secara signifikan mengurangi persyaratan ruang disk fisik dan meningkatkan efisiensi baca. Pengoptimalan ini membantu mengurangi konsumsi energi untuk operasi komputasi dan I/O terkait.
Optimalkan regionalitas dan pergerakan data
Lokasi fisik dan pergerakan data Anda memengaruhi konsumsi resource jaringan dan energi yang diperlukan untuk penyimpanan. Optimalkan regionalitas data menggunakan teknik berikut.
Pilih region penyimpanan rendah karbon
Bergantung pada persyaratan kepatuhan Anda, simpan data di Google Cloud region yang menggunakan persentase energi bebas karbon (CFE) yang lebih tinggi atau yang memiliki intensitas karbon jaringan yang lebih rendah. Batasi pembuatan bucket penyimpanan di region karbon tinggi menggunakan batasan Kebijakan Organisasi lokasi resource. Untuk mengetahui informasi tentang data CFE dan intensitas karbon untuk Google Cloud region, lihat Energi bebas karbon untuk Google Cloud region.
Minimalkan replikasi
Replikasi data di seluruh region hanya untuk memenuhi persyaratan pemulihan dari bencana (DR) atau ketersediaan tinggi (HA) yang wajib. Operasi replikasi lintas region dan multi-region secara signifikan meningkatkan biaya energi dan jejak karbon data Anda.
Optimalkan lokasi pemrosesan data
Untuk mengurangi konsumsi energi untuk transfer data jaringan, deploy workload yang memerlukan komputasi intensif seperti pelatihan AI dan pemrosesan BigQuery di region yang sama dengan sumber data.
Optimalkan pergerakan data untuk partner dan pelanggan Anda
Untuk memindahkan data dalam jumlah besar di seluruh layanan, lokasi, dan penyedia cloud, ajak partner dan pelanggan Anda untuk menggunakan Storage Transfer Service atau API berbagi data. Hindari mass data dumps. Untuk set data publik, gunakan Requester Pays bucket untuk mengalihkan biaya transfer dan pemrosesan data serta dampak lingkungan kepada pengguna akhir.