Prinsip dalam pilar keberlanjutan di Google Cloud Framework yang Dirancang dengan Baik ini memberikan rekomendasi untuk membantu Anda mengoptimalkan efisiensi energi dan jejak karbon untuk resource penyimpanan Anda di Google Cloud.
Ringkasan prinsip
Data yang disimpan bukanlah resource pasif. Energi dikonsumsi dan emisi karbon terjadi di sepanjang siklus proses data. Setiap gigabyte data yang disimpan memerlukan infrastruktur fisik yang terus-menerus diberi daya, didinginkan, dan dikelola. Untuk mencapai arsitektur cloud yang berkelanjutan, perlakukan data sebagai aset yang berharga tetapi mahal secara lingkungan dan prioritaskan tata kelola data yang proaktif.
Keputusan Anda tentang retensi, kualitas, dan lokasi data dapat membantu Anda mencapai pengurangan yang signifikan dalam biaya cloud dan konsumsi energi. Minimalkan data yang Anda simpan, optimalkan tempat dan cara Anda menyimpan data, serta terapkan strategi penghapusan dan pengarsipan otomatis. Saat Anda mengurangi kekacauan data, Anda akan meningkatkan performa sistem dan secara mendasar mengurangi jejak lingkungan jangka panjang data Anda.
Rekomendasi
Untuk mengoptimalkan siklus proses data dan resource penyimpanan Anda demi keberlanjutan, pertimbangkan rekomendasi di bagian berikut.
Memprioritaskan data bernilai tinggi
Data tersimpan yang tidak digunakan, diduplikasi, atau sudah usang terus mengonsumsi energi untuk mengoperasikan infrastruktur yang mendasarinya. Untuk mengurangi jejak karbon terkait penyimpanan, gunakan teknik berikut.
Mengidentifikasi dan menghilangkan duplikasi
Tetapkan kebijakan untuk mencegah replikasi set data yang tidak perlu di beberapa Google Cloud project atau layanan. Gunakan repositori data pusat seperti set data BigQuery atau bucket Cloud Storage sebagai sumber tepercaya tunggal dan berikan akses yang sesuai ke repositori ini.
Menghapus data bayangan dan data gelap
Data gelap adalah data yang utilitas atau pemiliknya tidak diketahui. Data bayangan berarti salinan data yang tidak sah. Pindai sistem penyimpanan Anda dan temukan data gelap dan data bayangan menggunakan solusi penemuan dan pengatalogan data seperti Dataplex Universal Catalog. Audit temuan ini secara rutin dan terapkan proses pengarsipan atau penghapusan data gelap dan data bayangan sebagaimana mestinya.
Meminimalkan volume data untuk workload AI
Simpan hanya fitur dan data yang diproses yang diperlukan untuk pelatihan dan penyaluran model. Jika memungkinkan, gunakan teknik seperti pengambilan sampel data, agregasi, dan pembuatan data sintetis untuk mencapai performa model tanpa mengandalkan set data mentah yang sangat besar.
Mengintegrasikan pemeriksaan kualitas data
Terapkan pipeline pembersihan data dan validasi data otomatis menggunakan layanan seperti Dataproc, Dataflow, atau Dataplex Universal Catalog pada saat penyerapan data. Data berkualitas rendah menyebabkan ruang penyimpanan terbuang. Hal ini juga menyebabkan konsumsi energi yang tidak perlu saat data digunakan nanti untuk analisis atau pelatihan AI.
Meninjau kepadatan nilai data
Tinjau set data bervolume tinggi seperti log dan aliran IoT secara berkala. Tentukan apakah ada data yang dapat diringkas, digabungkan, atau di-downsampling untuk mempertahankan kepadatan informasi yang diperlukan dan mengurangi volume penyimpanan fisik.
Mengevaluasi secara kritis kebutuhan pencadangan
Menilai kebutuhan pencadangan data yang dapat Anda buat ulang dengan upaya minimal. Contoh data tersebut mencakup hasil ETL perantara, cache sementara, dan data pelatihan yang berasal dari sumber yang stabil dan permanen. Simpan cadangan hanya untuk data yang unik atau mahal untuk dibuat ulang.
Mengoptimalkan pengelolaan siklus proses penyimpanan
Otomatiskan siklus proses penyimpanan sehingga saat kegunaan data menurun, data dipindahkan ke kelas penyimpanan hemat energi atau dihentikan, sebagaimana mestinya. Gunakan teknik berikut.
Pilih kelas Cloud Storage yang sesuai
Mengotomatiskan transisi data di Cloud Storage ke kelas penyimpanan dengan karbon yang lebih rendah berdasarkan frekuensi akses menggunakan Pengelolaan Siklus Proses Objek.
- Gunakan penyimpanan Standar hanya untuk set data yang aktif digunakan, seperti model produksi saat ini.
- Transisikan data seperti set data pelatihan AI yang lebih lama atau cadangan yang lebih jarang diakses ke penyimpanan Nearline atau Coldline.
- Untuk retensi jangka panjang, gunakan penyimpanan Arsip, yang dioptimalkan untuk efisiensi energi dalam skala besar.
Menerapkan kebijakan siklus proses data yang agresif
Tentukan kebijakan time to live (TTL) yang jelas dan otomatis untuk data yang tidak penting, seperti file log, artefak model sementara, dan hasil perantara yang sudah tidak berlaku. Gunakan aturan siklus proses untuk menghapus data tersebut secara otomatis setelah jangka waktu tertentu.
Mewajibkan pemberian tag resource
Wajibkan penggunaan tag dan label resource yang konsisten untuk semua bucket Cloud Storage, set data BigQuery, dan disk persisten Anda. Buat tag yang menunjukkan pemilik data, tujuan data, dan periode retensi. Gunakan batasan Layanan Kebijakan Organisasi untuk memastikan bahwa tag yang diperlukan, seperti periode retensi, diterapkan ke resource. Tag memungkinkan Anda mengotomatiskan pengelolaan siklus proses, membuat laporan FinOps terperinci, dan membuat laporan emisi karbon.
Menyesuaikan ukuran dan menghentikan penyediaan penyimpanan komputasi
Audit secara rutin persistent disk yang terpasang ke instance Compute Engine dan pastikan disk tidak dialokasikan secara berlebihan. Gunakan snapshot hanya jika diperlukan untuk pencadangan. Hapus snapshot lama yang tidak digunakan. Untuk database, gunakan kebijakan retensi data untuk mengurangi ukuran persistent disk yang mendasarinya.
Mengoptimalkan format penyimpanan
Untuk penyimpanan yang melayani beban kerja analisis, sebaiknya gunakan format kolom terkompresi seperti Parquet atau Avro yang dioptimalkan daripada format berbasis baris seperti JSON atau CSV. Penyimpanan kolom mengurangi persyaratan ruang disk fisik secara signifikan dan meningkatkan efisiensi baca. Pengoptimalan ini membantu mengurangi konsumsi energi untuk operasi I/O dan komputasi terkait.
Mengoptimalkan regionalitas dan pergerakan data
Lokasi fisik dan pergerakan data Anda memengaruhi konsumsi resource jaringan dan energi yang diperlukan untuk penyimpanan. Mengoptimalkan regionalitas data dengan menggunakan teknik berikut.
Memilih region penyimpanan rendah karbon
Bergantung pada persyaratan kepatuhan Anda, simpan data di Google Cloud region yang menggunakan persentase energi bebas karbon (CFE) yang lebih tinggi atau yang memiliki intensitas karbon jaringan listrik yang lebih rendah. Batasi pembuatan bucket penyimpanan di region dengan emisi karbon tinggi menggunakan batasan Kebijakan Organisasi lokasi resource. Untuk mengetahui informasi tentang data CFE dan intensitas karbon untuk Google Cloud region, lihat Energi bebas karbon untuk region Google Cloud .
Meminimalkan replikasi
Mereplikasi data di seluruh region hanya untuk memenuhi persyaratan wajib pemulihan dari bencana (DR) atau ketersediaan tinggi (HA). Operasi replikasi lintas region dan multi-region secara signifikan meningkatkan biaya energi dan jejak karbon data Anda.
Mengoptimalkan lokasi pemrosesan data
Untuk mengurangi konsumsi energi untuk transfer data jaringan, deploy beban kerja yang intensif komputasi seperti pelatihan AI dan pemrosesan BigQuery di region yang sama dengan sumber data.
Mengoptimalkan pergerakan data untuk partner dan pelanggan Anda
Untuk memindahkan volume data yang besar di seluruh layanan, lokasi, dan penyedia cloud, dorong partner dan pelanggan Anda untuk menggunakan Storage Transfer Service atau API berbagi data. Hindari dump data massal. Untuk set data publik, gunakan bucket Requester Pays untuk mengalihkan biaya transfer dan pemrosesan data serta dampak lingkungan kepada pengguna akhir.