Mengoptimalkan data dan penyimpanan untuk keberlanjutan

Last reviewed 2026-01-28 UTC

Prinsip dalam pilar keberlanjutan di Google Cloud Framework yang Dirancang dengan Baik ini memberikan rekomendasi untuk membantu Anda mengoptimalkan efisiensi energi dan jejak karbon untuk resource penyimpanan Anda di Google Cloud.

Ringkasan prinsip

Data yang disimpan bukanlah resource pasif. Energi dikonsumsi dan emisi karbon terjadi di sepanjang siklus proses data. Setiap gigabyte data yang disimpan memerlukan infrastruktur fisik yang terus-menerus diberi daya, didinginkan, dan dikelola. Untuk mencapai arsitektur cloud yang berkelanjutan, perlakukan data sebagai aset yang berharga tetapi mahal secara lingkungan dan prioritaskan tata kelola data yang proaktif.

Keputusan Anda tentang retensi, kualitas, dan lokasi data dapat membantu Anda mencapai pengurangan yang signifikan dalam biaya cloud dan konsumsi energi. Minimalkan data yang Anda simpan, optimalkan tempat dan cara Anda menyimpan data, serta terapkan strategi penghapusan dan pengarsipan otomatis. Saat Anda mengurangi kekacauan data, Anda akan meningkatkan performa sistem dan secara mendasar mengurangi jejak lingkungan jangka panjang data Anda.

Rekomendasi

Untuk mengoptimalkan siklus proses data dan resource penyimpanan Anda demi keberlanjutan, pertimbangkan rekomendasi di bagian berikut.

Memprioritaskan data bernilai tinggi

Data tersimpan yang tidak digunakan, diduplikasi, atau sudah usang terus mengonsumsi energi untuk mengoperasikan infrastruktur yang mendasarinya. Untuk mengurangi jejak karbon terkait penyimpanan, gunakan teknik berikut.

Mengidentifikasi dan menghilangkan duplikasi

Tetapkan kebijakan untuk mencegah replikasi set data yang tidak perlu di beberapa Google Cloud project atau layanan. Gunakan repositori data pusat seperti set data BigQuery atau bucket Cloud Storage sebagai sumber tepercaya tunggal dan berikan akses yang sesuai ke repositori ini.

Menghapus data bayangan dan data gelap

Data gelap adalah data yang utilitas atau pemiliknya tidak diketahui. Data bayangan berarti salinan data yang tidak sah. Pindai sistem penyimpanan Anda dan temukan data gelap dan data bayangan dengan menggunakan solusi penemuan dan pengatalogan data seperti Dataplex Universal Catalog. Audit temuan ini secara rutin dan terapkan proses pengarsipan atau penghapusan data gelap dan data bayangan sebagaimana mestinya.

Meminimalkan volume data untuk workload AI

Simpan hanya fitur dan data yang diproses yang diperlukan untuk pelatihan dan penyajian model. Jika memungkinkan, gunakan teknik seperti pengambilan sampel data, agregasi, dan pembuatan data sintetis untuk mencapai performa model tanpa mengandalkan set data mentah yang sangat besar.

Mengintegrasikan pemeriksaan kualitas data

Terapkan pipeline pembersihan data dan validasi data otomatis menggunakan layanan seperti Dataproc, Dataflow, atau Dataplex Universal Catalog pada saat penyerapan data. Data berkualitas rendah menyebabkan ruang penyimpanan terbuang. Hal ini juga menyebabkan konsumsi energi yang tidak perlu saat data digunakan nanti untuk analisis atau pelatihan AI.

Meninjau kepadatan nilai data

Tinjau set data bervolume tinggi seperti log dan aliran IoT secara berkala. Tentukan apakah ada data yang dapat diringkas, digabungkan, atau di-down-sample untuk mempertahankan kepadatan informasi yang diperlukan dan mengurangi volume penyimpanan fisik.

Mengevaluasi secara kritis kebutuhan pencadangan

Menilai kebutuhan pencadangan data yang dapat Anda buat ulang dengan upaya minimal. Contoh data tersebut mencakup hasil ETL perantara, cache sementara, dan data pelatihan yang berasal dari sumber yang stabil dan permanen. Simpan cadangan hanya untuk data yang unik atau mahal untuk dibuat ulang.

Mengoptimalkan pengelolaan siklus proses penyimpanan

Otomatiskan siklus proses penyimpanan sehingga saat kegunaan data menurun, data dipindahkan ke kelas penyimpanan hemat energi atau dihentikan, sebagaimana mestinya. Gunakan teknik berikut.

Pilih kelas Cloud Storage yang sesuai

Mengotomatiskan transisi data di Cloud Storage ke kelas penyimpanan dengan karbon yang lebih rendah berdasarkan frekuensi akses menggunakan Pengelolaan Siklus Proses Objek.

Gunakan penyimpanan Standar hanya untuk set data yang aktif digunakan, seperti model produksi saat ini.
Transisikan data seperti set data pelatihan AI yang lebih lama atau cadangan yang lebih jarang diakses ke penyimpanan Nearline atau Coldline.
Untuk retensi jangka panjang, gunakan penyimpanan Arsip, yang dioptimalkan untuk efisiensi energi dalam skala besar.

Menerapkan kebijakan siklus proses data yang agresif

Tentukan kebijakan time to live (TTL) yang jelas dan otomatis untuk data yang tidak penting, seperti file log, artefak model sementara, dan hasil perantara yang sudah tidak berlaku. Gunakan aturan siklus proses untuk menghapus data tersebut secara otomatis setelah jangka waktu tertentu.

Mewajibkan pemberian tag resource

Wajibkan penggunaan tag dan label resource yang konsisten untuk semua bucket Cloud Storage, set data BigQuery, dan disk persisten Anda. Buat tag yang menunjukkan pemilik data, tujuan data, dan periode retensi. Gunakan batasan Layanan Kebijakan Organisasi untuk memastikan bahwa tag yang diperlukan, seperti periode retensi, diterapkan ke resource. Tag memungkinkan Anda mengotomatiskan pengelolaan siklus proses, membuat laporan FinOps terperinci, dan membuat laporan emisi karbon.

Menyesuaikan ukuran dan menghentikan penyediaan penyimpanan komputasi

Audit secara rutin persistent disk yang terpasang ke instance Compute Engine dan pastikan disk tidak dialokasikan secara berlebihan. Gunakan snapshot hanya jika diperlukan untuk pencadangan. Hapus snapshot lama yang tidak digunakan. Untuk database, gunakan kebijakan retensi data untuk mengurangi ukuran persistent disk yang mendasarinya.

Mengoptimalkan format penyimpanan

Untuk penyimpanan yang melayani beban kerja analisis, sebaiknya gunakan format kolom terkompresi seperti Parquet atau Avro yang dioptimalkan daripada format berbasis baris seperti JSON atau CSV. Penyimpanan kolom mengurangi persyaratan ruang disk fisik secara signifikan dan meningkatkan efisiensi baca. Pengoptimalan ini membantu mengurangi konsumsi energi untuk operasi komputasi dan I/O terkait.

Mengoptimalkan regionalitas dan pergerakan data

Lokasi fisik dan pergerakan data Anda memengaruhi konsumsi resource jaringan dan energi yang diperlukan untuk penyimpanan. Mengoptimalkan regionalitas data dengan menggunakan teknik berikut.

Memilih region penyimpanan rendah karbon

Bergantung pada persyaratan kepatuhan Anda, simpan data di Google Cloud region yang menggunakan persentase energi bebas karbon (CFE) yang lebih tinggi atau yang memiliki intensitas karbon jaringan yang lebih rendah. Batasi pembuatan bucket penyimpanan di region dengan emisi karbon tinggi menggunakan batasan Kebijakan Organisasi lokasi resource. Untuk mengetahui informasi tentang data CFE dan intensitas karbon untuk Google Cloud region, lihat Energi bebas karbon untuk region Google Cloud .

Meminimalkan replikasi

Mereplikasi data di seluruh region hanya untuk memenuhi persyaratan wajib pemulihan dari bencana (DR) atau ketersediaan tinggi (HA). Operasi replikasi lintas region dan multi-region secara signifikan meningkatkan biaya energi dan jejak karbon data Anda.

Mengoptimalkan lokasi pemrosesan data

Untuk mengurangi konsumsi energi untuk transfer data jaringan, deploy beban kerja yang intensif komputasi seperti pelatihan AI dan pemrosesan BigQuery di region yang sama dengan sumber data.

Mengoptimalkan pergerakan data untuk partner dan pelanggan Anda

Untuk memindahkan volume data yang besar di seluruh layanan, lokasi, dan penyedia cloud, dorong partner dan pelanggan Anda untuk menggunakan Storage Transfer Service atau API berbagi data. Hindari dump data massal. Untuk set data publik, gunakan bucket Requester Pays untuk mengalihkan biaya transfer dan pemrosesan data serta dampak lingkungan kepada pengguna akhir.

Sebelumnya

Mengembangkan software hemat energi

Berikutnya

Terus mengukur dan meningkatkan

Mengoptimalkan data dan penyimpanan untuk keberlanjutan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.