Mengoptimalkan workload AI dan ML untuk efisiensi energi

Last reviewed 2026-01-28 UTC

Prinsip ini dalam pilar keberlanjutan Google Cloud Framework yang Dirancang dengan Baik memberikan rekomendasi untuk mengoptimalkan workload AI dan ML guna mengurangi penggunaan energi dan jejak karbonnya.

Ringkasan prinsip

Untuk mengoptimalkan workload AI dan ML demi keberlanjutan, Anda harus mengadopsi pendekatan holistik untuk merancang, men-deploy, dan mengoperasikan workload. Pilih model yang sesuai dan hardware khusus seperti Tensor Processing Unit (TPU), jalankan workload di region rendah karbon, lakukan pengoptimalan untuk mengurangi penggunaan resource, dan terapkan praktik terbaik operasional.

Praktik arsitektur dan operasional yang mengoptimalkan biaya dan performa workload AI dan ML secara inheren akan mengurangi konsumsi energi dan jejak karbon. Perspektif AI dan ML dalam Framework yang Dirancang dengan Baik menjelaskan prinsip dan rekomendasi untuk mendesain, membangun, dan mengelola workload AI dan ML yang memenuhi tujuan operasional, keamanan, keandalan, biaya, dan performa Anda. Selain itu, Pusat Arsitektur Cloud memberikan arsitektur referensi dan panduan desain yang mendetail untuk workload AI dan ML di Google Cloud.

Rekomendasi

Untuk mengoptimalkan workload AI dan ML agar hemat energi, pertimbangkan rekomendasi di bagian berikut.

Membangun arsitektur untuk efisiensi energi dengan menggunakan TPU

Workload AI dan ML dapat bersifat intensif komputasi. Konsumsi energi oleh beban kerja AI dan ML merupakan pertimbangan utama untuk keberlanjutan. TPU memungkinkan Anda meningkatkan efisiensi energi dan keberlanjutan workload AI dan ML secara signifikan.

TPU adalah akselerator yang dirancang khusus dan dibuat khusus untuk workload AI dan ML. Arsitektur khusus TPU membuatnya sangat efektif untuk perkalian matriks skala besar, yang merupakan fondasi deep learning. TPU dapat melakukan tugas kompleks dalam skala besar dengan efisiensi yang lebih tinggi daripada prosesor serbaguna seperti CPU atau GPU.

TPU memberikan manfaat langsung berikut untuk keberlanjutan:

Konsumsi energi yang lebih rendah: TPU dirancang untuk efisiensi energi yang optimal. TPU memberikan komputasi yang lebih tinggi per watt energi yang dikonsumsi. Arsitektur khusus mereka secara signifikan mengurangi permintaan daya untuk tugas pelatihan dan inferensi skala besar, yang menghasilkan pengurangan biaya operasional dan konsumsi energi yang lebih rendah.
Pelatihan dan inferensi yang lebih cepat: Performa TPU yang luar biasa memungkinkan Anda melatih model AI yang kompleks dalam hitungan jam, bukan hari. Pengurangan total waktu komputasi yang signifikan ini berkontribusi langsung pada jejak lingkungan yang lebih kecil.
Kebutuhan pendinginan yang lebih rendah: TPU menggunakan pendinginan cair tingkat lanjut, yang memberikan pengelolaan termal yang efisien dan secara signifikan mengurangi energi yang digunakan untuk mendinginkan pusat data.
Pengoptimalan siklus proses AI: Dengan mengintegrasikan hardware dan software, TPU memberikan solusi yang dioptimalkan di seluruh siklus proses AI, mulai dari pemrosesan data hingga penayangan model.

Ikuti praktik terbaik 4M untuk pemilihan resource

Google merekomendasikan serangkaian praktik terbaik untuk mengurangi penggunaan energi dan emisi karbon secara signifikan untuk workload AI dan ML. Kami menyebut praktik terbaik ini sebagai 4M:

Model: Pilih arsitektur model ML yang efisien. Misalnya, model sparse meningkatkan kualitas ML dan mengurangi komputasi hingga 3-10 kali lipat jika dibandingkan dengan model padat.
Mesin: Pilih prosesor dan sistem yang dioptimalkan untuk pelatihan ML. Prosesor ini meningkatkan performa dan efisiensi energi hingga 2-5 kali lipat dibandingkan dengan prosesor tujuan umum.
Mekanisasi: Deploy workload intensif komputasi Anda di cloud. Beban kerja Anda menggunakan lebih sedikit energi dan menyebabkan emisi yang lebih rendah sebesar 1,4 hingga 2 kali lipat jika dibandingkan dengan deployment lokal. Pusat data cloud menggunakan warehouse baru yang dirancang khusus dan dibangun untuk efisiensi energi serta memiliki rasio efektivitas penggunaan energi (PUE) yang tinggi. Pusat data lokal biasanya lebih tua dan lebih kecil, sehingga investasi dalam sistem distribusi daya dan pendinginan hemat energi mungkin tidak ekonomis.
Peta: Pilih Google Cloud lokasi yang menggunakan energi terbersih. Pendekatan ini membantu mengurangi jejak karbon kotor workload Anda sebesar 5-10 kali lipat. Untuk mengetahui informasi selengkapnya, lihat Energi bebas karbon untuk Google Cloud region.

Untuk mengetahui informasi selengkapnya tentang praktik terbaik 4M dan metrik efisiensi, lihat makalah penelitian berikut:

Mengoptimalkan model dan algoritma AI untuk pelatihan dan inferensi

Arsitektur model AI dan algoritma yang digunakan untuk pelatihan dan inferensi berdampak signifikan pada konsumsi energi. Pertimbangkan rekomendasi berikut.

Memilih model AI yang efisien

Pilih model AI yang lebih kecil dan efisien yang memenuhi persyaratan performa Anda. Jangan memilih model terbesar yang tersedia sebagai pilihan default. Misalnya, versi model yang lebih kecil dan telah di-distilasi seperti DistilBERT dapat memberikan performa yang serupa dengan overhead komputasi yang jauh lebih sedikit dan inferensi yang lebih cepat daripada model yang lebih besar seperti BERT.

Menggunakan solusi yang sangat efisien dan spesifik per domain

Pilih solusi ML khusus yang memberikan performa lebih baik dan memerlukan daya komputasi yang jauh lebih sedikit daripada model dasar yang besar. Solusi khusus ini sering kali sudah dilatih dan dioptimalkan secara berlebihan. Teknik ini dapat mengurangi konsumsi energi dan upaya penelitian secara signifikan untuk beban kerja pelatihan dan inferensi. Berikut adalah contoh solusi khusus spesifik per domain:

Earth AI adalah solusi hemat energi yang menyintesis sejumlah besar data geospasial global untuk memberikan insight yang tepat waktu, akurat, dan dapat ditindaklanjuti.
WeatherNext menghasilkan prakiraan cuaca global yang lebih cepat, lebih efisien, dan sangat akurat jika dibandingkan dengan metode berbasis fisika konvensional.

Menerapkan teknik kompresi model yang sesuai

Berikut adalah contoh teknik yang dapat Anda gunakan untuk kompresi model:

Pemangkasan (Pruning): Menghapus parameter yang tidak diperlukan dari jaringan saraf. Parameter ini adalah parameter yang tidak memberikan kontribusi signifikan terhadap performa model. Teknik ini mengurangi ukuran model dan sumber daya komputasi yang diperlukan untuk inferensi.
Kuantisasi: Mengurangi presisi parameter model. Misalnya, kurangi presisi dari floating point 32-bit menjadi bilangan bulat 8-bit. Teknik ini dapat membantu mengurangi jejak memori dan konsumsi daya secara signifikan tanpa mengurangi akurasi secara signifikan.
Distilasi pengetahuan: Melatih model siswa yang lebih kecil untuk meniru perilaku model pengajar yang lebih besar dan kompleks. Model siswa dapat mencapai tingkat performa yang tinggi dengan lebih sedikit parameter dan menggunakan lebih sedikit energi.

Menggunakan hardware khusus

Seperti yang disebutkan dalam Ikuti praktik terbaik 4M untuk pemilihan resource, pilih prosesor dan sistem yang dioptimalkan untuk pelatihan ML. Prosesor ini meningkatkan performa dan efisiensi energi hingga 2-5 kali lipat jika dibandingkan dengan prosesor tujuan umum.

Menggunakan fine-tuning yang efisien parameter

Daripada menyesuaikan semua parameter model yang berjumlah miliaran (penyesuaian penuh), gunakan metode parameter-efficient fine-tuning (PEFT) seperti low-rank adaptation (LoRA). Dengan teknik ini, Anda membekukan bobot model asli dan hanya melatih sejumlah kecil lapisan baru yang ringan. Pendekatan ini membantu mengurangi biaya dan konsumsi energi.

Mengikuti praktik terbaik untuk operasi AI dan ML

Praktik operasional sangat memengaruhi keberlanjutan workload AI dan ML Anda. Pertimbangkan rekomendasi berikut.

Mengoptimalkan proses pelatihan model

Gunakan teknik berikut untuk mengoptimalkan proses pelatihan model Anda:

Penghentian awal: Pantau proses pelatihan dan hentikan jika Anda tidak melihat peningkatan lebih lanjut dalam performa model terhadap set validasi. Teknik ini membantu Anda mencegah komputasi dan penggunaan energi yang tidak perlu.
Pemuatan data yang efisien: Gunakan pipeline data yang efisien untuk memastikan GPU dan TPU selalu digunakan dan tidak menunggu data. Teknik ini membantu memaksimalkan pemanfaatan resource dan mengurangi energi yang terbuang.
Penyesuaian hyperparameter yang dioptimalkan: Untuk menemukan hyperparameter optimal secara lebih efisien, gunakan teknik seperti pengoptimalan Bayesian atau reinforcement learning. Hindari penelusuran petak yang ekstensif, yang dapat menjadi operasi yang intensif sumber daya.

Meningkatkan efisiensi inferensi

Untuk meningkatkan efisiensi tugas inferensi AI, gunakan teknik berikut:

Batching: Kelompokkan beberapa permintaan inferensi dalam batch dan manfaatkan pemrosesan paralel di GPU dan TPU. Teknik ini membantu mengurangi biaya energi per prediksi.
Caching lanjutan: Terapkan strategi caching multi-layer, yang mencakup caching key-value (KV) untuk pembuatan autoregresif dan caching perintah semantik untuk respons aplikasi. Teknik ini membantu melewati komputasi model yang berlebihan dan dapat menghasilkan pengurangan yang signifikan dalam penggunaan energi dan emisi karbon.

Ukur dan pantau

Pantau dan ukur parameter berikut:

Penggunaan dan biaya: Gunakan alat yang sesuai untuk melacak penggunaan token, konsumsi energi, dan jejak karbon workload AI Anda. Data ini membantu Anda mengidentifikasi peluang pengoptimalan dan melaporkan progres menuju sasaran keberlanjutan.
Performa: Terus pantau performa model dalam produksi. Mengidentifikasi masalah seperti pergeseran data, yang dapat menunjukkan bahwa model perlu di-fine-tune lagi. Jika perlu melatih ulang model, Anda dapat menggunakan model yang telah di-fine-tune sebelumnya sebagai titik awal dan menghemat banyak waktu, uang, dan energi untuk pembaruan.
- Untuk melacak metrik performa, gunakan Cloud Monitoring.
- Untuk mengorelasikan perubahan model dengan peningkatan metrik performa, gunakan anotasi peristiwa.

Untuk mengetahui informasi selengkapnya tentang cara mengoperasionalkan peningkatan berkelanjutan, lihat Mengukur dan meningkatkan keberlanjutan secara berkelanjutan.

Menerapkan penjadwalan yang hemat karbon

Arsitektur tugas pipeline ML Anda untuk dijalankan di region dengan campuran energi terbersih. Gunakan laporan Jejak Karbon untuk mengidentifikasi region dengan intensitas karbon paling rendah. Jadwalkan tugas yang memerlukan banyak resource sebagai tugas batch selama periode ketika jaringan listrik lokal memiliki persentase energi bebas karbon (CFE) yang lebih tinggi.

Optimalkan pipeline data

Operasi ML dan penyesuaian memerlukan set data yang bersih dan berkualitas tinggi. Sebelum Anda memulai tugas ML, gunakan layanan pemrosesan data terkelola untuk menyiapkan data secara efisien. Misalnya, gunakan Dataflow untuk streaming dan batch processing, serta gunakan Dataproc untuk pipeline Spark dan Hadoop terkelola. Pipeline data yang dioptimalkan membantu memastikan beban kerja penyesuaian Anda tidak menunggu data, sehingga Anda dapat memaksimalkan pemanfaatan resource dan membantu mengurangi pemborosan energi.

Menerapkan MLOps

Untuk mengotomatiskan dan mengelola seluruh siklus proses ML, terapkan praktik Operasi ML (MLOps). Praktik ini membantu memastikan bahwa model terus dipantau, divalidasi, dan di-deploy ulang secara efisien, yang membantu mencegah pelatihan atau alokasi resource yang tidak perlu.

Menggunakan layanan terkelola

Daripada mengelola infrastruktur Anda sendiri, gunakan layanan cloud terkelola seperti Vertex AI. Platform cloud menangani pengelolaan resource yang mendasarinya, sehingga Anda dapat berfokus pada proses penyesuaian. Gunakan layanan yang mencakup alat bawaan untuk penyesuaian hyperparameter, pemantauan model, dan pengelolaan resource.

Langkah berikutnya

Sebelumnya

Menggunakan region rendah karbon

Berikutnya

Mengoptimalkan penggunaan resource

Mengoptimalkan workload AI dan ML untuk efisiensi energi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.