Memecahkan masalah error VM kehabisan memori

Halaman ini memberikan informasi tentang error kehabisan memori (OOM) Dataproc di VM Compute Engine, dan menjelaskan langkah-langkah yang dapat Anda lakukan untuk memecahkan masalah dan menyelesaikan error OOM.

Efek error OOM

Saat VM Dataproc di Compute Engine mengalami error kehabisan memori (OOM), efeknya mencakup kondisi berikut:

VM master dan pekerja berhenti berfungsi selama jangka waktu tertentu.
Error OOM VM Master menyebabkan tugas gagal dengan error "task not acquired".
Error OOM VM pekerja menyebabkan hilangnya node di YARN HDFS, yang menunda eksekusi tugas Dataproc.

Kontrol memori YARN

Apache YARN menyediakan jenis kontrol memori berikut:

Berbasis polling (lama)
Ketat
Elastic

Secara default, Dataproc tidak menyetel yarn.nodemanager.resource.memory.enabled untuk mengaktifkan kontrol memori YARN, karena alasan berikut:

Kontrol memori yang ketat dapat menyebabkan penghentian container saat ada memori yang cukup jika ukuran container tidak dikonfigurasi dengan benar.
Persyaratan kontrol memori elastis dapat memengaruhi eksekusi tugas secara negatif.
Kontrol memori YARN dapat gagal mencegah error OOM saat proses menggunakan memori secara agresif.

Perlindungan memori Dataproc

Jika VM cluster Dataproc mengalami tekanan memori, perlindungan memori Dataproc akan menghentikan proses atau container hingga kondisi OOM dihilangkan.

Dataproc menyediakan perlindungan memori untuk node cluster berikut dalam versi image Dataproc di Compute Engine berikut:

Peran	1,5	2.0	2.1	2.2
VM Master	1.5.74+	2.0.48+	semua	semua
VM Pekerja	Tidak Tersedia	2.0.76+	2.1.24+	semua
VM Driver Pool	Tidak Tersedia	2.0.76+	2.1.24+	semua

Mengidentifikasi dan mengonfirmasi penghentian perlindungan memori

Anda dapat menggunakan informasi berikut untuk mengidentifikasi dan mengonfirmasi penghentian tugas karena tekanan memori.

Proses penghentian

Proses yang dihentikan oleh perlindungan memori Dataproc akan keluar dengan kode 137 atau 143.
Jika Dataproc menghentikan proses karena tekanan memori, tindakan atau kondisi berikut dapat terjadi:
- Dataproc menaikkan metrik kumulatif dataproc.googleapis.com/node/problem_count, dan menetapkan reason ke ProcessKilledDueToMemoryPressure. Lihat Pengumpulan metrik resource Dataproc.
- Dataproc menulis log google.dataproc.oom-killer dengan pesan: "A process is killed due to memory pressure: process name. Untuk melihat pesan ini, aktifkan Logging, lalu gunakan filter log berikut:
```
resource.type="cloud_dataproc_cluster"
resource.labels.cluster_name="CLUSTER_NAME"
resource.labels.cluster_uuid="CLUSTER_UUID"
jsonPayload.message:"A process is killed due to memory pressure:"
```

Penghentian tugas node master atau node driver

Jika tugas node master atau node driver Dataproc berakhir karena tekanan memori, tugas akan gagal dengan kode error Driver received SIGTERM/SIGKILL signal and exited with INT. Untuk melihat pesan ini, aktifkan Logging, lalu gunakan filter log berikut:
```
resource.type="cloud_dataproc_cluster"
resource.labels.cluster_name="CLUSTER_NAME"
resource.labels.cluster_uuid="CLUSTER_UUID"
jsonPayload.message:"Driver received SIGTERM/SIGKILL signal and exited with"
    
```
- Periksa log google.dataproc.oom-killer atau dataproc.googleapis.com/node/problem_count untuk mengonfirmasi bahwa Perlindungan Memori Dataproc menghentikan tugas (lihat Penghentian proses).
Solusi:
- Jika cluster memiliki driver pool, tingkatkan driver-required-memory-mb ke penggunaan memori tugas sebenarnya.
- Jika cluster tidak memiliki kumpulan driver, buat ulang cluster dengan mengurangi jumlah maksimum tugas serentak yang berjalan di cluster.
- Gunakan jenis mesin node master dengan memori yang ditingkatkan.

Penghentian container YARN node pekerja

Dataproc menulis pesan berikut di pengelola resource YARN: container id exited with code EXIT_CODE. Untuk melihat pesan ini, aktifkan Logging, lalu gunakan filter log berikut:

resource.type="cloud_dataproc_cluster"
resource.labels.cluster_name="CLUSTER_NAME"
resource.labels.cluster_uuid="CLUSTER_UUID"
jsonPayload.message:"container" AND "exited with code" AND "which potentially signifies memory pressure on NODE

Jika container keluar dengan code INT, periksa log google.dataproc.oom-killer atau dataproc.googleapis.com/node/problem_count untuk mengonfirmasi bahwa Perlindungan Memori Dataproc menghentikan tugas (lihat Penghentian proses).

Solusi:
- Pastikan ukuran penampung dikonfigurasi dengan benar.
- Pertimbangkan untuk menurunkan yarn.nodemanager.resource.memory-mb. Properti ini mengontrol jumlah memori yang digunakan untuk menjadwalkan container YARN.
- Jika penampung tugas terus gagal, periksa apakah kemiringan data menyebabkan peningkatan penggunaan penampung tertentu. Jika demikian, partisi ulang tugas atau tingkatkan ukuran pekerja untuk mengakomodasi persyaratan memori tambahan.

Menyesuaikan perlindungan memori Linux di node master (lanjutan)

Node master Dataproc menggunakan utilitas earlyoom untuk mencegah sistem macet dengan membebaskan memori saat memori yang tersedia sangat rendah. Konfigurasi default cocok untuk banyak beban kerja. Namun, Anda mungkin perlu menyesuaikan konfigurasi jika node master Anda memiliki memori dalam jumlah besar dan mengalami penggunaan memori yang cepat.

Dalam skenario dengan tekanan memori yang tinggi, sistem dapat memasuki status "thrashing", yang menghabiskan sebagian besar waktunya untuk pengelolaan memori dan menjadi tidak responsif. Hal ini dapat terjadi begitu cepat sehingga earlyoom gagal mengambil tindakan berdasarkan setelan defaultnya atau gagal bertindak sebelum respons OOM kernel dipanggil.

Sebelum memulai

Ini adalah opsi penyesuaian lanjutan. Sebelum menyesuaikan setelan earlyoom, prioritaskan solusi lain, seperti menggunakan VM master dengan memori yang lebih besar, mengurangi konkurensi tugas, atau mengoptimalkan penggunaan memori tugas.

Menyesuaikan setelan `earlyoom`

Konfigurasi earlyoom default menggunakan jumlah memori kosong yang tetap sebagai pemicu. Pada virtual machine dengan RAM dalam jumlah besar, misalnya 32GB atau lebih, jumlah tetap ini mungkin mewakili sebagian kecil dari total memori. Hal ini membuat sistem rentan terhadap lonjakan penggunaan memori yang tiba-tiba.

Untuk menyesuaikan setelan earlyoom, hubungkan ke node master dan ubah file konfigurasi.

Hubungkan ke node master Anda menggunakan SSH.
Buka file konfigurasi untuk mengedit:
```
sudo nano /etc/default/earlyoom
```
Sesuaikan batas memori minimum. Cari baris EARLYOOM_ARGS. Opsi -M <kbytes> menetapkan jumlah minimum memori kosong dalam KiB yang earlyoom coba dipertahankan. Nilai defaultnya adalah -M 65536, yaitu 64 MiB.

Pertimbangan penyesuaian: Menyetel nilai -M terlalu tinggi dapat menyebabkan earlyoom menghentikan proses secara lebih agresif. Hal ini dapat memengaruhi aplikasi meskipun memori yang tersedia masih cukup untuk aplikasi tersebut. Pantau perilaku sistem setelah melakukan perubahan. Sesuaikan nilai -M berdasarkan ukuran instance dan workload Anda. Pedoman umumnya adalah menetapkan -M ke nilai yang merepresentasikan 1-5% dari total memori sistem.

Untuk node master dengan memori yang besar, tingkatkan nilai ini. Misalnya, untuk menetapkan nilai minimum menjadi 1 GiB (1048576 KiB), ubah baris sebagai berikut:
```
EARLYOOM_ARGS="-r 15 -M 1048576 -s 1"
```
Catatan:
- -r: Interval laporan memori dalam detik
- -s: Nilai minimum ruang swap untuk memicu earlyoom
Mulai ulang layanan earlyoom untuk menerapkan perubahan:
```
sudo systemctl restart earlyoom
```