Prinsip dalam pilar keandalan Google Cloud Well-Architected Framework ini memberikan rekomendasi untuk membantu Anda mengidentifikasi area secara proaktif tempat terjadinya error dan kegagalan.
Prinsip ini relevan dengan area fokus pengamatan keandalan.
Ringkasan prinsip
Untuk mempertahankan dan meningkatkan keandalan workload Anda di Google Cloud, Anda perlu menerapkan kemampuan observasi yang efektif dengan menggunakan metrik, log, dan trace.
- Metrik adalah pengukuran numerik aktivitas yang ingin Anda lacak untuk aplikasi Anda pada interval waktu tertentu. Misalnya, Anda mungkin ingin melacak metrik teknis seperti rasio permintaan dan rasio error, yang dapat digunakan sebagai indikator tingkat layanan (SLI). Anda mungkin juga perlu melacak metrik bisnis khusus aplikasi seperti pesanan yang ditempatkan dan pembayaran yang diterima.
- Log adalah catatan peristiwa diskrit yang diberi stempel waktu yang terjadi dalam aplikasi atau sistem. Peristiwa tersebut dapat berupa kegagalan, error, atau perubahan status. Log dapat menyertakan metrik, dan Anda juga dapat menggunakan log untuk SLI.
- Trace mewakili perjalanan satu pengguna atau transaksi melalui sejumlah aplikasi terpisah atau komponen aplikasi. Misalnya, komponen ini dapat berupa microservice. Trace membantu Anda melacak komponen yang digunakan dalam perjalanan, tempat terjadinya bottleneck, dan durasi perjalanan.
Metrik, log, dan trace membantu Anda memantau sistem secara berkelanjutan. Pemantauan komprehensif membantu Anda mengetahui tempat dan alasan terjadinya error. Anda juga dapat mendeteksi potensi kegagalan sebelum terjadi error.
Rekomendasi
Untuk mendeteksi potensi kegagalan secara efisien, pertimbangkan rekomendasi di subbagian berikut.
Mendapatkan insight komprehensif
Untuk melacak metrik utama seperti waktu respons dan rasio error, gunakan Cloud Monitoring dan Cloud Logging. Alat ini juga membantu Anda memastikan bahwa metrik secara konsisten memenuhi kebutuhan workload Anda.
Untuk membuat keputusan berbasis data, analisis metrik layanan default untuk memahami dependensi komponen dan dampaknya terhadap performa workload secara keseluruhan.
Untuk menyesuaikan strategi pemantauan, buat dan publikasikan metrik Anda sendiri menggunakan Google Cloud SDK.
Melakukan pemecahan masalah proaktif
Terapkan penanganan error yang andal dan aktifkan logging di semua komponen workload Anda di Google Cloud. Aktifkan log seperti log akses Cloud Storage dan Log Aliran VPC.
Saat mengonfigurasi logging, pertimbangkan biaya terkait costs. Untuk mengontrol biaya logging, Anda dapat mengonfigurasi filter pengecualian pada sink log untuk mengecualikan log tertentu agar tidak disimpan.
Mengoptimalkan pemanfaatan resource
Pantau penggunaan CPU, metrik I/O jaringan, dan metrik I/O disk untuk mendeteksi resource yang kurang dan berlebihan dalam layanan seperti GKE, Compute Engine, dan Managed Service for Apache Spark. Untuk daftar lengkap layanan yang didukung, lihat Ringkasan Cloud Monitoring.
Memprioritaskan pemberitahuan
Untuk pemberitahuan, fokuslah pada metrik yang paling penting, tetapkan nilai minimum yang sesuai untuk meminimalkan kelelahan akibat pemberitahuan (alert fatigue), dan pastikan respons terhadap masalah signifikan dilakukan tepat waktu. Pendekatan yang terarah ini dapat membantu Anda menjaga keandalan workload secara proaktif. Untuk mengetahui informasi selengkapnya, lihat Ringkasan pemberitahuan.