Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mendeteksi potensi kegagalan menggunakan kemampuan observasi

Last reviewed 2024-12-30 UTC

Prinsip ini dalam pilar keandalan Well-Architected Framework memberikan rekomendasi untuk membantu Anda mengidentifikasi area secara proaktif tempat terjadinya error dan kegagalan.Google Cloud

Prinsip ini relevan dengan area fokus observasi keandalan.

Ringkasan prinsip

Untuk mempertahankan dan meningkatkan keandalan workload Anda di Google Cloud, Anda perlu menerapkan kemampuan observasi yang efektif dengan menggunakan metrik, log, dan trace.

Metrik adalah pengukuran numerik aktivitas yang ingin Anda lacak untuk aplikasi Anda pada interval waktu tertentu. Misalnya, Anda mungkin ingin melacak metrik teknis seperti rasio permintaan dan rasio error, yang dapat digunakan sebagai indikator tingkat layanan (SLI). Anda mungkin juga perlu melacak metrik bisnis khusus aplikasi seperti pesanan yang ditempatkan dan pembayaran yang diterima.
Log adalah catatan peristiwa diskret yang diberi stempel waktu yang terjadi dalam aplikasi atau sistem. Peristiwa tersebut dapat berupa kegagalan, error, atau perubahan status. Log dapat menyertakan metrik, dan Anda juga dapat menggunakan log untuk SLI.
Trace mewakili perjalanan satu pengguna atau transaksi melalui sejumlah aplikasi terpisah atau komponen aplikasi. Misalnya, komponen ini dapat berupa microservice. Trace membantu Anda melacak komponen yang digunakan dalam perjalanan, tempat terjadinya bottleneck, dan durasi perjalanan.

Metrik, log, dan trace membantu Anda memantau sistem secara berkelanjutan. Pemantauan komprehensif membantu Anda mengetahui tempat dan alasan terjadinya error. Anda juga dapat mendeteksi potensi kegagalan sebelum terjadi error.

Rekomendasi

Untuk mendeteksi potensi kegagalan secara efisien, pertimbangkan rekomendasi di subbagian berikut.

Mendapatkan insight komprehensif

Untuk melacak metrik utama seperti waktu respons dan rasio error, gunakan Cloud Monitoring dan Cloud Logging. Alat ini juga membantu Anda memastikan bahwa metrik secara konsisten memenuhi kebutuhan workload Anda.

Untuk membuat keputusan berbasis data, analisis metrik layanan default untuk memahami dependensi komponen dan dampaknya terhadap performa workload secara keseluruhan.

Untuk menyesuaikan strategi pemantauan, buat dan publikasikan metrik Anda sendiri menggunakan Google Cloud SDK.

Melakukan pemecahan masalah proaktif

Terapkan penanganan error yang andal dan aktifkan logging di semua komponen workload Anda di Google Cloud. Aktifkan log seperti log akses Cloud Storage dan Log Aliran VPC.

Saat mengonfigurasi logging, pertimbangkan biaya terkait costs. Untuk mengontrol biaya logging, Anda dapat mengonfigurasi filter pengecualian pada sink log untuk mengecualikan log tertentu agar tidak disimpan.

Mengoptimalkan pemanfaatan resource

Pantau penggunaan CPU, metrik I/O jaringan, dan metrik I/O disk untuk mendeteksi resource yang kurang dan berlebihan dalam layanan seperti GKE, Compute Engine, dan Managed Service untuk Apache Spark. Untuk mengetahui daftar lengkap layanan yang didukung, lihat Ringkasan Cloud Monitoring.

Memprioritaskan pemberitahuan

Untuk pemberitahuan, fokuslah pada metrik yang paling penting, tetapkan nilai minimum yang sesuai untuk meminimalkan kelelahan akibat pemberitahuan (alert fatigue), dan pastikan respons terhadap masalah signifikan dilakukan tepat waktu. Pendekatan yang terarah ini dapat membantu Anda menjaga keandalan workload secara proaktif. Untuk mengetahui informasi selengkapnya, lihat Ringkasan pemberitahuan.

Sebelumnya

Memanfaatkan skalabilitas horizontal

Berikutnya

Desain untuk penurunan kualitas yang baik

Mendeteksi potensi kegagalan menggunakan kemampuan observasi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.