Menilai kesehatan cluster dan workload di konsol Google Cloud

Jika Anda perlu memeriksa kondisi cluster dan workload Google Kubernetes Engine (GKE) dengan cepat, Anda mungkin kesulitan mengetahui tempat untuk memulai. Memvisualisasikan kondisi cluster dan workload di Google Cloud konsol dapat membantu Anda menilai status lingkungan dengan cepat. Kondisi cluster mengacu pada kondisi infrastruktur GKE yang mendasarinya seperti node dan jaringan, sedangkan kondisi workload mengacu pada status dan performa aplikasi yang berjalan di cluster.

Gunakan halaman ini untuk mempelajari cara menavigasi halaman cluster dan workload Kubernetes guna mendapatkan ringkasan tingkat tinggi, mengidentifikasi potensi masalah (seperti node yang mengalami tekanan resource atau Pod yang gagal), dan mempelajari resource tertentu secara mendetail.

Informasi ini penting bagi admin dan operator Platform yang bertanggung jawab untuk mempertahankan stabilitas cluster dan perlu melakukan penilaian kondisi serta pemeriksaan resource dengan cepat. Informasi ini juga penting bagi Developer aplikasi yang perlu memahami status runtime deployment mereka dan menyelidiki kegagalan. Untuk mengetahui informasi selengkapnya tentang peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE umum.

Untuk memberikan gambaran lengkap tentang kondisi aplikasi Anda, konsol Google Cloud juga memberi Anda akses ke alat logging dan pemantauan yang canggih, sehingga Anda dapat menyelidiki penyebab utama kegagalan sebelumnya dan mencegah kegagalan di masa mendatang secara proaktif. Untuk mengetahui informasi selengkapnya tentang alat ini, lihat Melakukan analisis historis dengan Cloud Logging dan Melakukan pemantauan proaktif dengan Cloud Monitoring.

Menemukan masalah cluster

Halaman Kubernetes clusters memberi Anda ringkasan kondisi cluster Anda. Untuk mengidentifikasi masalah pada cluster Anda, mulai dari halaman ini.

Berikut beberapa contoh cara menggunakan halaman ini untuk pemecahan masalah:

  • Untuk mendapatkan saran tentang cara meningkatkan kondisi cluster, strategi upgrade, dan pengoptimalan biaya, klik View recommendations.
  • Untuk mengidentifikasi cluster yang tidak responsif, tinjau kolom Status. Cluster yang tidak memiliki tanda centang hijau perlu diperhatikan.
  • Untuk melihat potensi masalah, tinjau kolom Notifications. Klik pesan notifikasi untuk mengetahui informasi selengkapnya.

Menyelidiki cluster tertentu

Setelah menemukan masalah pada cluster, jelajahi halaman Details cluster untuk mendapatkan informasi mendalam yang membantu Anda memecahkan masalah cluster dan memahami konfigurasinya.

Untuk membuka halaman Details cluster, lakukan langkah berikut:

  1. Buka halaman Kubernetes clusters.

    Buka Kubernetes clusters

  2. Tinjau kolom Name dan klik nama cluster yang ingin Anda selidiki.

Berikut beberapa contoh cara menggunakan halaman Details cluster untuk memecahkan masalah cluster Anda:

  • Untuk pemeriksaan kondisi umum, coba opsi berikut:

    • Untuk melihat dasbor tingkat cluster, buka tab Observability. Secara default, GKE mengaktifkan Cloud Monitoring saat Anda membuat cluster. Saat Cloud Monitoring diaktifkan, GKE akan otomatis menyiapkan dasbor di halaman ini. Berikut beberapa tampilan yang mungkin paling berguna untuk pemecahan masalah:

      • Ringkasan: lihat ringkasan tingkat tinggi tentang kondisi cluster, penggunaan resource, dan peristiwa utama. Dasbor ini membantu Anda menilai status keseluruhan cluster dengan cepat dan mengidentifikasi potensi masalah.
      • Traffic metrics: lihat metrik jaringan berbasis node untuk mendapatkan insight tentang traffic antara workload Kubernetes Anda.
      • Workload state: lihat status Deployment, Pod, dan container. Identifikasi instance yang gagal atau tidak responsif, dan deteksi batasan resource.
      • Control plane: lihat kondisi dan performa bidang kontrol. Dasbor ini memungkinkan Anda memantau metrik utama komponen seperti kube-apiserver dan etcd, mengidentifikasi bottleneck performa, dan mendeteksi kegagalan komponen.

    • Untuk melihat error aplikasi terbaru, buka tab App errors. Informasi di tab ini dapat membantu Anda memprioritaskan dan menyelesaikan error dengan menampilkan jumlah kemunculan, kapan error pertama kali muncul, dan kapan terakhir kali terjadi.

      Untuk menyelidiki error lebih lanjut, klik pesan error untuk melihat laporan error mendetail, termasuk link ke log yang relevan.

  • Jika Anda memecahkan masalah setelah upgrade atau perubahan terbaru, periksa bagian Cluster basics di tab Details cluster. Pastikan versi yang tercantum di kolom Version sesuai dengan yang Anda harapkan. Untuk penyelidikan lebih lanjut, klik Show upgrade history di bagian Upgrades.

  • Jika Anda menggunakan cluster Standard dan Pod Anda stuck dalam status Pending, atau Anda menduga bahwa node kelebihan beban, periksa tab Nodes. Tab Nodes tidak tersedia untuk cluster Autopilot karena GKE mengelola node untuk Anda.

    • Di bagian Node Pools, pastikan penskalaan otomatis dikonfigurasi dengan benar dan jenis mesin sesuai untuk workload Anda.
    • Di bagian Nodes, cari node yang statusnya selain Ready. Status NotReady menunjukkan masalah pada node itu sendiri, seperti tekanan resource atau masalah pada kubelet (kubelet adalah agen yang berjalan di setiap node untuk mengelola container).

Menemukan masalah workload

Jika Anda menduga ada masalah dengan aplikasi tertentu, seperti Deployment yang gagal, buka halaman Workloads di konsol Google Cloud . Halaman ini menyediakan tampilan terpusat dari semua aplikasi yang berjalan dalam cluster Anda.

  • Untuk memulai, di Google Cloud konsol, buka halaman Workloads.

    Buka Workloads

Berikut beberapa contoh cara menggunakan halaman ini untuk pemecahan masalah:

  • Untuk mengidentifikasi workload yang tidak responsif, tinjau kolom Status. Workload yang tidak memiliki tanda centang hijau perlu diperhatikan.
  • Jika aplikasi tidak responsif, tinjau kolom Pods. Misalnya, status seperti 1/3 berarti hanya satu dari tiga replika aplikasi yang berjalan, yang menunjukkan adanya masalah.

Menyelidiki workload tertentu

Setelah mengidentifikasi workload yang bermasalah dari ringkasan, jelajahi halaman Details workload untuk mulai mengisolasi penyebab utama.

Untuk membuka halaman Details workload, lakukan langkah berikut:

  1. Buka halaman Workloads.

    Buka Workloads

  2. Lihat kolom Name dan klik nama workload yang ingin Anda selidiki.

Berikut beberapa contoh cara menggunakan halaman Details workload untuk memecahkan masalah workload Anda:

  • Untuk memeriksa konfigurasi workload, gunakan tab Overview dan Details workload. Anda dapat menggunakan informasi ini untuk memverifikasi peristiwa seperti apakah tag image container yang benar di-deploy atau memeriksa permintaan dan batas resource workload.

  • Untuk menemukan nama Pod tertentu yang mengalami error, buka bagian Managed Pods. Anda mungkin memerlukan informasi ini untuk perintah kubectl. Bagian ini mencantumkan semua Pod yang dikontrol oleh workload, beserta statusnya.

  • Untuk melihat histori perubahan terbaru pada workload, buka tab Revision history. Jika Anda melihat masalah performa setelah Deployment baru, gunakan bagian ini untuk mengidentifikasi revisi mana yang aktif. Kemudian, Anda dapat membandingkan konfigurasi revisi saat ini dengan revisi sebelumnya untuk menemukan sumber masalah. Jika tab ini tidak terlihat, workload tersebut adalah jenis yang tidak menggunakan revisi atau belum memiliki update.

  • Jika Deployment tampaknya gagal, buka tab Events. Halaman ini sering kali menjadi sumber informasi yang paling berharga karena menampilkan peristiwa tingkat Kubernetes.

  • Untuk melihat log aplikasi, klik tab Logs. Halaman ini membantu Anda memahami apa yang terjadi di dalam cluster. Cari pesan error dan pelacakan tumpukan yang dapat membantu Anda mendiagnosis masalah.

  • Untuk mengonfirmasi apa yang di-deploy, lihat tab YAML. Halaman ini menampilkan manifes YAML langsung untuk workload seperti yang ada di cluster. Informasi ini berguna untuk menemukan perbedaan dari manifes yang dikontrol sumber. Jika Anda melihat manifes YAML satu Pod, tab ini juga menampilkan status Pod, yang memberikan insight tentang kegagalan tingkat Pod.

Langkah berikutnya