Memecahkan masalah Distributed Cloud terhubung

Google memantau dan memelihara hardware Google Distributed Cloud terhubung dari jarak jauh. Untuk tujuan ini, engineer Google memiliki akses Secure Shell (SSH) ke hardware Distributed Cloud yang terhubung. Jika Google mendeteksi masalah, seorang engineer Google akan menghubungi Anda untuk memecahkan dan menyelesaikannya. Jika Anda telah mengidentifikasi sendiri masalahnya, segera hubungi Dukungan Google untuk mendiagnosis dan menyelesaikannya.

Upgrade software Distributed Cloud terhubung

Bagian ini menjelaskan cara menggunakan Metrics Explorer untuk memeriksa apakah cluster yang terhubung ke Distributed Cloud sedang menjalani upgrade software.

Prosedur ini menggunakan metrik Pemantauan berikut:

  • Versi Cluster Saat Ini (/edge_cluster/current_cluster_version): menunjukkan versi saat ini dari software Distributed Cloud terhubung yang berjalan di cluster.

  • Target Cluster Version (/edge_cluster/target_cluster_version): menunjukkan versi target Distributed Cloud Connected yang menjadi tujuan upgrade cluster.

Untuk menyelesaikan langkah-langkah di bagian ini, Anda harus memenuhi prasyarat berikut:

  1. Akses ke konsol Google Cloud dan project yang terhubung ke Distributed Cloud Google Cloud Anda.
  2. Peran IAM Monitoring Viewer, yang memungkinkan Anda melihat metrik Monitoring.
  3. (Opsional) Nilai machine_id dari target mesin yang terhubung ke Distributed Cloud untuk memfilter hasil yang ditampilkan.

Menggunakan Metrics Explorer untuk memeriksa versi software saat ini dan target cluster

  1. Buka Metrics Explorer:

    1. Di konsol Google Cloud , buka bagian Monitoring.

    2. Di hierarki navigasi sebelah kiri, klik Metrics Explorer.

  2. Pilih jenis resource target:

    1. Di halaman Metrics Explorer, buka halaman Configuration.

    2. Klik Select a metric.

    3. Gunakan kotak penelusuran untuk menelusuri jenis resource Cluster. Anda juga dapat menggunakan ID resource lengkap edgecontainer.googleapis.com/Cluster.

    4. Di hasil yang ditampilkan, klik jenis resource Cluster.

  3. Dapatkan versi software cluster saat ini:

    1. Di bagian Metrik, telusuri nilai current_cluster_version.

    2. Pilih metrik Waktu Aktif Mesin. Jalur lengkapnya adalah edgecontainer.googleapis.com/edge_cluster/current_cluster_version.

    3. (Opsional) Filter menurut nilai machine_id target menggunakan bagian Filter.

  4. Dapatkan versi software target cluster:

    1. Klik Add Query.

    2. Di bagian Metrik, telusuri nilai target_cluster_version.

    3. Pilih metrik Target Cluster Version. Jalur lengkapnya adalah edgecontainer.googleapis.com/edge_cluster/target_cluster_version.

    4. (Opsional) Filter menurut nilai machine_id target menggunakan bagian Filter.

  5. Periksa status upgrade software cluster dalam diagram yang muncul.

    • Jika setiap baris Versi Cluster Saat Ini dan Versi Cluster Target menunjukkan nilai yang berbeda, cluster sedang menjalani upgrade software.

    • Jika baris Versi Cluster Saat Ini dan Versi Cluster Target menunjukkan nilai yang sama, cluster tidak sedang menjalani upgrade software.

  6. Verifikasi hasil dari langkah sebelumnya menggunakan perintah berikut:

    gcloud edge-cloud container clusters describe CLUSTER_ID --location=REGION
    

    Ganti kode berikut:

    • CLUSTER_ID: ID cluster target.
    • REGION: region Google Cloud tempat cluster dibuat.

    Dalam output perintah, catat nilai kolom berikut:

    • Jika nilai kolom status adalah UPDATING, cluster sedang menjalani upgrade software.
    • Jika nilai kolom clusterVersion dan targetVersion berbeda, periksa nilai tersebut dengan nilai yang ditampilkan oleh Metrics Explorer.

Memahami hasil

Tabel berikut menjelaskan hasil yang ditampilkan oleh Metrics Explorer dan perintah gcloud.

Status cluster Diagnosis Resolusi
Baik
Nilai currentVersion dan targetVersion cocok
Nilai `status` adalah RUNNING
Cluster menjalankan software Distributed Cloud terhubung versi target. Tidak ada.
Mengupgrade
Nilai currentVersion lebih rendah daripada targetVersion
Nilai `status` adalah UPDATING
Cluster sedang diupgrade ke versi target software Distributed Cloud terhubung. Pantau cluster di Metrics Explorer hingga nilai versi cluster saat ini dan target cocok.
Macam
Nilai currentVersion lebih rendah dari targetVersion tanpa batas waktu
Nilai `status` adalah UPDATING tanpa batas waktu
Upgrade ke versi target software Distributed Cloud terhubung telah gagal di setidaknya satu node dalam cluster. Periksa konektivitas mesin dan log sistem; hubungi Google untuk mendapatkan bantuan.
Mengembalikan
Nilai currentVersion lebih tinggi daripada targetVersion
Nilai `status` adalah UPDATING
luster melakukan roll back ke versi software Distributed Cloud yang terhubung sebelumnya. Hubungi Google untuk mengidentifikasi alasan pengembalian ke versi sebelumnya.

Jika upgrade software di cluster gagal atau cluster telah di-roll back ke versi software sebelumnya, periksa hal berikut:

  • Kondisi node. Pastikan setiap mesin fisik yang terhubung ke Distributed Cloud memiliki konektivitas jaringan dan melaporkan waktu aktif seperti yang dijelaskan di bagian berikutnya.
  • Masa pemeliharaan. Verifikasi apakah upgrade software telah dijeda karena periode pengecualian pemeliharaan.
  • Log sistem. Periksa log sistem Anda untuk mengidentifikasi kemungkinan alasan kegagalan upgrade software, seperti waktu tunggu habis saat penghapusan Pod.

Jika langkah-langkah penyelesaian yang tercantum dalam tabel tidak menyelesaikan masalah, hubungi Dukungan Google dengan nilai machine_id komputer yang terpengaruh dan stempel waktu gangguan.

Restart mesin Distributed Cloud terhubung

Bagian ini menjelaskan cara menggunakan Metrics Explorer untuk memeriksa apakah mesin fisik yang terhubung ke Distributed Cloud telah dimulai ulang, dan menentukan alasan dimulainya ulang. Pemantauan mulai ulang membantu menentukan apakah mulai ulang merupakan bagian dari pemeliharaan terencana atau akibat kegagalan hardware atau gangguan daya.

Prosedur ini menggunakan metrik Pemantauan berikut:

  • Waktu Operasional Mesin (/machine/uptime): menunjukkan waktu, dalam detik, sejak dimulai ulang terakhir.

  • Mulai Ulang Mesin (/machine/restart_count): menunjukkan total jumlah mulai ulang untuk mesin target sejak di-deploy.

Untuk menyelesaikan langkah-langkah di bagian ini, Anda harus memenuhi prasyarat berikut:

  1. Akses ke konsol Google Cloud dan project yang terhubung ke Distributed Cloud Google Cloud Anda.
  2. Peran IAM Monitoring Viewer, yang memungkinkan Anda melihat metrik Monitoring.
  3. (Opsional) Nilai machine_id dari target mesin yang terhubung ke Distributed Cloud untuk memfilter hasil yang ditampilkan.

Menggunakan Metrics Explorer untuk memeriksa uptime mesin dan jumlah mulai ulang

  1. Buka Metrics Explorer:

    1. Di konsol Google Cloud , buka bagian Monitoring.

    2. Di hierarki navigasi sebelah kiri, klik Metrics Explorer.

  2. Pilih jenis resource target:

    1. Di halaman Metrics Explorer, buka halaman Configuration.

    2. Klik Select a metric.

    3. Gunakan kotak penelusuran untuk menelusuri jenis resource Machine. Anda juga dapat menggunakan ID resource lengkap edgecontainer.googleapis.com/Machine.

    4. Di hasil yang ditampilkan, klik jenis resource Machine.

  3. Periksa waktu aktif mesin:

    1. Di bagian Metrik, telusuri nilai uptime.

    2. Pilih metrik Waktu Aktif Mesin. Jalur lengkapnya adalah edgecontainer.googleapis.com/machine/uptime.

    3. (Opsional) Filter menurut nilai machine_id target menggunakan bagian Filter.

    4. Pada diagram waktu yang muncul, pastikan grafik uptime terus meningkat. Jika kapan pun nilai waktu aktif turun menjadi nol dan dimulai ulang, hal ini menunjukkan bahwa mesin telah dimulai ulang.

  4. Periksa jumlah mulai ulang komputer:

    1. Di bagian Metrik, telusuri nilai restart_count.

    2. Pilih metrik Mulai Ulang Komputer. Jalur lengkapnya adalah edgecontainer.googleapis.com/machine/restart_count.

    3. (Opsional) Filter menurut nilai machine_id target menggunakan bagian Filter.

    4. Pada diagram waktu yang muncul, pastikan garis grafik tetap berada di 0, yang menunjukkan tidak ada mulai ulang. Jika pada titik mana pun garis ini melonjak ke 1 hal ini menunjukkan bahwa mesin telah dimulai ulang; catat stempel waktu yang tepat saat dimulai ulang untuk pemecahan masalah lebih lanjut.

    5. (Opsional) Untuk melihat setiap peristiwa, bukan grafik, buka bagian Agregasi di halaman, tetapkan kolom Periode penyelarasan ke 1 minute, dan kolom Penyelarasan per deret ke Delta.

Memahami hasil

Tabel berikut menjelaskan hasil yang ditampilkan oleh Metrics Explorer.

Status mesin Diagnosis Resolusi
Stabil
Metrik "Waktu Aktif Mesin" meningkat secara stabil
Delta metrik "Mulai Ulang Mesin" adalah 0
Mesin belum dimulai ulang. Tidak ada.
Mulai ulang bersih
Metrik "Waktu Aktif Mesin" turun menjadi 0
Metrik "Mulai Ulang Mesin" melonjak menjadi 1
Mesin telah berhasil dimulai ulang dan dihubungkan kembali ke Google Cloud. Periksa log sistem untuk mengetahui alasan memulai ulang.
Kegagalan daya
Grafik metrik "Waktu Aktif Mesin" memiliki jeda tanpa data
Metrik "Mulai Ulang Mesin" tidak berubah selama jeda waktu aktif mesin
Komputer kehilangan daya atau koneksi jaringan sebelum dapat dimulai ulang. Periksa kabel daya dan jaringan, konfigurasi jaringan lokal, status indikator LED.
Terputus-putus
Nilai metrik "Machine Connected" bergantian antara 0 dan 1
Nilai metrik "Network Connectivity" bergantian antara 0 dan 1
Koneksi jaringan tidak stabil, kehilangan paket, atau latensi berlebihan. Periksa jaringan lokal Anda untuk mengetahui apakah ada kemacetan dan hardware yang rusak.

Jika langkah-langkah penyelesaian yang tercantum dalam tabel tidak menyelesaikan masalah, hubungi Dukungan Google dengan nilai machine_id komputer yang terpengaruh dan stempel waktu gangguan.

Konektivitas mesin Distributed Cloud terhubung

Bagian ini menjelaskan cara memeriksa konektivitas internet dan Google Cloud untuk mesin yang terhubung ke Distributed Cloud menggunakan fitur Metrics Explorer di Cloud Monitoring.

Prosedur ini menggunakan metrik Pemantauan berikut:

  • Mesin Terhubung (/machine/connected): menunjukkan apakah mesin terhubung ke Google Cloud.

  • Network Connectivity (/machine/network/connectivity): menunjukkan apakah antarmuka jaringan utama mesin memiliki konektivitas internet.

Untuk menyelesaikan langkah-langkah di bagian ini, Anda harus memenuhi prasyarat berikut:

  1. Akses ke konsol Google Cloud dan project yang terhubung ke Distributed Cloud Google Cloud Anda.
  2. Peran IAM Monitoring Viewer, yang memungkinkan Anda melihat metrik Monitoring.
  3. (Opsional) Nilai machine_id dari target mesin yang terhubung ke Distributed Cloud untuk memfilter hasil yang ditampilkan.

Menggunakan Metrics Explorer untuk memeriksa konektivitas mesin

  1. Buka Metrics Explorer:

    1. Di konsol Google Cloud , buka bagian Monitoring.

    2. Di hierarki navigasi sebelah kiri, klik Metrics Explorer.

  2. Pilih jenis resource target:

    1. Di halaman Metrics Explorer, buka halaman Queries.

    2. Gunakan kotak penelusuran untuk menelusuri jenis resource Machine. Anda juga dapat menggunakan ID resource lengkap edgecontainer.googleapis.com/Machine.

    3. Di hasil yang ditampilkan, klik jenis resource Machine.

  3. Periksa koneksi mesin ke Google Cloud:

    1. Di bagian Metrik, telusuri nilai connected.

    2. Pilih metrik Mesin Terhubung. Jalur lengkapnya adalah edgecontainer.googleapis.com/machine/connected.

    3. (Opsional) Filter menurut nilai machine_id target menggunakan bagian Filter.

    4. Pada diagram waktu yang muncul, pastikan garis Healthy tetap 100% secara berurutan. Jika pada titik mana pun nilai ini adalah 0% atau Tidak Sehat, berarti mesin telah kehilangan konektivitas dengan Google Cloud pada waktu yang ditunjukkan.

  4. Periksa konektivitas internet mesin:

    1. Di bagian Metrik, telusuri nilai connectivity.

    2. Pilih metrik Network Connectivity. Jalur lengkapnya adalah edgecontainer.googleapis.com/machine/network/connectivity.

    3. (Opsional) Filter menurut nilai machine_id target menggunakan bagian Filter.

    4. Pada diagram waktu yang muncul, pastikan garis Healthy tetap 100% secara berurutan. Jika pada titik mana pun nilai ini adalah 0% Tidak Sehat, berarti mesin kehilangan konektivitas internet pada waktu yang ditunjukkan.

Memahami hasil

Tabel berikut menjelaskan hasil yang ditampilkan oleh Metrics Explorer.

Status mesin Diagnosis Resolusi
Sehat
Nilai metrik "Machine Connected" adalah 1
Nilai metrik "Network Connectivity" adalah 1
Operasi normal. Tidak ada.
Terputus
Nilai metrik "Machine Connected" adalah 0
Nilai metrik "Network Connectivity" adalah 1
Komputer memiliki konektivitas internet, tetapi tidak dapat terhubung ke Google Cloud. Periksa aturan firewall Anda untuk layanan Google dan endpoint API. Pastikan agen yang terhubung Distributed Cloud berjalan di mesin.
Terisolasi
Nilai metrik "Machine Connected" adalah 0
Nilai metrik "Network Connectivity" adalah 0
Mesin tidak memiliki koneksi internet. Periksa kabel daya dan jaringan, konfigurasi jaringan lokal, status indikator LED. Verifikasi konfigurasi VLAN dan perutean Anda.
Terputus-putus
Nilai metrik "Machine Connected" bergantian antara 0 dan 1
Nilai metrik "Network Connectivity" bergantian antara 0 dan 1
Koneksi jaringan tidak stabil, kehilangan paket, atau latensi berlebihan. Periksa jaringan lokal Anda untuk mengetahui apakah ada kemacetan dan hardware yang rusak.

Jika Anda melihat nilai 0 yang berkelanjutan untuk salah satu metrik, ikuti langkah-langkah pemecahan masalah yang dijelaskan dalam tabel untuk mengatasinya. Jika masalah berlanjut, hubungi Dukungan Google dengan menyertakan nilai machine_id komputer yang terpengaruh dan stempel waktu gangguan.

Virtual machine macet dalam status Pending

Beban kerja mesin virtual dapat terhenti dalam status Pending dan gagal dijadwalkan pada node jika salah satu hal berikut terjadi:

  • Distributed Cloud yang terhubung tidak dapat mengalokasikan resource yang diminta, seperti waktu CPU, memori, atau ruang disk, ke virtual machine.
  • Ada kesalahan dalam konfigurasi virtual machine.
  • Ada kesalahan pada penyimpanan mesin virtual.
  • Node target tercemar.

Untuk mengatasi masalah ini, lakukan langkah berikut:

  1. Dapatkan kredensial cluster seperti yang dijelaskan dalam Mendapatkan kredensial untuk cluster.

  2. Dapatkan informasi tentang mesin virtual yang terpengaruh:

    kubectl describe virtualmachine VM_NAME -n NAMESPACE
    

    Ganti kode berikut:

    • VM_NAME: Nama virtual machine target.
    • NAMESPACE: Namespace mesin virtual target.

    Perintah ini akan menampilkan output yang mirip dengan berikut ini:

    Status:
    ...
    State:                    Pending
    ...
    Events:
    Type     Reason                  Age   From                       Message
    ----     ------                  ----  ----                       -------
    Normal   SuccessfulCreate        15m   virtualmachine-controller  Created virtual machine my-stuck-vm
    Warning  DiskProvisioningFailed  14m   virtualmachine-controller  Failed to provision disk: DataVolume my-stuck-vm-data-disk not ready
    Warning  PVCNotBound             14m   virtualmachine-controller  PersistentVolumeClaim my-stuck-vm-data-disk is in phase Pending
    Warning  VMINotCreated           10m   virtualmachine-controller  VirtualMachineInstance cannot be created: dependencies not ready
    

    Output perintah berisi pesan yang mungkin menunjukkan batasan resource, kegagalan penjadwalan, kesalahan penyimpanan, dan masalah lainnya.

  3. Periksa output untuk menentukan penyebab kegagalan penjadwalan seperti yang dijelaskan di bagian berikutnya.

Resource tidak cukup

Anda mungkin melihat pesan yang menunjukkan resource yang tidak mencukupi, seperti CPU, memori, atau ruang disk. Contoh:

5/8 nodes are available: 3 Insufficient memory, 3 Insufficient CPU.

Untuk mengatasi masalah ini, periksa resource yang dialokasikan ke mesin virtual yang terpengaruh dan beban kerja lain yang dijadwalkan di node, lalu lakukan hal berikut bergantung pada kebutuhan bisnis Anda:

  • Menurunkan skala workload lain yang dijadwalkan di node,
  • Kurangi jumlah resource yang dialokasikan ke virtual machine yang terpengaruh,
  • Tambahkan lebih banyak mesin ke cluster yang terpengaruh.

Node yang terkena taint

Anda mungkin melihat pesan yang menunjukkan bahwa node target tercemar. Contoh:

5/8 nodes are available: 3 node(s) had taint {<taint-key>:<taint-value>}, that the pod didn't tolerate.

Untuk mengatasi masalah ini, lakukan langkah-langkah berikut:

  1. Gunakan perintah berikut untuk memeriksa taint pada node:

    kubectl get nodes -o custom-columns=NAME:.metadata.name,TAINTS:.spec.taints
    

    Perintah ini akan menampilkan output yang mirip dengan berikut ini:

    NAME                           TAINTS
    node-name-1   [map[effect:PreferNoSchedule key:node-role.kubernetes.io/master] map[effect:PreferNoSchedule key:node-role.kubernetes.io/control-plane]]
    node-name-2   <none>
    
  2. Lakukan salah satu hal berikut:

    • Untuk noda yang tidak terduga, hapus noda tersebut seperti yang dijelaskan dalam Taints and Tolerations.
    • Untuk taint yang diharapkan, tambahkan toleransi yang sesuai ke konfigurasi virtual machine, seperti yang dijelaskan dalam Taint dan Toleransi.

Kesalahan penyimpanan

Anda mungkin melihat pesan yang menunjukkan adanya kesalahan pada penyimpanan mesin virtual. Contoh:

5/8 nodes are available: 3 node(s) had volume node affinity conflict, 3 node(s) had unbound immediate PersistentVolumeClaims.

Pesan ini mungkin menunjukkan bahwa volume persisten yang sesuai gagal di-mount di node target.

Untuk mengatasi masalah ini, lakukan langkah-langkah berikut:

  1. Gunakan perintah berikut untuk mendapatkan status klaim volume persisten (PVC) di namespace virtual machine yang terpengaruh:

    kubectl get pvc -n NAMESPACE
    

    Ganti NAMESPACE dengan nama namespace target.

    Perintah ini akan menampilkan output yang mirip dengan berikut ini:

    NAME                                               STATUS    VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS            AGE
    windows-robin-disk-0                               Bound     pvc-b1a1d264-84bf-4e58-857d-f37f629d5082   25Gi       RWX            robin-block-immediate   30h
    windows-robin-disk-1                               Bound     pvc-0130b9a8-7fed-4df0-8226-d79273792a16   25Gi       RWX            robin-block-immediate   30h
    windows-robin-vm-0-restored-windows-robin-disk-0   Pending                                                                        gce-pd-gkebackup-in     26m
    
  2. Verifikasi bahwa PVC yang sesuai memiliki status Bound; jika statusnya Pending, berarti subsistem penyimpanan gagal menyediakan volume. Dalam kasus tersebut, Anda harus memecahkan masalah konfigurasi subsistem penyimpanan dan memastikan StorageClass yang sesuai tersedia.