Google memantau dan memelihara hardware Google Distributed Cloud terhubung dari jarak jauh. Untuk tujuan ini, engineer Google memiliki akses Secure Shell (SSH) ke hardware Distributed Cloud yang terhubung. Jika Google mendeteksi masalah, seorang engineer Google akan menghubungi Anda untuk memecahkan dan menyelesaikannya. Jika Anda telah mengidentifikasi sendiri masalahnya, segera hubungi Dukungan Google untuk mendiagnosis dan menyelesaikannya.
Upgrade software Distributed Cloud terhubung
Bagian ini menjelaskan cara menggunakan Metrics Explorer untuk memeriksa apakah cluster yang terhubung ke Distributed Cloud sedang menjalani upgrade software.
Prosedur ini menggunakan metrik Pemantauan berikut:
Versi Cluster Saat Ini (
/edge_cluster/current_cluster_version): menunjukkan versi saat ini dari software Distributed Cloud terhubung yang berjalan di cluster.Target Cluster Version (
/edge_cluster/target_cluster_version): menunjukkan versi target Distributed Cloud Connected yang menjadi tujuan upgrade cluster.
Untuk menyelesaikan langkah-langkah di bagian ini, Anda harus memenuhi prasyarat berikut:
- Akses ke konsol Google Cloud dan project yang terhubung ke Distributed Cloud Google Cloud Anda.
- Peran IAM Monitoring Viewer, yang memungkinkan Anda melihat metrik Monitoring.
- (Opsional) Nilai
machine_iddari target mesin yang terhubung ke Distributed Cloud untuk memfilter hasil yang ditampilkan.
Menggunakan Metrics Explorer untuk memeriksa versi software saat ini dan target cluster
Buka Metrics Explorer:
Di konsol Google Cloud , buka bagian Monitoring.
Di hierarki navigasi sebelah kiri, klik Metrics Explorer.
Pilih jenis resource target:
Di halaman Metrics Explorer, buka halaman Configuration.
Klik Select a metric.
Gunakan kotak penelusuran untuk menelusuri jenis resource Cluster. Anda juga dapat menggunakan ID resource lengkap
edgecontainer.googleapis.com/Cluster.Di hasil yang ditampilkan, klik jenis resource Cluster.
Dapatkan versi software cluster saat ini:
Di bagian Metrik, telusuri nilai
current_cluster_version.Pilih metrik Waktu Aktif Mesin. Jalur lengkapnya adalah
edgecontainer.googleapis.com/edge_cluster/current_cluster_version.(Opsional) Filter menurut nilai
machine_idtarget menggunakan bagian Filter.
Dapatkan versi software target cluster:
Klik Add Query.
Di bagian Metrik, telusuri nilai
target_cluster_version.Pilih metrik Target Cluster Version. Jalur lengkapnya adalah
edgecontainer.googleapis.com/edge_cluster/target_cluster_version.(Opsional) Filter menurut nilai
machine_idtarget menggunakan bagian Filter.
Periksa status upgrade software cluster dalam diagram yang muncul.
Jika setiap baris Versi Cluster Saat Ini dan Versi Cluster Target menunjukkan nilai yang berbeda, cluster sedang menjalani upgrade software.
Jika baris Versi Cluster Saat Ini dan Versi Cluster Target menunjukkan nilai yang sama, cluster tidak sedang menjalani upgrade software.
Verifikasi hasil dari langkah sebelumnya menggunakan perintah berikut:
gcloud edge-cloud container clusters describe CLUSTER_ID --location=REGION
Ganti kode berikut:
CLUSTER_ID: ID cluster target.REGION: region Google Cloud tempat cluster dibuat.
Dalam output perintah, catat nilai kolom berikut:
- Jika nilai kolom
statusadalahUPDATING, cluster sedang menjalani upgrade software. - Jika nilai kolom
clusterVersiondantargetVersionberbeda, periksa nilai tersebut dengan nilai yang ditampilkan oleh Metrics Explorer.
Memahami hasil
Tabel berikut menjelaskan hasil yang ditampilkan oleh Metrics Explorer dan perintah gcloud.
| Status cluster | Diagnosis | Resolusi |
|---|---|---|
| Baik Nilai currentVersion dan targetVersion cocokNilai `status` adalah RUNNING |
Cluster menjalankan software Distributed Cloud terhubung versi target. | Tidak ada. |
| Mengupgrade Nilai currentVersion lebih rendah daripada targetVersionNilai `status` adalah UPDATING |
Cluster sedang diupgrade ke versi target software Distributed Cloud terhubung. | Pantau cluster di Metrics Explorer hingga nilai versi cluster saat ini dan target cocok. |
| Macam Nilai currentVersion lebih rendah dari targetVersion tanpa batas waktuNilai `status` adalah UPDATING tanpa batas waktu |
Upgrade ke versi target software Distributed Cloud terhubung telah gagal di setidaknya satu node dalam cluster. | Periksa konektivitas mesin dan log sistem; hubungi Google untuk mendapatkan bantuan. |
| Mengembalikan Nilai currentVersion lebih tinggi daripada targetVersionNilai `status` adalah UPDATING |
luster melakukan roll back ke versi software Distributed Cloud yang terhubung sebelumnya. | Hubungi Google untuk mengidentifikasi alasan pengembalian ke versi sebelumnya. |
Jika upgrade software di cluster gagal atau cluster telah di-roll back ke versi software sebelumnya, periksa hal berikut:
- Kondisi node. Pastikan setiap mesin fisik yang terhubung ke Distributed Cloud memiliki konektivitas jaringan dan melaporkan waktu aktif seperti yang dijelaskan di bagian berikutnya.
- Masa pemeliharaan. Verifikasi apakah upgrade software telah dijeda karena periode pengecualian pemeliharaan.
- Log sistem. Periksa log sistem Anda untuk mengidentifikasi kemungkinan alasan kegagalan upgrade software, seperti waktu tunggu habis saat penghapusan Pod.
Jika langkah-langkah penyelesaian yang tercantum dalam tabel tidak menyelesaikan masalah, hubungi
Dukungan Google
dengan nilai machine_id komputer yang terpengaruh dan stempel waktu gangguan.
Restart mesin Distributed Cloud terhubung
Bagian ini menjelaskan cara menggunakan Metrics Explorer untuk memeriksa apakah mesin fisik yang terhubung ke Distributed Cloud telah dimulai ulang, dan menentukan alasan dimulainya ulang. Pemantauan mulai ulang membantu menentukan apakah mulai ulang merupakan bagian dari pemeliharaan terencana atau akibat kegagalan hardware atau gangguan daya.
Prosedur ini menggunakan metrik Pemantauan berikut:
Waktu Operasional Mesin (
/machine/uptime): menunjukkan waktu, dalam detik, sejak dimulai ulang terakhir.Mulai Ulang Mesin (
/machine/restart_count): menunjukkan total jumlah mulai ulang untuk mesin target sejak di-deploy.
Untuk menyelesaikan langkah-langkah di bagian ini, Anda harus memenuhi prasyarat berikut:
- Akses ke konsol Google Cloud dan project yang terhubung ke Distributed Cloud Google Cloud Anda.
- Peran IAM Monitoring Viewer, yang memungkinkan Anda melihat metrik Monitoring.
- (Opsional) Nilai
machine_iddari target mesin yang terhubung ke Distributed Cloud untuk memfilter hasil yang ditampilkan.
Menggunakan Metrics Explorer untuk memeriksa uptime mesin dan jumlah mulai ulang
Buka Metrics Explorer:
Di konsol Google Cloud , buka bagian Monitoring.
Di hierarki navigasi sebelah kiri, klik Metrics Explorer.
Pilih jenis resource target:
Di halaman Metrics Explorer, buka halaman Configuration.
Klik Select a metric.
Gunakan kotak penelusuran untuk menelusuri jenis resource Machine. Anda juga dapat menggunakan ID resource lengkap
edgecontainer.googleapis.com/Machine.Di hasil yang ditampilkan, klik jenis resource Machine.
Periksa waktu aktif mesin:
Di bagian Metrik, telusuri nilai
uptime.Pilih metrik Waktu Aktif Mesin. Jalur lengkapnya adalah
edgecontainer.googleapis.com/machine/uptime.(Opsional) Filter menurut nilai
machine_idtarget menggunakan bagian Filter.Pada diagram waktu yang muncul, pastikan grafik uptime terus meningkat. Jika kapan pun nilai waktu aktif turun menjadi nol dan dimulai ulang, hal ini menunjukkan bahwa mesin telah dimulai ulang.
Periksa jumlah mulai ulang komputer:
Di bagian Metrik, telusuri nilai
restart_count.Pilih metrik Mulai Ulang Komputer. Jalur lengkapnya adalah
edgecontainer.googleapis.com/machine/restart_count.(Opsional) Filter menurut nilai
machine_idtarget menggunakan bagian Filter.Pada diagram waktu yang muncul, pastikan garis grafik tetap berada di
0, yang menunjukkan tidak ada mulai ulang. Jika pada titik mana pun garis ini melonjak ke1hal ini menunjukkan bahwa mesin telah dimulai ulang; catat stempel waktu yang tepat saat dimulai ulang untuk pemecahan masalah lebih lanjut.(Opsional) Untuk melihat setiap peristiwa, bukan grafik, buka bagian Agregasi di halaman, tetapkan kolom Periode penyelarasan ke
1 minute, dan kolom Penyelarasan per deret ke Delta.
Memahami hasil
Tabel berikut menjelaskan hasil yang ditampilkan oleh Metrics Explorer.
| Status mesin | Diagnosis | Resolusi |
|---|---|---|
| Stabil Metrik "Waktu Aktif Mesin" meningkat secara stabil Delta metrik "Mulai Ulang Mesin" adalah 0 |
Mesin belum dimulai ulang. | Tidak ada. |
| Mulai ulang bersih Metrik "Waktu Aktif Mesin" turun menjadi 0Metrik "Mulai Ulang Mesin" melonjak menjadi 1 |
Mesin telah berhasil dimulai ulang dan dihubungkan kembali ke Google Cloud. | Periksa log sistem untuk mengetahui alasan memulai ulang. |
| Kegagalan daya Grafik metrik "Waktu Aktif Mesin" memiliki jeda tanpa data Metrik "Mulai Ulang Mesin" tidak berubah selama jeda waktu aktif mesin |
Komputer kehilangan daya atau koneksi jaringan sebelum dapat dimulai ulang. | Periksa kabel daya dan jaringan, konfigurasi jaringan lokal, status indikator LED. |
| Terputus-putus Nilai metrik "Machine Connected" bergantian antara 0 dan 1Nilai metrik "Network Connectivity" bergantian antara 0 dan 1 |
Koneksi jaringan tidak stabil, kehilangan paket, atau latensi berlebihan. | Periksa jaringan lokal Anda untuk mengetahui apakah ada kemacetan dan hardware yang rusak. |
Jika langkah-langkah penyelesaian yang tercantum dalam tabel tidak menyelesaikan masalah, hubungi
Dukungan Google
dengan nilai machine_id komputer yang terpengaruh dan stempel waktu gangguan.
Konektivitas mesin Distributed Cloud terhubung
Bagian ini menjelaskan cara memeriksa konektivitas internet dan Google Cloud untuk mesin yang terhubung ke Distributed Cloud menggunakan fitur Metrics Explorer di Cloud Monitoring.
Prosedur ini menggunakan metrik Pemantauan berikut:
Mesin Terhubung (
/machine/connected): menunjukkan apakah mesin terhubung ke Google Cloud.Network Connectivity (
/machine/network/connectivity): menunjukkan apakah antarmuka jaringan utama mesin memiliki konektivitas internet.
Untuk menyelesaikan langkah-langkah di bagian ini, Anda harus memenuhi prasyarat berikut:
- Akses ke konsol Google Cloud dan project yang terhubung ke Distributed Cloud Google Cloud Anda.
- Peran IAM Monitoring Viewer, yang memungkinkan Anda melihat metrik Monitoring.
- (Opsional) Nilai
machine_iddari target mesin yang terhubung ke Distributed Cloud untuk memfilter hasil yang ditampilkan.
Menggunakan Metrics Explorer untuk memeriksa konektivitas mesin
Buka Metrics Explorer:
Di konsol Google Cloud , buka bagian Monitoring.
Di hierarki navigasi sebelah kiri, klik Metrics Explorer.
Pilih jenis resource target:
Di halaman Metrics Explorer, buka halaman Queries.
Gunakan kotak penelusuran untuk menelusuri jenis resource Machine. Anda juga dapat menggunakan ID resource lengkap
edgecontainer.googleapis.com/Machine.Di hasil yang ditampilkan, klik jenis resource Machine.
Periksa koneksi mesin ke Google Cloud:
Di bagian Metrik, telusuri nilai
connected.Pilih metrik Mesin Terhubung. Jalur lengkapnya adalah
edgecontainer.googleapis.com/machine/connected.(Opsional) Filter menurut nilai
machine_idtarget menggunakan bagian Filter.Pada diagram waktu yang muncul, pastikan garis Healthy tetap 100% secara berurutan. Jika pada titik mana pun nilai ini adalah 0% atau Tidak Sehat, berarti mesin telah kehilangan konektivitas dengan Google Cloud pada waktu yang ditunjukkan.
Periksa konektivitas internet mesin:
Di bagian Metrik, telusuri nilai
connectivity.Pilih metrik Network Connectivity. Jalur lengkapnya adalah
edgecontainer.googleapis.com/machine/network/connectivity.(Opsional) Filter menurut nilai
machine_idtarget menggunakan bagian Filter.Pada diagram waktu yang muncul, pastikan garis Healthy tetap 100% secara berurutan. Jika pada titik mana pun nilai ini adalah 0% Tidak Sehat, berarti mesin kehilangan konektivitas internet pada waktu yang ditunjukkan.
Memahami hasil
Tabel berikut menjelaskan hasil yang ditampilkan oleh Metrics Explorer.
| Status mesin | Diagnosis | Resolusi |
|---|---|---|
| Sehat Nilai metrik "Machine Connected" adalah 1Nilai metrik "Network Connectivity" adalah 1 |
Operasi normal. | Tidak ada. |
| Terputus Nilai metrik "Machine Connected" adalah 0Nilai metrik "Network Connectivity" adalah 1 |
Komputer memiliki konektivitas internet, tetapi tidak dapat terhubung ke Google Cloud. | Periksa aturan firewall Anda untuk layanan Google dan endpoint API. Pastikan agen yang terhubung Distributed Cloud berjalan di mesin. |
| Terisolasi Nilai metrik "Machine Connected" adalah 0Nilai metrik "Network Connectivity" adalah 0 |
Mesin tidak memiliki koneksi internet. | Periksa kabel daya dan jaringan, konfigurasi jaringan lokal, status indikator LED. Verifikasi konfigurasi VLAN dan perutean Anda. |
| Terputus-putus Nilai metrik "Machine Connected" bergantian antara 0 dan 1Nilai metrik "Network Connectivity" bergantian antara 0 dan 1 |
Koneksi jaringan tidak stabil, kehilangan paket, atau latensi berlebihan. | Periksa jaringan lokal Anda untuk mengetahui apakah ada kemacetan dan hardware yang rusak. |
Jika Anda melihat nilai 0 yang berkelanjutan untuk salah satu metrik, ikuti langkah-langkah pemecahan masalah yang dijelaskan dalam tabel untuk mengatasinya. Jika masalah berlanjut, hubungi Dukungan Google
dengan menyertakan nilai machine_id komputer yang terpengaruh dan stempel waktu gangguan.
Virtual machine macet dalam status Pending
Beban kerja mesin virtual dapat terhenti dalam status Pending dan gagal dijadwalkan pada node jika salah satu hal berikut terjadi:
- Distributed Cloud yang terhubung tidak dapat mengalokasikan resource yang diminta, seperti waktu CPU, memori, atau ruang disk, ke virtual machine.
- Ada kesalahan dalam konfigurasi virtual machine.
- Ada kesalahan pada penyimpanan mesin virtual.
- Node target tercemar.
Untuk mengatasi masalah ini, lakukan langkah berikut:
Dapatkan kredensial cluster seperti yang dijelaskan dalam Mendapatkan kredensial untuk cluster.
Dapatkan informasi tentang mesin virtual yang terpengaruh:
kubectl describe virtualmachine VM_NAME -n NAMESPACE
Ganti kode berikut:
VM_NAME: Nama virtual machine target.NAMESPACE: Namespace mesin virtual target.
Perintah ini akan menampilkan output yang mirip dengan berikut ini:
Status: ... State: Pending ... Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal SuccessfulCreate 15m virtualmachine-controller Created virtual machine my-stuck-vm Warning DiskProvisioningFailed 14m virtualmachine-controller Failed to provision disk: DataVolume my-stuck-vm-data-disk not ready Warning PVCNotBound 14m virtualmachine-controller PersistentVolumeClaim my-stuck-vm-data-disk is in phase Pending Warning VMINotCreated 10m virtualmachine-controller VirtualMachineInstance cannot be created: dependencies not readyOutput perintah berisi pesan yang mungkin menunjukkan batasan resource, kegagalan penjadwalan, kesalahan penyimpanan, dan masalah lainnya.
Periksa output untuk menentukan penyebab kegagalan penjadwalan seperti yang dijelaskan di bagian berikutnya.
Resource tidak cukup
Anda mungkin melihat pesan yang menunjukkan resource yang tidak mencukupi, seperti CPU, memori, atau ruang disk. Contoh:
5/8 nodes are available: 3 Insufficient memory, 3 Insufficient CPU.
Untuk mengatasi masalah ini, periksa resource yang dialokasikan ke mesin virtual yang terpengaruh dan beban kerja lain yang dijadwalkan di node, lalu lakukan hal berikut bergantung pada kebutuhan bisnis Anda:
- Menurunkan skala workload lain yang dijadwalkan di node,
- Kurangi jumlah resource yang dialokasikan ke virtual machine yang terpengaruh,
- Tambahkan lebih banyak mesin ke cluster yang terpengaruh.
Node yang terkena taint
Anda mungkin melihat pesan yang menunjukkan bahwa node target tercemar. Contoh:
5/8 nodes are available: 3 node(s) had taint {<taint-key>:<taint-value>}, that the pod didn't tolerate.
Untuk mengatasi masalah ini, lakukan langkah-langkah berikut:
Gunakan perintah berikut untuk memeriksa taint pada node:
kubectl get nodes -o custom-columns=NAME:.metadata.name,TAINTS:.spec.taints
Perintah ini akan menampilkan output yang mirip dengan berikut ini:
NAME TAINTS node-name-1 [map[effect:PreferNoSchedule key:node-role.kubernetes.io/master] map[effect:PreferNoSchedule key:node-role.kubernetes.io/control-plane]] node-name-2 <none>Lakukan salah satu hal berikut:
- Untuk noda yang tidak terduga, hapus noda tersebut seperti yang dijelaskan dalam Taints and Tolerations.
- Untuk taint yang diharapkan, tambahkan toleransi yang sesuai ke konfigurasi virtual machine, seperti yang dijelaskan dalam Taint dan Toleransi.
Kesalahan penyimpanan
Anda mungkin melihat pesan yang menunjukkan adanya kesalahan pada penyimpanan mesin virtual. Contoh:
5/8 nodes are available: 3 node(s) had volume node affinity conflict, 3 node(s) had unbound immediate PersistentVolumeClaims.
Pesan ini mungkin menunjukkan bahwa volume persisten yang sesuai gagal di-mount di node target.
Untuk mengatasi masalah ini, lakukan langkah-langkah berikut:
Gunakan perintah berikut untuk mendapatkan status klaim volume persisten (PVC) di namespace virtual machine yang terpengaruh:
kubectl get pvc -n NAMESPACE
Ganti
NAMESPACEdengan nama namespace target.Perintah ini akan menampilkan output yang mirip dengan berikut ini:
NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS AGE windows-robin-disk-0 Bound pvc-b1a1d264-84bf-4e58-857d-f37f629d5082 25Gi RWX robin-block-immediate 30h windows-robin-disk-1 Bound pvc-0130b9a8-7fed-4df0-8226-d79273792a16 25Gi RWX robin-block-immediate 30h windows-robin-vm-0-restored-windows-robin-disk-0 Pending gce-pd-gkebackup-in 26mVerifikasi bahwa PVC yang sesuai memiliki status
Bound; jika statusnyaPending, berarti subsistem penyimpanan gagal menyediakan volume. Dalam kasus tersebut, Anda harus memecahkan masalah konfigurasi subsistem penyimpanan dan memastikanStorageClassyang sesuai tersedia.