Jika Anda melihat masalah pada VM H4D yang dicadangkan yang tidak dapat Anda selesaikan— seperti error persisten pada perangkat RDMA—sebaiknya laporkan host-nya sebagai rusak. Saat Anda melaporkan host sebagai rusak, Compute Engine akan melaporkan host sebagai rusak, lalu otomatis memperbaiki VM dengan menjalankan pemeliharaan host. Untuk VM H4D, Compute Engine mencoba memigrasikan VM ke host lain saat pemeliharaan dimulai, yang dapat membantu meminimalkan periode nonaktif untuk workload Anda.
Dokumen ini menjelaskan cara melaporkan dan memperbaiki host yang rusak untuk instance virtual machine (VM) yang merupakan bagian dari cluster berbasis VM. Untuk cluster Google Kubernetes Engine (GKE), lihat Melaporkan host yang rusak melalui GKE.
Batasan
Saat Anda melaporkan host yang rusak, batasan berikut berlaku:
Anda hanya dapat melaporkan host yang rusak jika VM yang berjalan di host memenuhi semua kondisi berikut:
VM sedang berjalan.
VM menggunakan jenis mesin H4D.
VM menggunakan model penyediaan terikat reservasi.
Google Cloud berupaya sebaik mungkin untuk memenuhi semua permintaan host yang melaporkan kesalahan. Namun, karena batasan kapasitas atau batas frekuensi, permintaan mungkin tidak selalu dipenuhi.
Sebelum memulai
-
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
Untuk menggunakan contoh REST API di halaman ini dalam lingkungan pengembangan lokal, gunakan kredensial yang Anda berikan ke gcloud CLI.
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
Untuk mengetahui informasi selengkapnya, lihat Melakukan autentikasi untuk menggunakan REST dalam dokumentasi autentikasi Google Cloud .
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan guna melaporkan host yang rusak, minta administrator untuk memberi Anda peran IAM berikut:
-
Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) di VM atau project -
Untuk melihat status operasi laporan host yang rusak menggunakan Cloud Logging:
Logs Viewer (
roles/logging.viewer) di project
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin yang diperlukan untuk melaporkan host yang rusak. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk melaporkan host yang rusak:
-
Untuk membuat laporan host bermasalah:
compute.instances.updatedi VM -
Untuk melihat daftar operasi menggunakan Logging:
logging.operations.listdi project -
Untuk melihat detail operasi menggunakan Logging:
logging.operations.getpada project -
Untuk melihat daftar operasi di Compute Engine:
compute.zoneOperations.listpada project -
Untuk melihat detail operasi di Compute Engine:
compute.zoneOperations.describedi project
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Memahami proses laporan host yang bermasalah
Setelah Anda melaporkan host yang rusak untuk VM H4D, waktu saat VM H4D dimulai ulang bervariasi berdasarkan mode operasional reservasi dari reservasi yang Anda gunakan untuk membuat VM. Untuk memverifikasi mode operasional pemesanan, lihat kolom reservationOperationalMode dalam pemesanan.
Mode terkelola ( HIGHLY_AVAILABLE_CAPACITY)Jenis mesin yang didukung H4D Pembatasan frekuensi API laporan host yang bermasalah Panggilan ke API mungkin dibatasi frekuensinya. Proses pelaporan host yang rusak Saat Anda melaporkan host yang rusak untuk VM H4D yang berjalan dalam mode terkelola, hal berikut akan terjadi:
- Laporkan host yang rusak: VM tetap dalam status
RUNNINGselama operasi pelaporan, yang biasanya memerlukan waktu 10-12 menit untuk diselesaikan. Untuk meninjau status operasi, lihat Meninjau operasi host yang bermasalah dalam laporan dalam dokumen ini. - Mulai memperbaiki host: Setelah operasi melaporkan host yang rusak selesai,
operasi perbaikan host dimulai dalam waktu satu menit.
Saat operasi host perbaikan dimulai, VM akan berhenti dan statusnya berubah bergantung pada setelan mulai ulang otomatis (
automaticRestart) yang ditentukan untuk VM:- Jika mulai ulang otomatis diaktifkan untuk VM, status VM akan berubah menjadi
REPAIRING. VM akan otomatis dimulai ulang saat hostnya berfungsi normal, kecuali jika Anda menghentikan VM sebelum itu. - Jika mulai ulang otomatis dinonaktifkan untuk VM, status VM akan berubah menjadi
TERMINATED. Anda harus memulai ulang VM secara manual setelah host-nya berfungsi dengan baik.
Memperbaiki host yang rusak dapat memakan waktu 3-14 hari, atau bahkan lebih lama terkadang.
- Jika mulai ulang otomatis diaktifkan untuk VM, status VM akan berubah menjadi
- Memigrasikan dan memulai ulang VM: Setelah operasi perbaikan host dimulai
(biasanya 10-12 menit), Compute Engine akan mencoba mencadangkan satu host lagi untuk
menggantikan host yang dilaporkan rusak dalam kapasitas yang dicadangkan. Jika Compute Engine
menemukan host yang berfungsi baik—jika berhasil mengganti host yang rusak atau
menemukan host yang berfungsi baik dan cocok dalam kapasitas yang Anda pesan—maka Compute Engine
akan memigrasikan VM ke host tersebut. Kemudian, VM akan dimulai ulang melalui salah satu
cara berikut:
- Jika VM dalam status
REPAIRINGdan resource tersedia sebelum atau saat perbaikan selesai, Compute Engine akan otomatis memulai ulang VM di host yang sehat. - Jika tidak, jika VM dalam status
TERMINATEDatau jika resource tidak tersedia sebelum atau saat perbaikan selesai, status VM akan tetap atau berubah menjadiTERMINATED. Anda harus memulai ulang VM secara manual saat ingin VM berjalan. Namun, memulai ulang VM mungkin gagal jika resource tidak tersedia saat Anda memulai ulang VM; misalnya, hal ini dapat terjadi jika VM lain sudah menggunakan host yang diperbaiki.
- Jika VM dalam status
Melaporkan host yang rusak
Untuk melaporkan host yang rusak, selesaikan langkah-langkah berikut:
Tinjau host tempat VM Anda berjalan.
Untuk mengetahui petunjuknya, lihat Melihat topologi cluster H4D.
Opsional: Cadangkan data SSD Lokal. Saat VM berhenti, Compute Engine akan otomatis menghapus data dari semua disk SSD Lokal yang terpasang ke VM. Anda tidak dapat memulihkan data SSD Lokal setelah Compute Engine menghapusnya.
Untuk mengetahui petunjuk tentang cara menyimpan data SSD Lokal, lihat Pencadangan data SSD Lokal.
Laporkan host yang bermasalah. Untuk melaporkan host yang rusak, pilih salah satu opsi berikut. Operasi perbaikan host dimulai segera, dalam waktu satu menit setelah operasi melaporkan host yang rusak selesai. Jika VM menjadi tidak responsif setelah Anda memulai operasi laporan host yang rusak, setelah Anda menunggu setidaknya 15 menit, sebaiknya Anda memulai ulang VM.
gcloud
Untuk melaporkan host yang rusak, gunakan perintah
gcloud compute instances report-host-as-faultyberikut:gcloud compute instances report-host-as-faulty VM_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONEGanti kode berikut:
VM_NAME: nama VM.FAULT_REASON: daftar masalah host yang dialami VM Anda, dipisahkan dengan koma—misalnya,ISSUE_1,ISSUE_2. Anda dapat menentukan nilai berikut:PERFORMANCE: Anda melihat penurunan performa CPU atau operasi jaringan Cloud RDMA, kegagalan antarmuka jaringan IRDMA, atau perangkat jaringan IRDMA tidak ada.SILENT_DATA_CORRUPTION: Anda melihat kerusakan data di VM, tetapi VM tetap berjalan. Kerusakan data tanpa pemberitahuan dapat disebabkan oleh masalah seperti kerusakan vCPU, bug software, atau masalah kernel.BEHAVIOR_UNSPECIFIED: Anda tidak yakin masalah apa yang memengaruhi VM Anda atau masalah tersebut tidak tercakup oleh opsi lainnya.
DESCRIPTION: deskripsi masalah yang memengaruhi VM Anda, seperti informasi XID atau masalah performa yang dicurigai.ZONE: zona tempat VM berada.
REST
Untuk melaporkan host yang rusak, buat permintaan
POSTberikut ke metodeinstances.reportHostAsFaulty.Saat melaporkan host yang rusak, Anda dapat menentukan beberapa alasan kerusakan sekaligus. Misalnya, untuk menentukan dua alasan kesalahan, buat permintaan sebagai berikut:
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }Ganti kode berikut:
PROJECT_ID: ID project tempat VM berada.ZONE: zona tempat VM berada.VM_NAME: nama VM.FAULT_REASON_1danFAULT_REASON_2: setiap masalah host yang dialami VM Anda. Anda dapat menentukan nilai berikut:PERFORMANCE: Anda melihat penurunan performa operasi jaringan RDMA atau CPU, kegagalan perangkat RDMA, atau perangkat RDMA tidak ada.SILENT_DATA_CORRUPTION: Anda melihat kerusakan data di VM, tetapi VM tetap berjalan. Kerusakan data tanpa pemberitahuan dapat disebabkan oleh masalah seperti kerusakan vCPU, bug software, atau masalah kernel.BEHAVIOR_UNSPECIFIED: Anda tidak yakin apa masalah yang terjadi pada VM Anda.
DESCRIPTION_1danDESCRIPTION_2: deskripsi untuk setiap masalah host yang Anda tentukan, seperti informasi XID atau masalah performa yang dicurigai.
Meninjau laporan operasi host yang salah
Setelah Anda melaporkan host yang rusak, Compute Engine akan memulai serangkaian operasi untuk menandai host sebagai rusak dan menyiapkan host untuk perbaikan. Secara khusus, selama operasi melaporkan host yang rusak, proses berikut terjadi:
Tandai host sebagai rusak. Compute Engine membuat laporan operasi host yang salah. Operasi melaporkan host yang rusak kemudian membuat urutan sub-operasi. Sub-operasi ini menandai host yang mendasarinya sebagai rusak.
Siapkan host untuk reparasi. Setelah semua sub-operasi selesai, operasi laporkan host yang bermasalah akan dimulai. Compute Engine menghentikan VM dan memulai operasi perbaikan host yang rusak. Berdasarkan mode operasional reservasi yang ditentukan dalam reservasi yang digunakan VM, dan jika host yang sehat tersedia, Compute Engine akan menghentikan VM atau mencoba memigrasikan dan memulai ulang VM secara otomatis.
Laporkan penyelesaian dan perbaiki host. Compute Engine menyelesaikan operasi melaporkan host yang rusak, dan operasi perbaikan host berjalan.
Untuk melacak status operasi host yang rusak (
compute.instances.reportHostAsFaulty) di project Anda, pilih salah satu opsi berikut. Untuk mengetahui informasi selengkapnya tentang operasi lain yang dapat Anda gunakan untuk melacak perbaikan, migrasi, dan mulai ulang otomatis, lihat Perilaku pemeliharaan dan mulai ulang dan Memantau dan merencanakan peristiwa pemeliharaan host dalam dokumentasi Compute Engine.Konsol (operasi VM)
Di konsol Google Cloud , buka halaman Operations.
Pada tabel yang muncul, cari VM yang Anda laporkan.
Di baris yang berisi VM, di kolom Status, Anda dapat melihat status operasi melaporkan host bermasalah. Setelah operasi selesai, nilainya adalah Selesai.
Opsional: Untuk memverifikasi apakah Compute Engine telah memulai ulang VM, lihat detail VM.
Konsol (log VM)
Di konsol Google Cloud , buka halaman Logs Explorer.
Pastikan tombol Show query diaktifkan.
Di Query editor, tempel kueri berikut:
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"Klik Run query. Panel Query results menampilkan hasil kueri.
gcloud
Untuk melihat status operasi melaporkan host yang rusak di project Anda, gunakan perintah
gcloud compute operations listdengan flag--filteryang ditetapkan keoperationType:compute.instances.reportHostAsFaulty:gcloud compute operations list --filter="operationType:compute.instances.reportHostAsFaulty"Jika Anda ingin melihat detail operasi host yang salah tertentu, gunakan perintah
gcloud compute operations describe:gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"Ganti kode berikut:
OPERATION_NAME: nama operasi.ZONE: zona tempat operasi berada.
REST
Untuk melihat status operasi melaporkan host yang rusak di project Anda, buat permintaan
GETke metodezoneOperations.list. Di URL permintaan, sertakan parameter kuerifilteryang ditetapkan keitems.operationType:compute.instances.reportHostAsFaulty.GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:compute.instances.reportHostAsFaultyGanti kode berikut:
PROJECT_ID: nama operasi.ZONE: zona tempat operasi berada.
Apa langkah selanjutnya?
- Jika Anda mengalami masalah saat melaporkan host yang rusak, lihat Memecahkan masalah API host yang rusak.
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-12-04 UTC.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-12-04 UTC."],[],[]] -
Compute Instance Admin (v1) (