Jika Anda melihat masalah pada instance A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU) yang tidak dapat Anda selesaikan sendiri, Anda dapat melaporkan host-nya sebagai rusak. Contoh masalah tersebut dapat berupa performa yang lebih lambat dalam cluster, atau suhu GPU yang selalu tinggi.
Saat Anda melaporkan host sebagai rusak, Compute Engine akan otomatis memperbaiki instance komputasi dengan menjalankan pemeliharaan host.
- Untuk instance A4 dan A3 Ultra, Compute Engine mencoba memigrasikan instance ke host lain saat pemeliharaan dimulai, jika Anda memiliki kapasitas cadangan yang tidak digunakan atau kapasitas tersedia di zona instance. Melaporkan host sebagai rusak membantu Anda meminimalkan periode nonaktif untuk workload Anda.
- Untuk instance A3 Mega dan A3 High, Compute Engine akan menghentikan instance, melakukan perbaikan host yang diperlukan, lalu memulai ulang instance di host yang sama.
Dokumen ini menjelaskan cara melaporkan dan memperbaiki instance host yang rusak yang merupakan bagian dari cluster Slurm atau cluster berbasis instance komputasi lainnya. Untuk melaporkan host yang rusak di cluster Google Kubernetes Engine (GKE), lihat Melaporkan host yang rusak melalui GKE.
Batasan
Saat Anda melaporkan host yang rusak, batasan berikut berlaku:
Anda hanya dapat melaporkan host yang rusak jika instance komputasi yang berjalan di host memenuhi semua kondisi berikut:
Instance komputasi sedang berjalan.
Instance komputasi menggunakan jenis mesin A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU).
Instance komputasi menggunakan model penyediaan yang terikat dengan reservasi.
Jika Anda menghapus instance komputasi saat operasi
reportHostAsFaultysedang berlangsung, operasireportHostAsFaultyakan gagal.Google Cloud berupaya sebaik mungkin untuk memenuhi semua permintaan host yang melaporkan kesalahan. Namun, karena batasan kapasitas atau batas frekuensi, permintaan mungkin tidak selalu dipenuhi.
Sebelum memulai
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST
Untuk menggunakan contoh REST API di halaman ini dalam lingkungan pengembangan lokal, gunakan kredensial yang Anda berikan ke gcloud CLI.
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
Untuk mengetahui informasi selengkapnya, lihat Melakukan autentikasi untuk menggunakan REST dalam dokumentasi autentikasi Google Cloud .
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk melaporkan host yang rusak, minta administrator untuk memberi Anda peran IAM berikut :
-
Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) pada instance compute atau project -
Untuk melihat status operasi laporan host yang rusak menggunakan Cloud Logging:
Logs Viewer (
roles/logging.viewer) pada project
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin yang diperlukan untuk melaporkan host yang rusak. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk melaporkan host yang rusak:
-
Untuk membuat laporan host yang bermasalah:
compute.instances.updatedi instance komputasi -
Untuk melihat daftar operasi menggunakan Logging:
logging.operations.listdi project -
Untuk melihat detail operasi menggunakan Logging:
logging.operations.getpada project -
Untuk melihat daftar operasi di Compute Engine:
compute.zoneOperations.listpada project -
Untuk melihat detail operasi di Compute Engine:
compute.zoneOperations.describedi project
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Memahami proses laporan host yang bermasalah
Setelah Anda melaporkan host yang rusak untuk instance komputasi, waktu saat instance komputasi dimulai ulang bervariasi berdasarkan mode operasional reservasi yang ditentukan dalam reservasi yang digunakan instance komputasi. Untuk memverifikasi mode operasional pemesanan, lihat kolomreservationOperationalMode di pemesanan.
Tabel berikut merangkum proses host yang bermasalah untuk dua mode operasional reservasi yang tersedia: mode semua kapasitas dan mode terkelola.
Semua mode kapasitas (ALL_CAPACITY) |
Mode terkelola (HIGHLY_AVAILABLE_CAPACITY) |
|
|---|---|---|
| Jenis mesin yang didukung | A4X Max dan A4X | A4, A3 Ultra, A3 Mega, dan A3 High |
| Pembatasan frekuensi API laporan host yang bermasalah | Tidak ada batas kapasitas yang berlaku. | Panggilan ke API mungkin dibatasi lajunya. |
| Proses pelaporan host yang bermasalah |
Saat Anda melaporkan host yang rusak untuk instance komputasi yang berjalan dalam mode semua kapasitas, hal berikut akan terjadi:
|
Saat Anda melaporkan host yang rusak untuk instance komputasi yang berjalan dalam mode terkelola, hal berikut akan terjadi:
|
Melaporkan host yang rusak
Untuk melaporkan host yang rusak, selesaikan langkah-langkah berikut:
Tinjau host tempat instance komputasi Anda berjalan.
Untuk mengetahui petunjuknya, lihat Melihat topologi instance komputasi.
Opsional: Cadangkan data SSD Lokal. Saat instance berhenti, Compute Engine akan otomatis menghapus data dari semua disk SSD Lokal yang terpasang ke instance. Anda tidak dapat memulihkan data SSD Lokal setelah Compute Engine menghapusnya.
Untuk mengetahui petunjuk tentang cara menyimpan data SSD Lokal, lihat Pencadangan data SSD Lokal.
Laporkan host yang bermasalah. Untuk melaporkan host yang rusak, pilih salah satu opsi berikut. Operasi perbaikan host dimulai segera, dalam waktu satu menit setelah operasi melaporkan host yang rusak selesai. Jika instance menjadi tidak responsif setelah Anda memulai operasi laporan host yang rusak, maka, setelah Anda menunggu setidaknya 15 menit, sebaiknya Anda memulai ulang instance komputasi.
gcloud
Untuk melaporkan host yang rusak, gunakan perintah
gcloud compute instances report-host-as-faultyberikut:gcloud compute instances report-host-as-faulty INSTANCE_NAME \ --async \ --disruption-schedule=IMMEDIATE \ --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \ --zone=ZONEGanti kode berikut:
INSTANCE_NAME: nama instance Compute.FAULT_REASON: daftar masalah host yang dialami instance komputasi Anda, dipisahkan dengan koma—misalnya,ISSUE_1,ISSUE_2. Anda dapat menentukan nilai berikut:PERFORMANCE: GPU yang terpasang ke instance komputasi memiliki masalah performa dibandingkan dengan GPU lain di cluster, Anda tidak melihat error XID dalam log, dan Compute Engine tidak mendeteksi pola kegagalan tidak biasa lainnya, seperti kerusakan data tanpa pemberitahuan.SILENT_DATA_CORRUPTION: Anda melihat kerusakan data di instance komputasi, tetapi instance komputasi tetap berjalan. Kerusakan data tanpa pemberitahuan dapat disebabkan oleh masalah seperti kerusakan vCPU, bug software, atau masalah kernel.UNRECOVERABLE_GPU_ERROR: Anda mengidentifikasi error GPU yang tidak dapat dipulihkan dengan XID.BEHAVIOR_UNSPECIFIED: Anda tidak yakin apa masalah pada instance komputasi Anda.
DESCRIPTION: deskripsi masalah yang memengaruhi instance komputasi Anda, seperti informasi XID atau masalah performa yang dicurigai.ZONE: zona tempat instance komputasi berada.
REST
Untuk melaporkan host yang rusak, buat permintaan
POSTberikut ke metodeinstances.reportHostAsFaulty.Saat melaporkan host yang rusak, Anda dapat menentukan beberapa alasan kerusakan sekaligus. Misalnya, untuk menentukan dua alasan kesalahan, buat permintaan sebagai berikut:
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/INSTANCE_NAME/reportHostAsFaulty { "disruptionSchedule": "IMMEDIATE", "faultReasons": [ { "behavior": "FAULT_REASON_1", "description": "DESCRIPTION_1" }, { "behavior": "FAULT_REASON_2", "description": "DESCRIPTION_2" } ] }Ganti kode berikut:
PROJECT_ID: ID project tempat instance compute berada.ZONE: zona tempat instance komputasi berada.INSTANCE_NAME: nama instance Compute.FAULT_REASON_1danFAULT_REASON_2: setiap masalah host yang dialami instance komputasi Anda. Anda dapat menentukan nilai berikut:PERFORMANCE: GPU yang terpasang ke instance komputasi memiliki masalah performa dibandingkan dengan GPU lain di cluster, Anda tidak melihat error XID dalam log, dan Compute Engine tidak mendeteksi pola kegagalan tidak biasa lainnya, seperti kerusakan data tanpa pemberitahuan.SILENT_DATA_CORRUPTION: Anda melihat kerusakan data di instance komputasi, tetapi instance komputasi tetap berjalan. Kerusakan data tanpa pemberitahuan dapat disebabkan oleh masalah seperti kerusakan vCPU, bug software, atau masalah kernel.UNRECOVERABLE_GPU_ERROR: Anda mengidentifikasi error GPU yang tidak dapat dipulihkan dengan XID.BEHAVIOR_UNSPECIFIED: Anda tidak yakin apa masalah pada instance komputasi Anda.
DESCRIPTION_1danDESCRIPTION_2: deskripsi untuk setiap masalah host yang Anda tentukan, seperti informasi XID atau masalah performa yang dicurigai.
Meninjau laporan operasi host yang salah
Setelah Anda melaporkan host yang rusak, Compute Engine akan memulai serangkaian operasi untuk menandai host sebagai rusak dan menyiapkan host untuk perbaikan. Secara khusus, selama operasi melaporkan host yang rusak, proses berikut terjadi:
Tandai host sebagai rusak. Compute Engine membuat laporan operasi host yang salah. Operasi melaporkan host yang rusak kemudian membuat urutan sub-operasi. Sub-operasi ini menandai host yang mendasarinya sebagai rusak.
Siapkan host untuk reparasi. Setelah semua sub-operasi selesai, operasi laporkan host yang bermasalah akan dimulai. Compute Engine menghentikan instance komputasi dan memulai operasi perbaikan host yang rusak. Berdasarkan mode operasional reservasi yang ditentukan dalam reservasi yang digunakan instance komputasi, dan jika host yang sehat tersedia, Compute Engine akan menghentikan instance komputasi atau mencoba memigrasikan dan memulai ulang instance komputasi secara otomatis.
Selesaikan laporan dan perbaiki host. Compute Engine menyelesaikan operasi melaporkan host yang rusak, dan operasi perbaikan host berjalan.
Untuk melacak status operasi host rusak laporan (compute.instances.reportHostAsFaulty) di project Anda, pilih salah satu opsi berikut. Untuk mengetahui informasi selengkapnya tentang operasi lain yang dapat Anda gunakan untuk melacak perbaikan, migrasi, dan mulai ulang otomatis, lihat Perilaku pemeliharaan dan mulai ulang dan Memantau dan merencanakan peristiwa pemeliharaan host dalam dokumentasi Compute Engine.
Konsol (Operasi instance)
Di konsol Google Cloud , buka halaman Operasi.
Di tabel yang muncul, cari instance komputasi yang Anda laporkan.
Di baris yang berisi instance komputasi, di kolom Status, Anda dapat melihat status operasi laporkan host bermasalah. Setelah operasi selesai, nilainya adalah Selesai.
Opsional: Untuk memverifikasi apakah Compute Engine telah memulai ulang instance komputasi, lihat detail instance.
Konsol (Log instance Compute)
Di konsol Google Cloud , buka halaman Logs Explorer.
Verifikasi bahwa tombol Show query diaktifkan.
Di Query editor, tempel kueri berikut:
resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"Klik Run query. Panel Query results menampilkan hasil kueri.
gcloud
Untuk melihat status operasi melaporkan host yang rusak di project Anda, gunakan perintah
gcloud compute operations listdengan flag--filteryang ditetapkan keoperationType:reportHostAsFaulty:gcloud compute operations list --filter="operationType:reportHostAsFaulty"Jika Anda ingin melihat detail operasi host yang salah tertentu, gunakan perintah
gcloud compute operations describe:gcloud compute operations describe OPERATION_NAME \ --zone="ZONE"Ganti kode berikut:
OPERATION_NAME: nama operasi.ZONE: zona tempat operasi berada.
REST
Untuk melihat status operasi melaporkan host yang rusak di project Anda,
buat permintaan GET ke
metode zoneOperations.list.
Di URL permintaan, sertakan parameter kueri filter yang ditetapkan ke
items.operationType:reportHostAsFaulty.
GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:reportHostAsFaulty
Ganti kode berikut:
PROJECT_ID: nama operasi.ZONE: zona tempat operasi berada.
Apa langkah selanjutnya?
- Jika Anda mengalami masalah saat melaporkan host yang rusak, lihat Memecahkan masalah API host yang rusak.
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2026-02-24 UTC.