Melaporkan dan memperbaiki host yang rusak dengan TPU dalam mode Semua Kapasitas

Jika Anda melihat masalah pada VM mode Semua Kapasitas yang tidak dapat Anda selesaikan, misalnya, metrik latensi ICI yang terus tinggi atau suhu yang terus tinggi dibandingkan dengan VM lain, sebaiknya laporkan host-nya sebagai rusak. Saat Anda melaporkan host sebagai rusak, Compute Engine akan menandai host sebagai rusak dan memperbaiki VM secara otomatis dengan menjalankan pemeliharaan host. Dengan mode Semua Kapasitas, VM TPU tidak dimigrasikan ke host lain selama perbaikan. Sebaliknya, instance tersebut akan dimulai ulang di host yang sama jika ada kapasitas yang memadai. Anda hanya dapat melaporkan host yang rusak yang memiliki VM yang sedang berjalan.

Gunakan perintah report-host-as-faulty untuk melaporkan host yang rusak menggunakan parameter --fault-behavior guna memberikan informasi tambahan tentang masalah tersebut.

gcloud compute instances report-host-as-faulty TPU_NAME \
    --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \
    --disruption-schedule=DISRUPTION_SCHEDULE

Ganti kode berikut:

  • TPU_NAME: Nama VM TPU.
  • FAULT_BEHAVIOR: Anda dapat meneruskan salah satu nilai berikut:

    • PERFORMANCE: Gunakan ini untuk melaporkan penurunan performa pada instance.
    • SILENT_DATA_CORRUPTION: Gunakan ini untuk melaporkan dugaan kerusakan data senyap pada instance.
    • BEHAVIOR_UNSPECIFIED: Gunakan ini untuk melaporkan masalah yang tidak termasuk dalam grup perilaku lainnya.
  • DESCRIPTION: Deskripsi masalah yang memengaruhi VM Anda.

  • DISRUPTION_SCHEDULE: Menentukan waktu untuk memulai proses pelaporan kesalahan. Nilai defaultnya adalah IMMEDIATE, yang akan memulai prosesnya dengan segera. DISRUPTION_SCHEDULE harus berupa salah satu dari: IMMEDIATE, FUTURE.

Operasi melaporkan host yang rusak biasanya memerlukan waktu 10-12 menit untuk selesai. Setelah operasi laporan selesai, perbaikan host akan dimulai dalam waktu satu menit jika jadwal gangguan ditetapkan ke IMMEDIATE. Jika jadwal gangguan disetel ke FUTURE, tidak ada tindakan perbaikan yang dilakukan segera; sebagai gantinya, Compute Engine menjadwalkan perbaikan jika ada kesalahan yang terdeteksi pada masa mendatang. Setelah perbaikan dimulai, VM akan dimatikan. VM mungkin tetap dalam status PENDING hingga host diperbaiki. Memperbaiki host yang rusak dapat memerlukan waktu 3-14 hari atau lebih. Dalam mode Semua Kapasitas TPU, VM TPU tidak dimigrasikan ke host lain selama perbaikan. Sebagai gantinya, instance akan dimulai ulang di host yang sama jika ada kapasitas yang memadai.