Melaporkan host yang rusak

Jika Anda melihat masalah pada VM H4D yang dicadangkan yang tidak dapat Anda selesaikan— seperti error persisten pada perangkat RDMA—sebaiknya laporkan host-nya sebagai rusak. Saat Anda melaporkan host sebagai rusak, Compute Engine akan melaporkan host sebagai rusak, lalu otomatis memperbaiki VM dengan menjalankan pemeliharaan host. Untuk VM H4D, Compute Engine mencoba memigrasikan VM ke host lain saat pemeliharaan dimulai, yang dapat membantu meminimalkan periode nonaktif untuk workload Anda.

Dokumen ini menjelaskan cara melaporkan dan memperbaiki host yang rusak untuk instance virtual machine (VM) yang merupakan bagian dari cluster berbasis VM. Untuk cluster Google Kubernetes Engine (GKE), lihat Melaporkan host yang rusak melalui GKE.

Batasan

Saat Anda melaporkan host yang rusak, batasan berikut berlaku:

  • Anda hanya dapat melaporkan host yang rusak jika VM yang berjalan di host memenuhi semua kondisi berikut:

    • VM sedang berjalan.

    • VM menggunakan jenis mesin H4D.

    • VM menggunakan model penyediaan terikat reservasi.

  • Google Cloud berupaya sebaik mungkin untuk memenuhi semua permintaan host yang melaporkan kesalahan. Namun, karena batasan kapasitas atau batas frekuensi, permintaan mungkin tidak selalu dipenuhi.

Sebelum memulai

  • Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    gcloud

    In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

    At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

    REST

    Untuk menggunakan contoh REST API di halaman ini dalam lingkungan pengembangan lokal, gunakan kredensial yang Anda berikan ke gcloud CLI.

      Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:

      gcloud init

      If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

    Untuk mengetahui informasi selengkapnya, lihat Melakukan autentikasi untuk menggunakan REST dalam dokumentasi autentikasi Google Cloud .

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan guna melaporkan host yang rusak, minta administrator untuk memberi Anda peran IAM berikut:

  • Compute Instance Admin (v1) (roles/compute.instanceAdmin.v1) di VM atau project
  • Untuk melihat status operasi laporan host yang rusak menggunakan Cloud Logging: Logs Viewer (roles/logging.viewer) di project

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk melaporkan host yang rusak. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk melaporkan host yang rusak:

  • Untuk membuat laporan host bermasalah: compute.instances.update di VM
  • Untuk melihat daftar operasi menggunakan Logging: logging.operations.list di project
  • Untuk melihat detail operasi menggunakan Logging: logging.operations.get pada project
  • Untuk melihat daftar operasi di Compute Engine: compute.zoneOperations.list pada project
  • Untuk melihat detail operasi di Compute Engine: compute.zoneOperations.describe di project

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Memahami proses laporan host yang bermasalah

Setelah Anda melaporkan host yang rusak untuk VM H4D, waktu saat VM H4D dimulai ulang bervariasi berdasarkan mode operasional reservasi dari reservasi yang Anda gunakan untuk membuat VM. Untuk memverifikasi mode operasional pemesanan, lihat kolom reservationOperationalMode dalam pemesanan.

Mode terkelola (HIGHLY_AVAILABLE_CAPACITY)
Jenis mesin yang didukung H4D
Pembatasan frekuensi API laporan host yang bermasalah Panggilan ke API mungkin dibatasi frekuensinya.
Proses pelaporan host yang rusak

Saat Anda melaporkan host yang rusak untuk VM H4D yang berjalan dalam mode terkelola, hal berikut akan terjadi:

  1. Laporkan host yang rusak: VM tetap dalam status RUNNING selama operasi pelaporan, yang biasanya memerlukan waktu 10-12 menit untuk diselesaikan. Untuk meninjau status operasi, lihat Meninjau operasi host yang bermasalah dalam laporan dalam dokumen ini.
  2. Mulai memperbaiki host: Setelah operasi melaporkan host yang rusak selesai, operasi perbaikan host dimulai dalam waktu satu menit.

    Saat operasi host perbaikan dimulai, VM akan berhenti dan statusnya berubah bergantung pada setelan mulai ulang otomatis (automaticRestart) yang ditentukan untuk VM:

    • Jika mulai ulang otomatis diaktifkan untuk VM, status VM akan berubah menjadi REPAIRING. VM akan otomatis dimulai ulang saat hostnya berfungsi normal, kecuali jika Anda menghentikan VM sebelum itu.
    • Jika mulai ulang otomatis dinonaktifkan untuk VM, status VM akan berubah menjadi TERMINATED. Anda harus memulai ulang VM secara manual setelah host-nya berfungsi dengan baik.

    Memperbaiki host yang rusak dapat memakan waktu 3-14 hari, atau bahkan lebih lama terkadang.

  3. Memigrasikan dan memulai ulang VM: Setelah operasi perbaikan host dimulai (biasanya 10-12 menit), Compute Engine akan mencoba mencadangkan satu host lagi untuk menggantikan host yang dilaporkan rusak dalam kapasitas yang dicadangkan. Jika Compute Engine menemukan host yang berfungsi baik—jika berhasil mengganti host yang rusak atau menemukan host yang berfungsi baik dan cocok dalam kapasitas yang Anda pesan—maka Compute Engine akan memigrasikan VM ke host tersebut. Kemudian, VM akan dimulai ulang melalui salah satu cara berikut:
    • Jika VM dalam status REPAIRING dan resource tersedia sebelum atau saat perbaikan selesai, Compute Engine akan otomatis memulai ulang VM di host yang sehat.
    • Jika tidak, jika VM dalam status TERMINATED atau jika resource tidak tersedia sebelum atau saat perbaikan selesai, status VM akan tetap atau berubah menjadi TERMINATED. Anda harus memulai ulang VM secara manual saat ingin VM berjalan. Namun, memulai ulang VM mungkin gagal jika resource tidak tersedia saat Anda memulai ulang VM; misalnya, hal ini dapat terjadi jika VM lain sudah menggunakan host yang diperbaiki.

Melaporkan host yang rusak

Untuk melaporkan host yang rusak, selesaikan langkah-langkah berikut:

  1. Tinjau host tempat VM Anda berjalan.

    Untuk mengetahui petunjuknya, lihat Melihat topologi cluster H4D.

  2. Opsional: Cadangkan data SSD Lokal. Saat VM berhenti, Compute Engine akan otomatis menghapus data dari semua disk SSD Lokal yang terpasang ke VM. Anda tidak dapat memulihkan data SSD Lokal setelah Compute Engine menghapusnya.

    Untuk mengetahui petunjuk tentang cara menyimpan data SSD Lokal, lihat Pencadangan data SSD Lokal.

  3. Laporkan host yang bermasalah. Untuk melaporkan host yang rusak, pilih salah satu opsi berikut. Operasi perbaikan host dimulai segera, dalam waktu satu menit setelah operasi melaporkan host yang rusak selesai. Jika VM menjadi tidak responsif setelah Anda memulai operasi laporan host yang rusak, setelah Anda menunggu setidaknya 15 menit, sebaiknya Anda memulai ulang VM.

    gcloud

    Untuk melaporkan host yang rusak, gunakan perintah gcloud compute instances report-host-as-faulty berikut:

    gcloud compute instances report-host-as-faulty VM_NAME \
        --async \
        --disruption-schedule=IMMEDIATE \
        --fault-reasons=behavior=FAULT_REASON,description=DESCRIPTION \
        --zone=ZONE
    

    Ganti kode berikut:

    • VM_NAME: nama VM.

    • FAULT_REASON: daftar masalah host yang dialami VM Anda, dipisahkan dengan koma—misalnya, ISSUE_1,ISSUE_2. Anda dapat menentukan nilai berikut:

      • PERFORMANCE: Anda melihat penurunan performa CPU atau operasi jaringan Cloud RDMA, kegagalan antarmuka jaringan IRDMA, atau perangkat jaringan IRDMA tidak ada.

      • SILENT_DATA_CORRUPTION: Anda melihat kerusakan data di VM, tetapi VM tetap berjalan. Kerusakan data tanpa pemberitahuan dapat disebabkan oleh masalah seperti kerusakan vCPU, bug software, atau masalah kernel.

      • BEHAVIOR_UNSPECIFIED: Anda tidak yakin masalah apa yang memengaruhi VM Anda atau masalah tersebut tidak tercakup oleh opsi lainnya.

    • DESCRIPTION: deskripsi masalah yang memengaruhi VM Anda, seperti informasi XID atau masalah performa yang dicurigai.

    • ZONE: zona tempat VM berada.

    REST

    Untuk melaporkan host yang rusak, buat permintaan POST berikut ke metode instances.reportHostAsFaulty.

    Saat melaporkan host yang rusak, Anda dapat menentukan beberapa alasan kerusakan sekaligus. Misalnya, untuk menentukan dua alasan kesalahan, buat permintaan sebagai berikut:

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/reportHostAsFaulty
    
    {
      "disruptionSchedule": "IMMEDIATE",
      "faultReasons": [
        {
          "behavior": "FAULT_REASON_1",
          "description": "DESCRIPTION_1"
        },
        {
          "behavior": "FAULT_REASON_2",
          "description": "DESCRIPTION_2"
        }
      ]
    }
    

    Ganti kode berikut:

    • PROJECT_ID: ID project tempat VM berada.

    • ZONE: zona tempat VM berada.

    • VM_NAME: nama VM.

    • FAULT_REASON_1 dan FAULT_REASON_2: setiap masalah host yang dialami VM Anda. Anda dapat menentukan nilai berikut:

      • PERFORMANCE: Anda melihat penurunan performa operasi jaringan RDMA atau CPU, kegagalan perangkat RDMA, atau perangkat RDMA tidak ada.

      • SILENT_DATA_CORRUPTION: Anda melihat kerusakan data di VM, tetapi VM tetap berjalan. Kerusakan data tanpa pemberitahuan dapat disebabkan oleh masalah seperti kerusakan vCPU, bug software, atau masalah kernel.

      • BEHAVIOR_UNSPECIFIED: Anda tidak yakin apa masalah yang terjadi pada VM Anda.

    • DESCRIPTION_1 dan DESCRIPTION_2: deskripsi untuk setiap masalah host yang Anda tentukan, seperti informasi XID atau masalah performa yang dicurigai.

Meninjau laporan operasi host yang salah

Setelah Anda melaporkan host yang rusak, Compute Engine akan memulai serangkaian operasi untuk menandai host sebagai rusak dan menyiapkan host untuk perbaikan. Secara khusus, selama operasi melaporkan host yang rusak, proses berikut terjadi:

  1. Tandai host sebagai rusak. Compute Engine membuat laporan operasi host yang salah. Operasi melaporkan host yang rusak kemudian membuat urutan sub-operasi. Sub-operasi ini menandai host yang mendasarinya sebagai rusak.

  2. Siapkan host untuk reparasi. Setelah semua sub-operasi selesai, operasi laporkan host yang bermasalah akan dimulai. Compute Engine menghentikan VM dan memulai operasi perbaikan host yang rusak. Berdasarkan mode operasional reservasi yang ditentukan dalam reservasi yang digunakan VM, dan jika host yang sehat tersedia, Compute Engine akan menghentikan VM atau mencoba memigrasikan dan memulai ulang VM secara otomatis.

  3. Laporkan penyelesaian dan perbaiki host. Compute Engine menyelesaikan operasi melaporkan host yang rusak, dan operasi perbaikan host berjalan.

Untuk melacak status operasi host yang rusak (compute.instances.reportHostAsFaulty) di project Anda, pilih salah satu opsi berikut. Untuk mengetahui informasi selengkapnya tentang operasi lain yang dapat Anda gunakan untuk melacak perbaikan, migrasi, dan mulai ulang otomatis, lihat Perilaku pemeliharaan dan mulai ulang dan Memantau dan merencanakan peristiwa pemeliharaan host dalam dokumentasi Compute Engine.

Konsol (operasi VM)

  1. Di konsol Google Cloud , buka halaman Operations.

    Buka Operasi

  2. Pada tabel yang muncul, cari VM yang Anda laporkan.

  3. Di baris yang berisi VM, di kolom Status, Anda dapat melihat status operasi melaporkan host bermasalah. Setelah operasi selesai, nilainya adalah Selesai.

  4. Opsional: Untuk memverifikasi apakah Compute Engine telah memulai ulang VM, lihat detail VM.

Konsol (log VM)

  1. Di konsol Google Cloud , buka halaman Logs Explorer.

    Buka Logs Explorer

  2. Pastikan tombol Show query diaktifkan.

  3. Di Query editor, tempel kueri berikut:

    resource.type="gce_instance" AND protoPayload.methodName=~"compute\.instances\.reportHostAsFaulty"
    
  4. Klik Run query. Panel Query results menampilkan hasil kueri.

gcloud

  1. Untuk melihat status operasi melaporkan host yang rusak di project Anda, gunakan perintah gcloud compute operations list dengan flag --filter yang ditetapkan ke operationType:compute.instances.reportHostAsFaulty:

    gcloud compute operations list --filter="operationType:compute.instances.reportHostAsFaulty"
    
  2. Jika Anda ingin melihat detail operasi host yang salah tertentu, gunakan perintah gcloud compute operations describe:

    gcloud compute operations describe OPERATION_NAME \
        --zone="ZONE"
    

    Ganti kode berikut:

    • OPERATION_NAME: nama operasi.

    • ZONE: zona tempat operasi berada.

REST

Untuk melihat status operasi melaporkan host yang rusak di project Anda, buat permintaan GET ke metode zoneOperations.list. Di URL permintaan, sertakan parameter kueri filter yang ditetapkan ke items.operationType:compute.instances.reportHostAsFaulty.

GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/operations&filter=items.operationType:compute.instances.reportHostAsFaulty

Ganti kode berikut:

  • PROJECT_ID: nama operasi.

  • ZONE: zona tempat operasi berada.

Apa langkah selanjutnya?