Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mengelola peristiwa host di seluruh instance komputasi

Dokumen ini menjelaskan cara memantau, merencanakan, dan melakukan pemeliharaan terjadwal pada instance A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU). Jika Anda secara proaktif mengelola peristiwa host pemeliharaan yang akan datang di instance Compute Engine, Anda dapat meminimalkan gangguan dan mempertahankan performa yang optimal.

Untuk opsi lainnya dalam memelihara infrastruktur Anda, lihat artikel berikut:

Untuk mengelola pemeliharaan pada blok kapasitas yang dipesan, baik instance komputasi berjalan di blok tersebut atau tidak, lihat Mengelola peristiwa host di seluruh reservasi.
Untuk mengelola pemeliharaan pada cluster di Cluster Director, lihat Mengelola kesehatan cluster.

Sebelum memulai

Pilih tab untuk melihat bagaimana Anda berencana menggunakan contoh di halaman ini:

Konsol

Saat menggunakan konsol Google Cloud untuk mengakses layanan Google Cloud dan API, Anda tidak perlu menyiapkan autentikasi.

gcloud

Di konsol Google Cloud , aktifkan Cloud Shell.

Aktifkan Cloud Shell

Di bagian bawah konsol Google Cloud , sesi Cloud Shell akan dimulai dan menampilkan perintah command line. Cloud Shell adalah lingkungan shell dengan Google Cloud CLI yang sudah terinstal, dan dengan nilai yang sudah ditetapkan untuk project Anda saat ini. Diperlukan waktu beberapa detik untuk melakukan inisialisasi pada sesi.

REST

Untuk menggunakan contoh REST API di halaman ini dalam lingkungan pengembangan lokal, gunakan kredensial yang Anda berikan ke gcloud CLI.

Instal Google Cloud CLI.

Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.

Untuk mengetahui informasi selengkapnya, lihat Melakukan autentikasi untuk menggunakan REST dalam dokumentasi autentikasi Google Cloud .

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk mengelola peristiwa pemeliharaan host di seluruh instance komputasi, minta administrator Anda untuk memberi Anda peran IAM berikut:

Compute Admin (roles/compute.admin) di project
Untuk akses hanya baca ke log audit Peristiwa Sistem: Logs Viewer (roles/logging.viewer) pada project

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Peran bawaan ini berisi izin yang diperlukan untuk mengelola peristiwa pemeliharaan host di seluruh instance komputasi. Untuk melihat izin yang benar-benar diperlukan, perluas bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk mengelola peristiwa pemeliharaan host di seluruh instance komputasi:

Untuk melihat detail instance: compute.instances.get pada project

Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.

Ringkasan

Untuk mengoptimalkan pemeliharaan instance komputasi, selesaikan langkah-langkah berikut:

Pahami dan tangani pemeliharaan host. Pelajari frekuensi dan perilaku pemeliharaan instance Anda berdasarkan seri mesinnya, dan pelajari cara menyiapkan beban kerja Anda untuk menangani pemeliharaan host. Informasi ini membantu Anda meminimalkan gangguan dan mencegah kehilangan data.
Siapkan pemberitahuan notifikasi. Buat pemberitahuan berbasis log untuk menerima notifikasi saat pemeliharaan untuk instance Anda dijadwalkan, dimulai, atau selesai. Pendekatan ini membantu Anda merencanakan aktivitas secara proaktif dan menghindari periode nonaktif yang tidak terduga.
Mengelola pemeliharaan di seluruh instance. Lihat apakah pemeliharaan dijadwalkan untuk instance Anda. Jika perlu, Anda dapat memulai pemeliharaan secara manual di seluruh instance. Proses ini membantu Anda meningkatkan ketahanan workload untuk menghosting acara, mencegah periode nonaktif, dan memaksimalkan ketersediaan aplikasi.

Memahami dan menangani pemeliharaan host

Selama siklus proses instance Compute Engine, mesin host tempat instance Anda berjalan mengalami beberapa peristiwa host. Acara penyelenggara dapat mencakup hal berikut:

Pemeliharaan terencana infrastruktur Compute Engine.
Pemeliharaan darurat yang tidak direncanakan untuk memperbaiki infrastruktur Compute Engine setelah terjadi error host atau laporan host yang rusak.

Tabel berikut menjelaskan fitur pemeliharaan host untuk jenis mesin yang dioptimalkan akselerator:

Jenis mesin	Frekuensi peristiwa pemeliharaan terjadwal yang umum	Perilaku pemeliharaan	Notifikasi lanjutan untuk pemeliharaan terjadwal	Notifikasi lanjutan untuk pemeliharaan darurat	Pemeliharaan sesuai permintaan	Menyimulasikan pemeliharaan
A4X Max dan A4X	Minimum 90 hari	Berakhir dengan Persistensi data SSD lokal	90 hari	Jika Anda mengaktifkan notifikasi darurat, maka 7 hari. Jika tidak, diperlukan waktu beberapa jam.	Ya	Tidak
A4	Minimum 90 hari	Berakhir dengan Persistensi data SSD lokal	90 hari	Jika Anda mengaktifkan notifikasi darurat, maka 7 hari. Jika tidak, diperlukan waktu beberapa jam.	Ya	Tidak
A3 Ultra	Minimum 90 hari	Berakhir dengan Persistensi data SSD lokal	90 hari	Jika Anda mengaktifkan notifikasi darurat, maka 7 hari. Jika tidak, diperlukan waktu beberapa jam.	Ya	Tidak
A3 Mega dan A3 High (8 GPU)	Minimum 90 hari	Berakhir dengan Persistensi data SSD lokal	90 hari	Jika Anda mengaktifkan notifikasi darurat, maka 7 hari. Jika tidak, diperlukan waktu beberapa jam.	Ya	Ya

Frekuensi pemeliharaan yang ditampilkan dalam tabel sebelumnya adalah perkiraan, bukan jaminan. Compute Engine terkadang melakukan pemeliharaan lebih sering.

Untuk membantu mencegah kehilangan data atau progres, konfigurasi beban kerja Anda untuk menangani pemeliharaan host. Misalnya, gunakan teknik berikut untuk menyimpan data dan progres sementara Anda sebelum workload Anda dihentikan:

Menyiapkan pemberitahuan notifikasi untuk instance komputasi

Anda dapat menerima notifikasi tentang peristiwa pemeliharaan terjadwal, dimulai, atau selesai untuk instance Anda dengan membuat kebijakan pemberitahuan berbasis log.

Untuk membuat pemberitahuan untuk peristiwa pemeliharaan instance Anda, selesaikan prosedur berikut. Ulangi prosedur ini untuk setiap pemberitahuan yang ingin Anda buat.

Di konsol Google Cloud , buka halaman Logs Explorer:
Buka Logs Explorer

Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Logging.
Klik tombol Show query ke posisi aktif.
Di panel Query, buat salah satu kueri berikut. Kueri ini memfilter entri log untuk mengidentifikasi peristiwa pemeliharaan tertentu. Jika Anda ingin menggunakan beberapa kueri, ulangi prosedur ini untuk membuat pemberitahuan unik untuk setiap kueri.
- Untuk menerima pemberitahuan saat pemeliharaan instance dijadwalkan:
```
protoPayload.methodName="compute.instances.upcomingMaintenance" severity>=DEFAULT
protoPayload.status.message =~ "scheduled"
```
- Untuk menerima notifikasi saat masa pemeliharaan untuk instance telah dimulai:
```
protoPayload.methodName="compute.instances.upcomingMaintenance" severity>=DEFAULT
protoPayload.status.message =~ "ongoing"
```
- Untuk menerima notifikasi saat pemeliharaan instance telah dimulai:
```
protoPayload.methodName="compute.instance.terminateOnHostMaintenance" severity>=DEFAULT
```
- Untuk menerima pemberitahuan saat pemeliharaan instance telah selesai:
```
protoPayload.methodName="compute.instances.upcomingMaintenance" severity>=DEFAULT
protoPayload.status.message =~ "completed"
```
Untuk memvalidasi kueri, klik Jalankan kueri. Jika kueri valid, panel Query results akan menampilkan entri log yang cocok dengan kueri.
Di toolbar hasil Kueri, klik daftar Tindakan, lalu pilih Buat pemberitahuan log. Panel Buat kebijakan pemberitahuan berbasis log akan muncul.
Di bagian Detail pemberitahuan, lakukan hal berikut:
1. Di kolom Alert Policy Name, masukkan nama untuk kebijakan.
2. Dalam daftar Tingkat keparahan kebijakan, pilih Peringatan (atau tingkat keparahan yang lebih tinggi).
3. Klik Berikutnya.
Di bagian Choose logs to include in the alert, klik Next.
Di bagian Setel frekuensi notifikasi dan durasi penutupan otomatis, tentukan hal berikut:
1. Di daftar Waktu antara notifikasi, pilih seberapa sering Anda ingin mendapatkan notifikasi.
2. Dalam daftar Durasi penutupan insiden otomatis, pilih durasi setelah Cloud Logging berhenti mengirim notifikasi dan menutup insiden secara otomatis.
3. Klik Berikutnya.
Di bagian Who should be notified?, tentukan saluran notifikasi untuk Logging guna mengirim notifikasi.
Klik Simpan.

Untuk melihat contoh notifikasi peristiwa pemeliharaan di Logs Explorer, lihat Contoh notifikasi pemeliharaan dalam dokumentasi Compute Engine.

Mengelola pemeliharaan di seluruh instance komputasi

Anda dapat melihat dan mengontrol pemeliharaan untuk instance dengan melakukan satu atau beberapa hal berikut:

Untuk memeriksa status dan waktu terjadwal pemeliharaan mendatang untuk instance Anda, lihat status pemeliharaan instance.
Untuk segera memulai pemeliharaan pada instance Anda, daripada menunggu waktu pemeliharaan terjadwalnya, mulai pemeliharaan secara manual pada instance.

Melihat status pemeliharaan instance komputasi

Anda dapat melihat status dan waktu yang dijadwalkan untuk pemeliharaan mendatang instance Anda dengan memeriksa nilai kolom upcomingMaintenance di metadata instance. Jika instance tidak berisi kolom upcomingMaintenance, maka tidak ada peristiwa pemeliharaan host yang dijadwalkan untuk instance tersebut. Untuk mengetahui informasi selengkapnya tentang kolom di upcomingMaintenance, lihat Definisi status pemeliharaan dalam dokumentasi Compute Engine.

Selain itu, jika pemeliharaan dijadwalkan untuk instance, kolom upcomingGroupMaintenance berisi kolom maintenanceReasons. Kolom ini menjelaskan alasan penjadwalan pemeliharaan untuk instance Anda, seperti yang dijelaskan dalam tabel berikut:

Jenis pemeliharaan	Alasan pemeliharaan	Status instance komputasi
Pemeliharaan terencana setelah laporan host yang bermasalah	`FAILURE_GPU_CUSTOMER_REPORTED`	Hanya berlaku untuk instance yang berjalan di host yang Anda laporkan sebagai rusak.
Pemeliharaan terencana untuk pemeliharaan rutin	`PLANNED_UPDATE`: pemeliharaan infrastruktur terencana `PLANNED_NETWORK_UPDATE`: pemeliharaan jaringan terencana	Berlaku untuk instance yang sedang berjalan, dihentikan, atau ditangguhkan.
Pemeliharaan darurat yang tidak terencana	`FAILURE_DISK`: pemeliharaan tidak terencana yang dijadwalkan karena error pada disk yang terpasang ke instance. `FAILURE_GPU`: pemeliharaan yang tidak direncanakan dijadwalkan karena error terkait GPU. `FAILURE_GPU_TEMPERATURE`: pemeliharaan tidak terencana yang dijadwalkan karena error terkait GPU setelah GPU mencapai suhu tinggi. `FAILURE_GPU_XID`: pemeliharaan yang tidak direncanakan setelah Anda menerima pesan Xid karena error terkait GPU. `FAILURE_INFRA`: pemeliharaan tidak terencana dijadwalkan karena terjadi error pada infrastruktur. `FAILURE_INTERFACE`: pemeliharaan tidak terencana yang dijadwalkan karena error pada NIC. `FAILURE_MEMORY`: pemeliharaan tidak terencana yang dijadwalkan karena error pada memori instance. `FAILURE_NETWORK`: pemeliharaan tidak terencana yang dijadwalkan karena error pada jaringan. `FAILURE_NVLINK`: pemeliharaan tidak terencana yang dijadwalkan karena error pada NVLink.	Hanya berlaku untuk instance yang sedang berjalan.

Untuk melihat kolom maintenanceReasons di instance, Anda harus menggunakan gcloud CLI atau REST API. Untuk melihat status pemeliharaan beberapa instance komputasi secara bersamaan, Anda harus menggunakan konsol Google Cloud atau REST API. Jika tidak, pilih salah satu opsi berikut:

Konsol

Di konsol Google Cloud , buka halaman VM instances.

Buka instance VM
Di kolom Status pemeliharaan, Compute Engine menampilkan status pemeliharaan instance Anda. Jika Anda tidak melihat kolom ini di tabel VM instances, klik view_column Column display options, centang kotak Maintenance status, lalu klik OK.

gcloud

Untuk melihat status pemeliharaan instance, gunakan perintah gcloud compute instances describe dengan flag --flatten=resourceStatus.upcomingMaintenance:

gcloud compute instances describe INSTANCE_NAME \
    --flatten=resourceStatus.upcomingMaintenance \
    --zone=ZONE

Ganti kode berikut:

INSTANCE_NAME: nama instance.
ZONE: zona tempat instance berada.

Outputnya mirip dengan salah satu dari berikut ini:

Jika peristiwa pemeliharaan host dijadwalkan untuk instance Anda, outputnya akan mirip dengan berikut ini:

---
canReschedule: true
latestWindowStartTime: '2025-11-01T19:00:00Z'
maintenanceReasons:
- 'PLANNED_UPDATE'
- 'PLANNED_NETWORK_UPDATE'
maintenanceStatus: 'PENDING'
type: 'SCHEDULED'
windowEndTime: '2025-11-01T22:00:00Z'
windowStartTime: '2025-11-01T19:00:00Z'

Jika peristiwa pemeliharaan host tidak dijadwalkan untuk instance Anda, outputnya akan mirip dengan berikut ini:
```
---
null
```

REST

Untuk melihat status pemeliharaan instance, buat salah satu permintaan GET berikut. Saat membuat permintaan, Anda harus menyertakan parameter kueri fields untuk hanya menampilkan nama, jenis mesin, dan pemeliharaan mendatang untuk instance. Anda juga harus menyertakan parameter kueri filter untuk hanya memfilter instance berdasarkan jenis mesin tertentu.

Untuk melihat instance di semua zona: metode instances.aggregatedList.

GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/aggregated/instances?fields=items.name,items.machineType,items.upcomingMaintenance&filter=machineType%3AMACHINE_TYPE

Untuk melihat instance di zona tertentu: metode instances.list.

GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances?fields=items.name,items.machineType,items.upcomingMaintenance&filter=machineType%3AMACHINE_TYPE

Ganti kode berikut:

PROJECT_ID: ID project tempat Anda membuat instance.
ZONE: zona tempat instance berada.
MACHINE_TYPE: jenis mesin yang ingin Anda gunakan untuk memfilter instance.

Jika peristiwa pemeliharaan host dijadwalkan untuk instance, instance tersebut akan berisi kolom upcomingMaintenance:

{
  "items": [
    {
      "name": "vm-01",
      "machineType": "https://www.googleapis.com/compute/v1/projects/example-project/zones/europe-west1-b/machineTypes/a3-ultragpu-8g",
      "resourceStatus": {
        "upcomingMaintenance": {
          "canReschedule": true,
          "latestWindowStartTime": "2024-11-01T19:00:00Z",
          "maintenanceStatus": "PENDING",
          "maintenanceReasons": [
            "PLANNED_UPDATE",
            "PLANNED_NETWORK_UPDATE"
          ],
          "type": "SCHEDULED",
          "windowEndTime": "2024-11-01T22:00:00Z",
          "windowStartTime": "2024-11-01T19:00:00Z"
        }
      }
    },
    ...
  ]
}

Atau, untuk mempersempit daftar instance lebih lanjut, tetapkan parameter kueri filter ke ekspresi filter yang berbeda.

Server metadata

Untuk melihat status pemeliharaan instance, lakukan langkah berikut:

Jika belum, hubungkan ke Linux atau Windows.

Untuk melihat jadwal pemeliharaan mendatang, buat kueri endpoint upcoming-maintenance:

curl http://metadata.google.internal/computeMetadata/v1/instance/upcoming-maintenance?alt=json -H "Metadata-Flavor: Google"

Jika peristiwa pemeliharaan host dijadwalkan untuk instance Anda, outputnya akan mirip dengan berikut ini:

"Upcoming maintenance": {
  "can_reschedule": "true",
  "latest_window_start_time": "2024-12-01T19:00:01Z",
  "maintenance_reasons": [
    "PLANNED_UPDATE",
    "PLANNED_NETWORK_UPDATE"
  ],
  "maintenance_status": "PENDING",
  "type": "SCHEDULED",
  "window_end_time": "2024-12-01T21:00:01Z",
  "window_start_time": "2024-12-01T19:00:01Z"
}

Jika peristiwa pemeliharaan host tidak dijadwalkan, outputnya akan mirip dengan yang berikut ini:

{ }

Untuk melihat status pemeliharaan VM saat ini, kueri endpoint maintenance-event:
```
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
```
Untuk mengetahui informasi selengkapnya tentang output kueri ini, lihat Meninjau output.

Memulai pemeliharaan instance komputasi secara manual

Anda dapat memulai pemeliharaan secara manual untuk instance, bukan menunggu waktu yang dijadwalkan.

Bergantung pada status pemeliharaan instance, hal berikut akan terjadi:

Status pemeliharaan	Deskripsi	Yang Anda lihat
Dijadwalkan	Compute Engine telah menjadwalkan pemeliharaan untuk instance. Anda dapat memulai pemeliharaan secara manual sebelum waktu yang dijadwalkan.	Di konsol Google Cloud , status pemeliharaan ditampilkan sebagai Siap dijalankan - akan dijalankan pada `DATE`. Di gcloud CLI atau REST API, Compute Engine menyetel kolom `maintenanceStatus` ke `PENDING`.
Dalam proses	Pemeliharaan sedang berlangsung. Anda tidak dapat menjadwalkannya ulang.	Di konsol Google Cloud , status pemeliharaan ditampilkan sebagai Berjalan. Di gcloud CLI atau REST API, Compute Engine menyetel kolom `maintenanceStatus` ke `ONGOING`.
Selesai	Pemeliharaan selesai. Compute Engine telah menghapus semua notifikasi pemeliharaan dari instance.	Di konsol Google Cloud , status pemeliharaan ditampilkan sebagai Up-to-date. Di gcloud CLI atau REST API, Compute Engine menyetel kolom `maintenanceStatus` ke `COMPLETE`.

Anda dapat memulai pemeliharaan secara manual untuk beberapa instance secara bersamaan atau untuk setiap instance. Untuk beberapa instance, gunakan konsol Google Cloud atau, untuk instance yang berada di zona yang sama, gcloud CLI. Untuk instance satu per satu, pilih salah satu opsi berikut:

Konsol

Di konsol Google Cloud , buka halaman VM instances.

Buka instance VM
Pilih baris untuk instance tempat Anda ingin memulai pemeliharaan.
Klik Jalankan pemeliharaan.
Untuk mengonfirmasi, klik Jalankan pemeliharaan.

gcloud

Untuk memulai pemeliharaan secara manual untuk satu atau beberapa instance dalam zona yang sama, gunakan perintah gcloud compute instances perform-maintenance:

gcloud compute instances perform-maintenance INSTANCE_NAMES \
    --zone=ZONE

Ganti kode berikut:

INSTANCE_NAMES: daftar nama instance yang dipisahkan oleh spasi; misalnya, vm-01 vm-02 vm-03.
ZONE: zona tempat instance berada.

REST

Untuk memulai pemeliharaan instance secara manual, buat permintaan POST ke metode instances.performMaintenance:

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/INSTANCE_NAME/performMaintenance

Ganti kode berikut:

PROJECT_ID: ID project tempat Anda membuat instance.
ZONE: zona tempat instance berada.
INSTANCE_NAME: nama instance.

Langkah berikutnya

Untuk menguji workload setelah peristiwa host, lihat Resep tolok ukur.
Untuk mempelajari lebih lanjut cara memantau VM, lihat Memantau VM dan cluster Slurm.

Mengelola peristiwa host di seluruh instance komputasi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Konsol

gcloud

REST

Peran yang diperlukan

Izin yang diperlukan

Ringkasan

Memahami dan menangani pemeliharaan host

Menyiapkan pemberitahuan notifikasi untuk instance komputasi

Mengelola pemeliharaan di seluruh instance komputasi

Melihat status pemeliharaan instance komputasi

Konsol

gcloud

REST

Server metadata

Memulai pemeliharaan instance komputasi secara manual

Konsol

gcloud

REST

Langkah berikutnya

Mengelola peristiwa host di seluruh instance komputasi