Memantau instance dan operasi

Cloud Monitoring secara otomatis mengumpulkan dan menyimpan informasi tentang instance Managed Lustre Anda.

Dokumen ini memberikan ringkasan mendetail tentang metrik yang tersedia untuk memantau instance Managed Lustre Anda di Google Cloud. Metrik ini membantu Anda memahami performa, kapasitas, dan kondisi sistem file Managed Lustre, sehingga Anda dapat mengidentifikasi bottleneck, memecahkan masalah, dan mengoptimalkan penggunaan resource.

Anda dapat menggunakan metrik ini di Cloud Monitoring untuk membuat dasbor kustom, menyiapkan pemberitahuan, dan mendapatkan insight yang lebih mendalam tentang perilaku instance Managed Lustre Anda.

Cloud Monitoring diaktifkan secara otomatis untuk Managed Lustre. Pengumpulan data atau melihat metrik di konsolGoogle Cloud tidak dikenai biaya. Panggilan API dapat menimbulkan biaya; lihat harga Cloud Monitoring untuk mengetahui detail harga.

Peran IAM yang diperlukan

Peran berikut diperlukan:

  • Monitoring Viewer (roles/monitoring.viewer), atau izin yang setara, untuk melihat metrik di Cloud Monitoring.
  • Editor Pemantauan (roles/monitoring.editor), atau izin yang setara, untuk mengonfigurasi pemberitahuan.

Pelajari cara memberikan peran IAM.

Lihat metrik

Metrik Cloud Monitoring tersedia dari dua lokasi di konsolGoogle Cloud :

  • Halaman detail instance Managed Lustre menampilkan metrik yang tersedia. Selain metrik yang tercantum di bawah, metrik ini menghitung bandwidth byte yang disalin dan kecepatan objek yang disalin.

  • Halaman Cloud Monitoring menyediakan beberapa opsi diagram dan penyesuaian.

Melihat metrik di halaman detail instance

Untuk melihat metrik instance tertentu:

  1. Buka halaman Instances di konsol Google Cloud .

    Buka Instances

  2. Klik instance yang metriknya ingin Anda lihat. Halaman Instance details akan muncul.

  3. Klik tab Monitoring. Dasbor default ditampilkan.

Melihat metrik di Cloud Monitoring

Untuk melihat metrik Managed Lustre di Cloud Monitoring, lakukan langkah-langkah berikut:

  1. Buka halaman Metrics Explorer di konsol Google Cloud .

    Buka Monitoring: Metrics Explorer

  2. Ikuti petunjuk di Membuat diagram dengan Metrics Explorer untuk memilih dan menampilkan metrik Anda.

Menyiapkan pemberitahuan

Anda dapat mengonfigurasi kebijakan pemberitahuan di Cloud Monitoring untuk memberi tahu Anda saat sistem file Managed Lustre Anda memenuhi kondisi tertentu, seperti melebihi kapasitas penyimpanan atau batas throughput.

Prasyarat

Untuk membuat kebijakan pemberitahuan, Anda harus memiliki peran IAM Monitoring Editor (roles/monitoring.editor) di project.

Membuat kebijakan pemberitahuan

Untuk menyiapkan pemberitahuan, tentukan kondisi menggunakan metrik atau kueri PromQL dan konfigurasi saluran notifikasi.

  1. Di konsol Google Cloud , buka halaman Alerting di konsol Google Cloud .

    Buka Monitoring: Pemberitahuan

  2. Klik + Create policy.

  3. Pilih Penyusun, lalu pilih metrik Anda, atau pilih Editor kode untuk memasukkan kueri dengan PromQL. Di pemilih metrik, metrik Managed Lustre termasuk dalam resource Lustre instance dan Lustre location.

  4. Konfigurasi logika pemicu dan tentukan saluran notifikasi dan setelan notifikasi.

  5. Klik Create policy.

Untuk mengetahui informasi selengkapnya tentang cara membuat pemicu dan opsi lainnya, lihat:

Contoh: Membuat pemberitahuan kapasitas penyimpanan

Contoh berikut menunjukkan cara membuat pemberitahuan yang dipicu saat instance Managed Lustre Anda melampaui 80% kapasitas yang disediakan.

  1. Di konsol Google Cloud , buka halaman Alerting di konsol Google Cloud .

    Buka Monitoring: Pemberitahuan

  2. Klik + Create policy.

  3. Pilih Editor kode.

  4. Di Query Editor, tempel kueri PromQL berikut:

    (
      sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
      -
      sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
    )
    /
    sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
    > 0.8
    

    Kueri ini menghitung rasio penggunaan di semua instance: (Total - Available) / Total. Nilai 0.8 mewakili total byte yang mencapai penggunaan 80%. Untuk memberikan pemberitahuan pada 90%, ubah nilai ini menjadi 0.9.

  5. Klik Run Query untuk memverifikasi sintaksis dan melihat diagram rasio penggunaan saat ini.

  6. Klik Berikutnya, lalu konfigurasi pemicu ke Any time series violates.

  7. Klik Berikutnya. Di bagian Dokumentasi, tambahkan tindakan yang direkomendasikan untuk menyelesaikan masalah kapasitas. Contoh:

    ## Action Required: Lustre Capacity Warning
    The Managed Lustre instance is exceeding 80% capacity usage.
    
    **Metric:** Usage Ratio > 0.8
    **Severity:** Warning
    
    **Recommended Actions:**
    1. Check the instance details in the Google Cloud console.
    2. Verify if this is expected data growth or a runaway process.
    3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
    4. Failure to address this may result in "No Space Left on Device" errors for client applications.
    

Membuat kebijakan pemberitahuan dengan gcloud

Anda dapat membuat kebijakan pemberitahuan menggunakan Google Cloud CLI. Perhatikan bahwa Anda harus mengedit pemberitahuan di konsol Google Cloud nanti untuk mengaktifkan saluran notifikasi tertentu.

Contoh berikut membuat pemberitahuan kapasitas 80% menggunakan gcloud:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Detail metrik

Metrik berikut tersedia untuk instance Managed Lustre. Setiap metrik diidentifikasi berdasarkan jenisnya (misalnya, lustre.googleapis.com/instance/available_bytes), memiliki nama tampilan, deskripsi, dan label tertentu yang memberikan konteks tambahan.

Data diambil sampelnya setiap 60 detik. Setelah pengambilan sampel, data mungkin tidak terlihat hingga 180 detik.

Metrik Kapasitas Penyimpanan

Metrik yang terkait dengan ruang penyimpanan yang tersedia dan disediakan di sistem file Lustre Anda.

Untuk label metrik, nilai target menggunakan format <fsname>-<TYPE><HEXA> dengan <HEXA> adalah indeks berbasis nol dari target dalam heksadesimal. Misalnya, jika nama sistem file Anda adalah filesys, OST ke-43 adalah filesys-OST002a, dan MDT ke-4 adalah filesys-MDT0003.

Metrik Deskripsi Detail
available_bytes Jumlah byte ruang penyimpanan untuk Target Penyimpanan Objek (OST) atau Target Metadata (MDT) tertentu yang tersedia untuk pengguna non-root. Nama Tampilan: Byte yang tersedia
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: ost, mdt, atau mgt.
target: Nama target.
capacity_bytes Jumlah byte yang disediakan untuk target tertentu. Total ruang data atau metadata yang dapat digunakan cluster untuk instance dapat diperoleh dengan menambahkan kapasitas semua target untuk jenis target tertentu. Nama Tampilan: Byte kapasitas
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: ost, mdt, atau mgt.
target: Nama target.
free_bytes Jumlah byte ruang penyimpanan untuk OST atau MDT tertentu yang tersedia bagi pengguna root. Nama Tampilan: Byte kosong
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: ost, mdt, atau mgt.
target: Nama target.

Metrik Inode (objek)

Metrik terkait jumlah inode (objek) yang tersedia dan kapasitas maksimum.

Metrik Deskripsi Detail
inodes_free Jumlah inode (objek) yang tersedia di target tertentu. Nama Tampilan: Inode kosong
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: inode
Label:
component: Jenis target.
target: Nama target.
inodes_maximum Jumlah maksimum inode (objek) yang dapat ditampung target. Nama Tampilan: Inode maksimum
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: inode
Label:
component: Jenis target.
target: Nama target.

Metrik Performa I/O

Metrik yang memberikan insight tentang kecepatan transfer data dan latensi operasi.

Latensi operasi

Metrik Deskripsi Detail
io_time_milliseconds_total Jumlah operasi baca atau tulis yang latensinya berada dalam rentang latensi yang dikelompokkan. Nama Tampilan: Latensi operasi
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
component: Jenis target.
operation: Jenis operasi.
size: Rentang latensi yang dikelompokkan. Misalnya, 512 mencakup jumlah operasi yang berlangsung antara 512 dan 1.024 milidetik.
target: Nama target.
read_bytes_total Jumlah byte data yang dibaca dari OST tertentu. Nama Tampilan: Byte data yang dibaca
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: read.
target: Nama target.
read_samples_total Jumlah operasi baca yang dilakukan pada OST tertentu. Nama Tampilan: Operasi pembacaan data
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: read.
target: Nama target.
write_bytes_total Jumlah byte data yang ditulis ke OST tertentu. Nama Tampilan: Byte penulisan data
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: write.
target: Nama target.
write_samples_total Jumlah operasi tulis yang dilakukan pada OST tertentu. Nama Tampilan: Operasi penulisan data
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: write.
target: Nama target.

Metrik Koneksi Klien

Metrik khusus untuk memahami konektivitas klien.

Klien yang terhubung

Metrik Deskripsi Detail
connected_clients Jumlah klien yang saat ini terhubung ke MDT tertentu. Nama Tampilan: Klien yang terhubung
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: klien
Label:
component: Jenis target. Nilai ini selalu mdt.
target: Nama MDT.