Memantau instance dan operasi

Cloud Monitoring secara otomatis mengumpulkan dan menyimpan informasi tentang instance Managed Lustre Anda.

Dokumen ini memberikan ringkasan mendetail tentang metrik yang tersedia untuk memantau Managed Lustre di Google Cloud. Metrik ini membantu Anda memahami performa, kapasitas, dan kondisi sistem file Managed Lustre, sehingga Anda dapat mengidentifikasi bottleneck, memecahkan masalah, dan mengoptimalkan penggunaan resource.

Anda dapat menggunakan metrik ini di Cloud Monitoring untuk membuat dasbor kustom, menyiapkan pemberitahuan, dan mendapatkan insight yang lebih mendalam tentang perilaku instance Managed Lustre Anda.

Cloud Monitoring diaktifkan secara otomatis untuk Managed Lustre. Pengumpulan data atau melihat metrik di konsolGoogle Cloud tidak dikenai biaya. Panggilan API dapat menimbulkan biaya; lihat harga Cloud Monitoring untuk mengetahui detail harga.

Peran IAM yang diperlukan

Peran berikut diperlukan:

  • Monitoring Viewer (roles/monitoring.viewer), atau izin yang setara, untuk melihat metrik di Cloud Monitoring.
  • Editor Pemantauan (roles/monitoring.editor), atau izin yang setara, untuk mengonfigurasi pemberitahuan.

Pelajari cara memberikan peran IAM.

Lihat metrik

Metrik Cloud Monitoring tersedia dari dua lokasi di konsolGoogle Cloud :

  • Halaman detail instance Managed Lustre menampilkan metrik yang tersedia. Selain metrik yang tercantum di halaman ini, metrik ini menghitung bandwidth byte yang disalin dan kecepatan objek yang disalin.

  • Halaman Cloud Monitoring menyediakan beberapa opsi diagram dan penyesuaian.

Melihat metrik di halaman detail instance

Untuk melihat metrik instance tertentu:

  1. Buka halaman Instances di konsol Google Cloud .

    Buka Instances

  2. Klik instance yang metriknya ingin Anda lihat. Halaman Instance details akan muncul.

  3. Klik tab Monitoring. Dasbor default ditampilkan.

Melihat metrik di Cloud Monitoring

Untuk melihat metrik Managed Lustre di Cloud Monitoring, lakukan langkah-langkah berikut:

  1. Buka halaman Metrics Explorer di konsol Google Cloud .

    Buka Monitoring: Metrics Explorer

  2. Ikuti petunjuk di Membuat diagram dengan Metrics Explorer untuk memilih dan menampilkan metrik Anda.

Menyiapkan pemberitahuan

Anda dapat mengonfigurasi kebijakan pemberitahuan di Cloud Monitoring untuk memberi tahu Anda saat sistem file Managed Lustre Anda memenuhi kondisi tertentu, seperti melebihi kapasitas penyimpanan atau batas throughput.

Prasyarat

Untuk membuat kebijakan pemberitahuan, Anda harus memiliki peran IAM Monitoring Editor (roles/monitoring.editor) di project.

Membuat kebijakan pemberitahuan

Untuk menyiapkan pemberitahuan, tentukan kondisi menggunakan metrik atau kueri PromQL dan konfigurasi saluran notifikasi.

  1. Di konsol Google Cloud , buka halaman Alerting di konsol Google Cloud .

    Buka Monitoring: Pemberitahuan

  2. Klik + Create policy.

  3. Pilih Penyusun dan pilih metrik Anda, atau pilih Editor kode untuk memasukkan kueri dengan PromQL. Di pemilih metrik, metrik Managed Lustre termasuk dalam resource Lustre instance dan Lustre location.

  4. Konfigurasi logika pemicu dan tentukan saluran notifikasi dan setelan notifikasi.

  5. Klik Create policy.

Untuk mengetahui informasi selengkapnya tentang cara membuat pemicu dan opsi lainnya, lihat:

Contoh: Membuat pemberitahuan kapasitas penyimpanan

Contoh berikut menunjukkan cara membuat pemberitahuan yang dipicu saat instance Managed Lustre Anda melebihi 80% dari kapasitas yang disediakan.

  1. Di konsol Google Cloud , buka halaman Alerting di konsol Google Cloud .

    Buka Monitoring: Pemberitahuan

  2. Klik + Create policy.

  3. Pilih Editor kode.

  4. Di Query Editor, tempel kueri PromQL berikut:

    (
      sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
      -
      sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
    )
    /
    sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
    > 0.8
    

    Kueri ini menghitung rasio penggunaan di semua instance: (Total - Available) / Total. Nilai 0.8 mewakili total byte yang mencapai penggunaan 80%. Untuk mendapatkan pemberitahuan pada 90%, ubah nilai ini menjadi 0.9.

  5. Klik Run Query untuk memverifikasi sintaksis dan melihat diagram rasio penggunaan saat ini.

  6. Klik Berikutnya, lalu konfigurasi pemicu ke Any time series violates.

  7. Klik Berikutnya. Di bagian Dokumentasi, tambahkan tindakan yang direkomendasikan untuk menyelesaikan masalah kapasitas. Contoh:

    ## Action Required: Lustre Capacity Warning
    The Managed Lustre instance is exceeding 80% capacity usage.
    
    **Metric:** Usage Ratio > 0.8
    **Severity:** Warning
    
    **Recommended Actions:**
    1. Check the instance details in the Google Cloud console.
    2. Verify if this is expected data growth or a runaway process.
    3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
    4. Failure to address this may result in "No Space Left on Device" errors for client applications.
    

Membuat kebijakan pemberitahuan dengan gcloud

Anda dapat membuat kebijakan pemberitahuan menggunakan Google Cloud CLI. Perhatikan bahwa Anda harus mengedit pemberitahuan di konsol Google Cloud nanti untuk mengaktifkan saluran notifikasi tertentu.

Contoh berikut membuat pemberitahuan kapasitas 80% menggunakan gcloud:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Detail metrik

Metrik Lustre terkelola dilampirkan ke jenis resource yang dipantau berikut:

  • lustre.googleapis.com/Instance
  • lustre.googleapis.com/Job
  • lustre.googleapis.com/QuotaEntity

Data diambil sampelnya setiap 60 detik. Setelah pengambilan sampel, data mungkin tidak terlihat hingga 180 detik.

Metrik kapasitas penyimpanan

Metrik yang terkait dengan ruang penyimpanan yang tersedia dan disediakan di sistem file Lustre Anda.

Untuk label metrik, nilai target menggunakan format <fsname>-<TYPE><HEXA> dengan <HEXA> adalah indeks berbasis nol dari target dalam heksadesimal. Misalnya, jika nama sistem file Anda adalah filesys, OST ke-43 adalah filesys-OST002a, dan MDT ke-4 adalah filesys-MDT0003.

Metrik kapasitas penyimpanan dilampirkan ke resource lustre.googleapis.com/Instance.

Metrik Deskripsi Detail
available_bytes Jumlah byte ruang penyimpanan untuk Target Penyimpanan Objek (OST) atau Target Metadata (MDT) tertentu yang tersedia untuk pengguna non-root. Nama Tampilan: Byte yang tersedia
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: ost, mdt, atau mgt.
target: Nama target.
capacity_bytes Jumlah byte yang disediakan untuk target tertentu. Total ruang data atau metadata yang dapat digunakan cluster untuk instance dapat diperoleh dengan menambahkan kapasitas semua target untuk jenis target tertentu. Nama Tampilan: Byte kapasitas
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: ost, mdt, atau mgt.
target: Nama target.
free_bytes Jumlah byte ruang penyimpanan untuk OST atau MDT tertentu yang tersedia bagi pengguna root. Nama Tampilan: Byte kosong
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: ost, mdt, atau mgt.
target: Nama target.

Metrik inode (objek)

Metrik terkait jumlah inode (objek) yang tersedia dan kapasitas maksimum.

Metrik inode dilampirkan ke resource lustre.googleapis.com/Instance.

Metrik Deskripsi Detail
inodes_free Jumlah inode (objek) yang tersedia di target tertentu. Nama Tampilan: Inode kosong
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: inode
Label:
component: Jenis target.
target: Nama target.
inodes_maximum Jumlah maksimum inode (objek) yang dapat ditampung target. Nama Tampilan: Inode maksimum
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: inode
Label:
component: Jenis target.
target: Nama target.

Metrik performa I/O

Metrik yang memberikan insight tentang kecepatan transfer data dan latensi operasi.

Metrik performa I/O dilampirkan ke resource lustre.googleapis.com/Instance.

Metrik Deskripsi Detail
io_time_milliseconds_total Jumlah operasi baca atau tulis yang latensinya berada dalam rentang latensi yang dikelompokkan. Nama Tampilan: Latensi operasi
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
component: Jenis target.
operation: Jenis operasi.
size: Rentang latensi yang dikelompokkan. Misalnya, 512 mencakup jumlah operasi yang berlangsung antara 512 dan 1.024 milidetik.
target: Nama target.
read_bytes_total Jumlah byte data yang dibaca dari OST tertentu. Nama Tampilan: Byte data yang dibaca
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: read.
target: Nama target.
read_samples_total Jumlah operasi baca yang dilakukan pada OST tertentu. Nama Tampilan: Operasi pembacaan data
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: read.
target: Nama target.
write_bytes_total Jumlah byte data yang ditulis ke OST tertentu. Nama Tampilan: Byte penulisan data
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: byte
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: write.
target: Nama target.
write_samples_total Jumlah operasi tulis yang dilakukan pada OST tertentu. Nama Tampilan: Operasi penulisan data
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
component: Jenis target: selalu ost.
operation: Jenis operasi: write.
target: Nama target.

Metrik koneksi klien

Metrik khusus untuk memahami konektivitas klien.

Metrik koneksi klien dilampirkan ke resource lustre.googleapis.com/Instance.

Metrik Deskripsi Detail
connected_clients Jumlah klien yang saat ini terhubung ke MDT tertentu. Nama Tampilan: Klien yang terhubung
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: klien
Label:
component: Jenis target. Nilai ini selalu mdt.
target: Nama MDT.

Metrik kuota sistem file

Metrik kuota sistem file memungkinkan Anda memantau konsumsi penyimpanan dan inode untuk pengguna, grup, dan project tertentu. Gunakan metrik ini untuk melacak penggunaan saat ini terhadap batas lunak dan keras yang dikonfigurasi pada sistem file Anda.

Metrik kuota sistem file dikaitkan dengan lustre.googleapis.com/QuotaEntity resource yang dipantau.

Metrik Deskripsi Detail
used_bytes Jumlah total byte yang saat ini digunakan oleh pengguna, grup, atau project. Nama Tampilan: Byte yang digunakan kuota
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Byte
Label:
accounting_type: Salah satu dari user, group, atau project.
id: ID numerik pengguna, grup, atau project.
target: Nama perangkat target Lustre.
soft_limit_bytes Nilai minimum penggunaan penyimpanan yang memicu masa tenggang. Jika penggunaan tetap melebihi batas ini setelah masa tenggang berakhir, batas ini akan menjadi batas ketat yang diterapkan. Nama Tampilan: Byte batas lunak kuota
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Byte
Label:
accounting_type: Salah satu dari user, group, atau project.
id: ID numerik pengguna, grup, atau project.
target: Nama perangkat target Lustre.
hard_limit_bytes Penggunaan penyimpanan maksimum yang diizinkan untuk pengguna, grup, atau project. Penulisan yang melebihi batas ini akan ditolak. Nama Tampilan: Byte batas tetap kuota
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Byte
Label:
accounting_type: Salah satu dari user, group, atau project.
id: ID numerik pengguna, grup, atau project.
target: Nama perangkat target Lustre.
used_inodes Jumlah total inode (catatan file) yang saat ini digunakan oleh pengguna, grup, atau project. Nama Tampilan: Kuota yang digunakan inode
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Jumlah
Label:
accounting_type: Salah satu dari user, group, atau project.
id: ID numerik pengguna, grup, atau project.
target: Nama perangkat target Lustre.
soft_limit_inodes Nilai minimum penggunaan inode yang memicu masa tenggang. Jika penggunaan tetap melebihi batas ini setelah masa tenggang berakhir, batas ini akan menjadi batas keras yang diterapkan. Nama Tampilan: Inode batas lunak kuota
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Jumlah
Label:
accounting_type: Salah satu dari user, group, atau project.
id: ID numerik pengguna, grup, atau project.
target: Nama perangkat target Lustre.
hard_limit_inodes Jumlah maksimum inode yang diizinkan untuk pengguna, grup, atau project. Pembuatan file yang melebihi batas ini akan ditolak. Nama Tampilan: Inode batas tetap kuota
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Jumlah
Label:
accounting_type: Salah satu dari user, group, atau project.
id: ID numerik pengguna, grup, atau project.
target: Nama perangkat target Lustre.

Metrik Jobstats

Metrik yang memberikan statistik baca, tulis, dan metadata per JobID, seperti yang dikonfigurasi di klien.

Untuk mengumpulkan metrik ini, gunakan lctl untuk mengonfigurasi parameter jobid_var di klien Lustre Anda. Untuk mengetahui informasi selengkapnya, lihat Lustre Jobstats.

Untuk mengonfigurasi klien agar melaporkan ID tertentu (misalnya, procname_uid), gunakan perintah lctl set_param jobid_var:

lctl set_param jobid_var=procname_uid

Metrik Jobstats dilampirkan ke resource lustre.googleapis.com/Job.

Metrik Deskripsi Detail
read_bytes_total Jumlah total byte yang dibaca oleh tugas. Nama Tampilan: Byte data yang dibaca menurut tugas
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: Byte
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
write_bytes_total Jumlah total byte yang ditulis oleh tugas. Nama Tampilan: Byte penulisan data menurut tugas
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: Byte
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
metadata_operations_total Total operasi metadata yang dilakukan oleh tugas. Nama Tampilan: Operasi metadata menurut tugas
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
read_samples_total Jumlah total operasi baca yang dilakukan oleh tugas. Nama Tampilan: Operasi baca data menurut tugas
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
write_samples_total Jumlah total operasi tulis yang dilakukan oleh tugas. Nama Tampilan: Operasi penulisan data menurut tugas
Jenis Metrik: KUMULATIF
Jenis Nilai: INT64
Unit: operasi
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
read_maximum_size_bytes Ukuran maksimum dalam byte operasi baca oleh tugas. Nama Tampilan: Ukuran maksimum data yang dibaca menurut tugas
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Byte
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
read_minimum_size_bytes Ukuran minimum dalam byte operasi baca oleh tugas. Nama Tampilan: Ukuran minimum data yang dibaca menurut tugas
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Byte
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
write_maximum_size_bytes Ukuran maksimum dalam byte operasi tulis oleh tugas. Nama Tampilan: Ukuran maksimum penulisan data menurut tugas
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Byte
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.
write_minimum_size_bytes Ukuran minimum dalam byte operasi tulis oleh tugas. Nama Tampilan: Ukuran minimum penulisan data menurut tugas
Jenis Metrik: GAUGE
Jenis Nilai: INT64
Unit: Byte
Label:
job_id: JobID yang dikirim oleh klien.
component: Jenis target.
target: Nama target.
instance_id: ID instance Managed Lustre.