Cloud Monitoring secara otomatis mengumpulkan dan menyimpan informasi tentang instance Managed Lustre Anda.
Dokumen ini memberikan ringkasan mendetail tentang metrik yang tersedia untuk memantau Managed Lustre di Google Cloud. Metrik ini membantu Anda memahami performa, kapasitas, dan kondisi sistem file Managed Lustre, sehingga Anda dapat mengidentifikasi bottleneck, memecahkan masalah, dan mengoptimalkan penggunaan resource.
Anda dapat menggunakan metrik ini di Cloud Monitoring untuk membuat dasbor kustom, menyiapkan pemberitahuan, dan mendapatkan insight yang lebih mendalam tentang perilaku instance Managed Lustre Anda.
Cloud Monitoring diaktifkan secara otomatis untuk Managed Lustre. Pengumpulan data atau melihat metrik di konsolGoogle Cloud tidak dikenai biaya. Panggilan API dapat menimbulkan biaya; lihat harga Cloud Monitoring untuk mengetahui detail harga.
Peran IAM yang diperlukan
Peran berikut diperlukan:
- Monitoring Viewer (
roles/monitoring.viewer), atau izin yang setara, untuk melihat metrik di Cloud Monitoring. - Editor Pemantauan (
roles/monitoring.editor), atau izin yang setara, untuk mengonfigurasi pemberitahuan.
Pelajari cara memberikan peran IAM.
Lihat metrik
Metrik Cloud Monitoring tersedia dari dua lokasi di konsolGoogle Cloud :
Halaman detail instance Managed Lustre menampilkan metrik yang tersedia. Selain metrik yang tercantum di halaman ini, metrik ini menghitung bandwidth byte yang disalin dan kecepatan objek yang disalin.
Halaman Cloud Monitoring menyediakan beberapa opsi diagram dan penyesuaian.
Melihat metrik di halaman detail instance
Untuk melihat metrik instance tertentu:
Buka halaman Instances di konsol Google Cloud .
Klik instance yang metriknya ingin Anda lihat. Halaman Instance details akan muncul.
Klik tab Monitoring. Dasbor default ditampilkan.
Melihat metrik di Cloud Monitoring
Untuk melihat metrik Managed Lustre di Cloud Monitoring, lakukan langkah-langkah berikut:
Buka halaman Metrics Explorer di konsol Google Cloud .
Ikuti petunjuk di Membuat diagram dengan Metrics Explorer untuk memilih dan menampilkan metrik Anda.
Menyiapkan pemberitahuan
Anda dapat mengonfigurasi kebijakan pemberitahuan di Cloud Monitoring untuk memberi tahu Anda saat sistem file Managed Lustre Anda memenuhi kondisi tertentu, seperti melebihi kapasitas penyimpanan atau batas throughput.
Prasyarat
Untuk membuat kebijakan pemberitahuan, Anda harus memiliki peran IAM Monitoring Editor (roles/monitoring.editor) di project.
Membuat kebijakan pemberitahuan
Untuk menyiapkan pemberitahuan, tentukan kondisi menggunakan metrik atau kueri PromQL dan konfigurasi saluran notifikasi.
Di konsol Google Cloud , buka halaman Alerting di konsol Google Cloud .
Klik + Create policy.
Pilih Penyusun dan pilih metrik Anda, atau pilih Editor kode untuk memasukkan kueri dengan PromQL. Di pemilih metrik, metrik Managed Lustre termasuk dalam resource Lustre instance dan Lustre location.
Konfigurasi logika pemicu dan tentukan saluran notifikasi dan setelan notifikasi.
Klik Create policy.
Untuk mengetahui informasi selengkapnya tentang cara membuat pemicu dan opsi lainnya, lihat:
- Membuat kebijakan pemberitahuan batas metrik
- Membuat kebijakan pemberitahuan tanpa metrik
- Membuat kebijakan pemberitahuan nilai metrik yang diperkirakan
Contoh: Membuat pemberitahuan kapasitas penyimpanan
Contoh berikut menunjukkan cara membuat pemberitahuan yang dipicu saat instance Managed Lustre Anda melebihi 80% dari kapasitas yang disediakan.
Di konsol Google Cloud , buka halaman Alerting di konsol Google Cloud .
Klik + Create policy.
Pilih Editor kode.
Di Query Editor, tempel kueri PromQL berikut:
( sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes) ) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8Kueri ini menghitung rasio penggunaan di semua instance:
(Total - Available) / Total. Nilai0.8mewakili total byte yang mencapai penggunaan 80%. Untuk mendapatkan pemberitahuan pada 90%, ubah nilai ini menjadi0.9.Klik Run Query untuk memverifikasi sintaksis dan melihat diagram rasio penggunaan saat ini.
Klik Berikutnya, lalu konfigurasi pemicu ke Any time series violates.
Klik Berikutnya. Di bagian Dokumentasi, tambahkan tindakan yang direkomendasikan untuk menyelesaikan masalah kapasitas. Contoh:
## Action Required: Lustre Capacity Warning The Managed Lustre instance is exceeding 80% capacity usage. **Metric:** Usage Ratio > 0.8 **Severity:** Warning **Recommended Actions:** 1. Check the instance details in the Google Cloud console. 2. Verify if this is expected data growth or a runaway process. 3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space. 4. Failure to address this may result in "No Space Left on Device" errors for client applications.
Membuat kebijakan pemberitahuan dengan gcloud
Anda dapat membuat kebijakan pemberitahuan menggunakan Google Cloud CLI. Perhatikan bahwa Anda harus mengedit pemberitahuan di konsol Google Cloud nanti untuk mengaktifkan saluran notifikasi tertentu.
Contoh berikut membuat pemberitahuan kapasitas 80% menggunakan gcloud:
gcloud monitoring policies create \
--policy-from-file=/dev/stdin <<EOF
{
"displayName": "Lustre High Capacity Usage (>80%)",
"severity": "WARNING",
"combiner": "OR",
"conditions": [
{
"displayName": "Capacity Usage Ratio > 0.8",
"conditionPrometheusQueryLanguage": {
"query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
"duration": "300s",
"evaluationInterval": "60s",
"alertRule": "AlwaysOn"
}
}
],
"documentation": {
"content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
"mimeType": "text/markdown"
}
}
EOF
Detail metrik
Metrik Lustre terkelola dilampirkan ke jenis resource yang dipantau berikut:
lustre.googleapis.com/Instancelustre.googleapis.com/Joblustre.googleapis.com/QuotaEntity
Data diambil sampelnya setiap 60 detik. Setelah pengambilan sampel, data mungkin tidak terlihat hingga 180 detik.
Metrik kapasitas penyimpanan
Metrik yang terkait dengan ruang penyimpanan yang tersedia dan disediakan di sistem file Lustre Anda.
Untuk label metrik, nilai target menggunakan format
<fsname>-<TYPE><HEXA> dengan <HEXA> adalah indeks berbasis nol dari target
dalam heksadesimal. Misalnya, jika nama sistem file Anda adalah filesys, OST ke-43 adalah filesys-OST002a, dan MDT ke-4 adalah filesys-MDT0003.
Metrik kapasitas penyimpanan dilampirkan ke resource lustre.googleapis.com/Instance.
| Metrik | Deskripsi | Detail |
|---|---|---|
available_bytes |
Jumlah byte ruang penyimpanan untuk Target Penyimpanan Objek (OST) atau Target Metadata (MDT) tertentu yang tersedia untuk pengguna non-root. | Nama Tampilan: Byte yang tersedia Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: byte Label: component: Jenis target: ost,
mdt, atau mgt.target: Nama target. |
capacity_bytes |
Jumlah byte yang disediakan untuk target tertentu. Total ruang data atau metadata yang dapat digunakan cluster untuk instance dapat diperoleh dengan menambahkan kapasitas semua target untuk jenis target tertentu. | Nama Tampilan: Byte kapasitas Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: byte Label: component: Jenis target: ost,
mdt, atau mgt.target: Nama target. |
free_bytes |
Jumlah byte ruang penyimpanan untuk OST atau MDT tertentu yang tersedia bagi pengguna root. | Nama Tampilan: Byte kosong Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: byte Label: component: Jenis target: ost,
mdt, atau mgt.target: Nama target. |
Metrik inode (objek)
Metrik terkait jumlah inode (objek) yang tersedia dan kapasitas maksimum.
Metrik inode dilampirkan ke resource lustre.googleapis.com/Instance.
| Metrik | Deskripsi | Detail |
|---|---|---|
inodes_free |
Jumlah inode (objek) yang tersedia di target tertentu. | Nama Tampilan: Inode kosong Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: inode Label: component: Jenis target.target: Nama target. |
inodes_maximum |
Jumlah maksimum inode (objek) yang dapat ditampung target. | Nama Tampilan: Inode maksimum Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: inode Label: component: Jenis target.target: Nama target. |
Metrik performa I/O
Metrik yang memberikan insight tentang kecepatan transfer data dan latensi operasi.
Metrik performa I/O dilampirkan ke resource lustre.googleapis.com/Instance.
| Metrik | Deskripsi | Detail |
|---|---|---|
io_time_milliseconds_total |
Jumlah operasi baca atau tulis yang latensinya berada dalam rentang latensi yang dikelompokkan. | Nama Tampilan: Latensi operasi Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: operasi Label: component: Jenis target.operation: Jenis operasi.size: Rentang latensi yang dikelompokkan. Misalnya, 512
mencakup jumlah operasi yang berlangsung antara 512 dan 1.024
milidetik.target: Nama target.
|
read_bytes_total |
Jumlah byte data yang dibaca dari OST tertentu. | Nama Tampilan: Byte data yang dibaca Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: byte Label: component: Jenis target: selalu ost.operation: Jenis operasi: read.target: Nama target. |
read_samples_total |
Jumlah operasi baca yang dilakukan pada OST tertentu. | Nama Tampilan: Operasi pembacaan data Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: operasi Label: component: Jenis target: selalu ost.operation: Jenis operasi: read.target: Nama target. |
write_bytes_total |
Jumlah byte data yang ditulis ke OST tertentu. | Nama Tampilan: Byte penulisan data Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: byte Label: component: Jenis target: selalu ost.operation: Jenis operasi: write.target: Nama target. |
write_samples_total |
Jumlah operasi tulis yang dilakukan pada OST tertentu. | Nama Tampilan: Operasi penulisan data Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: operasi Label: component: Jenis target: selalu ost.operation: Jenis operasi: write.target: Nama target. |
Metrik koneksi klien
Metrik khusus untuk memahami konektivitas klien.
Metrik koneksi klien dilampirkan ke resource lustre.googleapis.com/Instance.
| Metrik | Deskripsi | Detail |
|---|---|---|
connected_clients |
Jumlah klien yang saat ini terhubung ke MDT tertentu. | Nama Tampilan: Klien yang terhubung Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: klien Label: component: Jenis target. Nilai ini selalu
mdt.target: Nama MDT. |
Metrik kuota sistem file
Metrik kuota sistem file memungkinkan Anda memantau konsumsi penyimpanan dan inode untuk pengguna, grup, dan project tertentu. Gunakan metrik ini untuk melacak penggunaan saat ini terhadap batas lunak dan keras yang dikonfigurasi pada sistem file Anda.
Metrik kuota sistem file dikaitkan dengan
lustre.googleapis.com/QuotaEntity resource yang dipantau.
| Metrik | Deskripsi | Detail |
|---|---|---|
used_bytes |
Jumlah total byte yang saat ini digunakan oleh pengguna, grup, atau project. | Nama Tampilan: Byte yang digunakan kuota Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Byte Label: accounting_type: Salah satu dari user,
group, atau project.id: ID numerik pengguna, grup, atau project.target: Nama perangkat target Lustre.
|
soft_limit_bytes |
Nilai minimum penggunaan penyimpanan yang memicu masa tenggang. Jika penggunaan tetap melebihi batas ini setelah masa tenggang berakhir, batas ini akan menjadi batas ketat yang diterapkan. | Nama Tampilan: Byte batas lunak kuota Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Byte Label: accounting_type: Salah satu dari user,
group, atau project.id: ID numerik pengguna, grup, atau project.target: Nama perangkat target Lustre. |
hard_limit_bytes |
Penggunaan penyimpanan maksimum yang diizinkan untuk pengguna, grup, atau project. Penulisan yang melebihi batas ini akan ditolak. | Nama Tampilan: Byte batas tetap kuota Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Byte Label: accounting_type: Salah satu dari user,
group, atau project.id: ID numerik pengguna, grup, atau project.target: Nama perangkat target Lustre. |
used_inodes |
Jumlah total inode (catatan file) yang saat ini digunakan oleh pengguna, grup, atau project. | Nama Tampilan: Kuota yang digunakan inode Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Jumlah Label: accounting_type: Salah satu dari user,
group, atau project.id: ID numerik pengguna, grup, atau project.target: Nama perangkat target Lustre. |
soft_limit_inodes |
Nilai minimum penggunaan inode yang memicu masa tenggang. Jika penggunaan tetap melebihi batas ini setelah masa tenggang berakhir, batas ini akan menjadi batas keras yang diterapkan. | Nama Tampilan: Inode batas lunak kuota Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Jumlah Label: accounting_type: Salah satu dari user,
group, atau project.id: ID numerik pengguna, grup, atau project.target: Nama perangkat target Lustre. |
hard_limit_inodes |
Jumlah maksimum inode yang diizinkan untuk pengguna, grup, atau project. Pembuatan file yang melebihi batas ini akan ditolak. | Nama Tampilan: Inode batas tetap kuota Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Jumlah Label: accounting_type: Salah satu dari user,
group, atau project.id: ID numerik pengguna, grup, atau project.target: Nama perangkat target Lustre. |
Metrik Jobstats
Metrik yang memberikan statistik baca, tulis, dan metadata per JobID, seperti yang dikonfigurasi di klien.
Untuk mengumpulkan metrik ini, gunakan lctl untuk mengonfigurasi parameter jobid_var di
klien Lustre Anda. Untuk mengetahui informasi selengkapnya, lihat
Lustre Jobstats.
Untuk mengonfigurasi klien agar melaporkan ID tertentu (misalnya,
procname_uid), gunakan perintah lctl set_param jobid_var:
lctl set_param jobid_var=procname_uid
Metrik Jobstats dilampirkan ke resource lustre.googleapis.com/Job.
| Metrik | Deskripsi | Detail |
|---|---|---|
read_bytes_total |
Jumlah total byte yang dibaca oleh tugas. |
Nama Tampilan: Byte data yang dibaca menurut tugas Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: Byte Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
write_bytes_total |
Jumlah total byte yang ditulis oleh tugas. |
Nama Tampilan: Byte penulisan data menurut tugas Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: Byte Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
metadata_operations_total |
Total operasi metadata yang dilakukan oleh tugas. |
Nama Tampilan: Operasi metadata menurut tugas Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: operasi Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
read_samples_total |
Jumlah total operasi baca yang dilakukan oleh tugas. |
Nama Tampilan: Operasi baca data menurut tugas Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: operasi Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
write_samples_total |
Jumlah total operasi tulis yang dilakukan oleh tugas. |
Nama Tampilan: Operasi penulisan data menurut tugas Jenis Metrik: KUMULATIF Jenis Nilai: INT64 Unit: operasi Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
read_maximum_size_bytes |
Ukuran maksimum dalam byte operasi baca oleh tugas. |
Nama Tampilan: Ukuran maksimum data yang dibaca menurut tugas Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Byte Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
read_minimum_size_bytes |
Ukuran minimum dalam byte operasi baca oleh tugas. |
Nama Tampilan: Ukuran minimum data yang dibaca menurut tugas Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Byte Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
write_maximum_size_bytes |
Ukuran maksimum dalam byte operasi tulis oleh tugas. |
Nama Tampilan: Ukuran maksimum penulisan data menurut tugas Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Byte Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|
write_minimum_size_bytes |
Ukuran minimum dalam byte operasi tulis oleh tugas. |
Nama Tampilan: Ukuran minimum penulisan data menurut tugas Jenis Metrik: GAUGE Jenis Nilai: INT64 Unit: Byte Label: job_id: JobID yang dikirim oleh klien.component: Jenis target.target: Nama target.instance_id: ID instance Managed Lustre.
|