Melihat metrik DCGM Inferensi Vertex AI

Halaman ini membahas cara menjelajahi metrik NVIDIA Data Center GPU Manager (DCGM) yang terkait dengan endpoint Inferensi Vertex AI Anda.

Apa itu DCGM

NVIDIA Data Center GPU Manager (DCGM) adalah serangkaian alat dari NVIDIA yang memungkinkan Anda mengelola dan memantau GPU NVIDIA. Inferensi Vertex AI secara otomatis mengekspor metrik DCGM Vertex AI ke Cloud Monitoring jika endpoint Anda menggunakan GPU yang didukung. Metrik tersebut memberikan tampilan komprehensif tentang pemakaian, performa, dan kondisi GPU.

Prasyarat

Sebelum memulai, pastikan project Anda telah mengaktifkan Cloud Monitoring. Lihat Mengaktifkan Monitoring API untuk mengetahui informasi selengkapnya.

Menggunakan metrik DCGM

Untuk melihat metrik DCGM di Metrics Explorer, lakukan hal berikut:

Buka halaman Metrics Explorer di konsol Google Cloud .

Buka Metrics Explorer
Di bagian Pilih metrik, pilih Target Prometheus.
Di bagian Active metric categories, pilih Vertex.
Di bagian Metrik aktif, pilih metrik yang diinginkan.
Klik Terapkan.

Anda juga dapat membuat kueri metrik menggunakan Grafana, atau Prometheus API atau UI.

Kuota

Metrik DCGM menggunakan kuota Permintaan penyerapan deret waktu per menit dari Cloud Monitoring API. Sebelum mengaktifkan paket metrik, periksa penggunaan puncak terbaru kuota tersebut. Jika sudah mendekati batas kuota tersebut, Anda dapat meminta peningkatan batas kuota.

Metrik DCGM Vertex AI

Nama metrik Cloud Monitoring dalam tabel ini harus diawali dengan prometheus.googleapis.com/. Awalan tersebut telah dihilangkan dari entri dalam tabel.

Selain label pada prometheus_target resource yang dimonitor, semua metrik DCGM yang dikumpulkan di Vertex AI memiliki label berikut yang dilampirkan padanya:

Label GPU:

gpu_model: model perangkat GPU, seperti NVIDIA L4.
gpu_uuid: UUID perangkat GPU.
gpu_i_id: ID instance GPU Multi-Instance (MIG) NVIDIA.

Label Vertex AI:

deployed_model_id: ID model yang di-deploy yang melayani permintaan inferensi.
model_display_name: nama tampilan model yang di-deploy.
replica_id: ID unik yang sesuai dengan replika model yang di-deploy (nama pod).
endpoint_id: ID endpoint model.
endpoint_display_name: nama tampilan endpoint model.
product: nama fitur di Vertex AI. Nilai ini selalu Online Inference.

Nama metrik PromQL Nama metrik Cloud Monitoring
Jenis, Tipe, Unit Resource yang dimonitor	Deskripsi
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Penyangga Frame Kosong dalam MB.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Total Frame Buffer GPU dalam MB.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Penyangga Frame yang Digunakan dalam MB.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Pembacaan suhu saat ini untuk perangkat (dalam °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Penggunaan GPU (dalam %).
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Penggunaan memori (dalam %).
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Suhu memori untuk perangkat (dalam °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Penggunaan daya untuk perangkat (dalam Watt).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Frekuensi clock SM (dalam MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Total konsumsi energi untuk GPU dalam mJ sejak driver terakhir dimuat ulang.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Rasio siklus antarmuka memori perangkat aktif mengirim atau menerima data.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Rasio waktu saat mesin grafis aktif.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Kecepatan data rx (baca) NvLink aktif dalam byte, termasuk header dan payload.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Kecepatan data tx (transmit) NvLink aktif dalam byte, termasuk header dan payload.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Kecepatan data rx (baca) PCIe aktif dalam byte, termasuk header dan payload.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Kecepatan data tx (transmit) PCIe aktif dalam byte, termasuk header dan payload.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Rasio siklus saat saluran fp16 aktif.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Rasio siklus saat pipeline fp32 aktif.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Rasio siklus saat saluran fp64 aktif.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Rasio siklus saat saluran tensor aktif.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Rasio siklus yang memiliki minimal 1 warp yang ditetapkan oleh SM.

GPU yang didukung

Semua GPU NVIDIA didukung, kecuali yang berikut, karena batasan resource:

Langkah berikutnya

Pelajari lebih lanjut Metric Explorer.

Melihat metrik DCGM Inferensi Vertex AI Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.