Halaman ini membahas cara menjelajahi metrik NVIDIA Data Center GPU Manager (DCGM) yang terkait dengan endpoint Inferensi Vertex AI Anda.
Apa itu DCGM
NVIDIA Data Center GPU Manager (DCGM) adalah serangkaian alat dari NVIDIA yang memungkinkan Anda mengelola dan memantau GPU NVIDIA. Inferensi Vertex AI secara otomatis mengekspor metrik DCGM Vertex AI ke Cloud Monitoring jika endpoint Anda menggunakan GPU yang didukung. Metrik tersebut memberikan tampilan komprehensif tentang pemakaian, performa, dan kondisi GPU.
Prasyarat
Sebelum memulai, pastikan project Anda telah mengaktifkan Cloud Monitoring. Lihat Mengaktifkan Monitoring API untuk mengetahui informasi selengkapnya.
Menggunakan metrik DCGM
Untuk melihat metrik DCGM di Metrics Explorer, lakukan hal berikut:
Buka halaman Metrics Explorer di konsol Google Cloud .
Di bagian Pilih metrik, pilih Target Prometheus.
Di bagian Active metric categories, pilih Vertex.
Di bagian Metrik aktif, pilih metrik yang diinginkan.
Klik Terapkan.
Anda juga dapat membuat kueri metrik menggunakan Grafana, atau Prometheus API atau UI.
Kuota
Metrik DCGM menggunakan kuota Permintaan penyerapan deret waktu per menit dari Cloud Monitoring API. Sebelum mengaktifkan paket metrik, periksa penggunaan puncak terbaru kuota tersebut. Jika sudah mendekati batas kuota tersebut, Anda dapat meminta peningkatan batas kuota.
Metrik DCGM Vertex AI
Nama metrik Cloud Monitoring dalam tabel ini harus diawali dengan
prometheus.googleapis.com/. Awalan tersebut telah dihilangkan dari
entri dalam tabel.
Selain label pada prometheus_target resource yang dimonitor, semua metrik DCGM yang dikumpulkan di Vertex AI memiliki label berikut yang dilampirkan padanya:
Label GPU:
gpu_model: model perangkat GPU, sepertiNVIDIA L4.gpu_uuid: UUID perangkat GPU.gpu_i_id: ID instance GPU Multi-Instance (MIG) NVIDIA.
Label Vertex AI:
-
deployed_model_id: ID model yang di-deploy yang melayani permintaan inferensi. model_display_name: nama tampilan model yang di-deploy.-
replica_id: ID unik yang sesuai dengan replika model yang di-deploy (nama pod). endpoint_id: ID endpoint model.endpoint_display_name: nama tampilan endpoint model.-
product: nama fitur di Vertex AI. Nilai ini selaluOnline Inference.
| Nama metrik PromQL Nama metrik Cloud Monitoring |
|
|---|---|
|
Jenis, Tipe, Unit
Resource yang dimonitor | Deskripsi |
vertex_dcgm_fi_dev_fb_freevertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Penyangga Frame Kosong dalam MB. |
vertex_dcgm_fi_dev_fb_totalvertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Total Frame Buffer GPU dalam MB. |
vertex_dcgm_fi_dev_fb_usedvertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Penyangga Frame yang Digunakan dalam MB. |
vertex_dcgm_fi_dev_gpu_tempvertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Pembacaan suhu saat ini untuk perangkat (dalam °C). |
vertex_dcgm_fi_dev_gpu_utilvertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Penggunaan GPU (dalam %). |
vertex_dcgm_fi_dev_mem_copy_utilvertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Penggunaan memori (dalam %). |
vertex_dcgm_fi_dev_memory_tempvertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Suhu memori untuk perangkat (dalam °C). |
vertex_dcgm_fi_dev_power_usagevertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Penggunaan daya untuk perangkat (dalam Watt). |
vertex_dcgm_fi_dev_sm_clockvertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Frekuensi clock SM (dalam MHz). |
vertex_dcgm_fi_dev_total_energy_consumptionvertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE, DOUBLE, 1
prometheus_target
|
Total konsumsi energi untuk GPU dalam mJ sejak driver terakhir dimuat ulang. |
vertex_dcgm_fi_prof_dram_activevertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Rasio siklus antarmuka memori perangkat aktif mengirim atau menerima data. |
vertex_dcgm_fi_prof_gr_engine_activevertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Rasio waktu saat mesin grafis aktif. |
vertex_dcgm_fi_prof_nvlink_rx_bytesvertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Kecepatan data rx (baca) NvLink aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_nvlink_tx_bytesvertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Kecepatan data tx (transmit) NvLink aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_pcie_rx_bytesvertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Kecepatan data rx (baca) PCIe aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_pcie_tx_bytesvertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Kecepatan data tx (transmit) PCIe aktif dalam byte, termasuk header dan payload. |
vertex_dcgm_fi_prof_pipe_fp16_activevertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Rasio siklus saat saluran fp16 aktif. |
vertex_dcgm_fi_prof_pipe_fp32_activevertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Rasio siklus saat pipeline fp32 aktif. |
vertex_dcgm_fi_prof_pipe_fp64_activevertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Rasio siklus saat saluran fp64 aktif. |
vertex_dcgm_fi_prof_pipe_tensor_activevertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Rasio siklus saat saluran tensor aktif. |
vertex_dcgm_fi_prof_sm_activevertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Rasio siklus yang memiliki minimal 1 warp yang ditetapkan oleh SM. |
GPU yang didukung
Semua GPU NVIDIA didukung, kecuali yang berikut, karena batasan resource:
Langkah berikutnya
- Pelajari lebih lanjut Metric Explorer.