Questo documento descrive come configurare il deployment di Google Kubernetes Engine in modo da poter utilizzare Google Cloud Managed Service per Prometheus per raccogliere metriche da vLLM. Questo documento mostra come:
- Abilita il monitoraggio automatico delle applicazioni per vLLM o configura vLLM manualmente per generare report sulle metriche.
- Accedi a una dashboard predefinita in Cloud Monitoring per visualizzare le metriche.
Queste istruzioni si applicano solo se utilizzi la raccolta gestita con Managed Service per Prometheus. Se utilizzi la raccolta autogestita, consulta la documentazione di vLLM per informazioni sull'installazione.
Queste istruzioni sono fornite come esempio e dovrebbero funzionare nella maggior parte degli ambienti Kubernetes. Se hai difficoltà a installare un'applicazione o un esportatore a causa di norme organizzative o di sicurezza restrittive, ti consigliamo di consultare la documentazione open source per ricevere assistenza.
Per informazioni su vLLM, consulta vLLM. Per informazioni sulla configurazione di vLLM su Google Kubernetes Engine, consulta la guida di GKE per vLLM.
Prerequisiti
Per raccogliere le metriche da vLLM utilizzando Managed Service per Prometheus e la raccolta gestita, il deployment deve soddisfare i seguenti requisiti:
- Il cluster deve eseguire Google Kubernetes Engine versione 1.28.15-gke.2475000 o successive.
- Devi eseguire Managed Service per Prometheus con la raccolta gestita abilitata. Per maggiori informazioni, consulta la guida introduttiva alla raccolta gestita.
- Configura il port forwarding utilizzando il seguente comando:
kubectl -n NAMESPACE_NAME port-forward POD_NAME 8000
- Accedi all'endpoint
localhost:8000/metrics
utilizzando il browser o l'utilitàcurl
in un'altra sessione del terminale.
Utilizzare il monitoraggio automatico delle applicazioni
vLLM supporta l'utilizzo del monitoraggio automatico delle applicazioni. Quando utilizzi il monitoraggio automatico delle applicazioni, Google Kubernetes Engine esegue le seguenti operazioni:
- Rileva le istanze di workload vLLM di cui è stato eseguito il deployment.
- Esegue il deployment di una risorsa PodMonitoring per ogni istanza del workload rilevata.
- Installa le dashboard di Cloud Monitoring per le metriche vLLM.
Per utilizzare il monitoraggio automatico delle applicazioni, devi abilitare la funzionalità sul tuo cluster GKE. Puoi utilizzare la console Google Cloud , Google Cloud CLI (versione 492.0.0 o successive) o l'API GKE. Per saperne di più, vedi Attivare il monitoraggio automatico delle applicazioni.
Definisci una risorsa PodMonitoring
Per l'individuazione dei target, l'operatore Managed Service for Prometheus richiede una risorsa PodMonitoring che corrisponda a vLLM nello stesso spazio dei nomi.
Puoi utilizzare la seguente configurazione PodMonitoring:
Assicurati che i valori dei campiport
e matchLabels
corrispondano a quelli dei pod vLLM che vuoi monitorare.
Per applicare le modifiche alla configurazione da un file locale, esegui questo comando:
kubectl apply -n NAMESPACE_NAME -f FILE_NAME
Puoi anche utilizzare Terraform per gestire le tue configurazioni.
Verificare la configurazione
Puoi utilizzare Metrics Explorer per verificare di aver configurato correttamente vLLM. Potrebbero essere necessari uno o due minuti prima che Cloud Monitoring acquisisca le metriche.
Per verificare che le metriche vengano importate, segui questi passaggi:
-
Nella console Google Cloud , vai alla pagina leaderboard Esplora metriche:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Nella barra degli strumenti del riquadro del generatore di query, seleziona il pulsante il cui nome è code MQL o code PromQL.
- Verifica che PromQL sia selezionato nel pulsante di attivazione/disattivazione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti che ti consente di formattare la query.
- Inserisci ed esegui la seguente query:
up{job="vllm", cluster="CLUSTER_NAME", namespace="NAMESPACE_NAME"}
Visualizza dashboard
L'integrazione di Cloud Monitoring include la dashboard Panoramica di vLLM Prometheus. Le dashboard vengono installate automaticamente quando configuri l'integrazione. Puoi anche visualizzare anteprime statiche delle dashboard senza installare l'integrazione.
Per visualizzare una dashboard installata:
-
Nella console Google Cloud , vai alla pagina
Dashboard:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Seleziona la scheda Elenco dashboard.
- Scegli la categoria Integrazioni.
- Fai clic sul nome della dashboard, ad esempio vLLM Prometheus Overview.
Per visualizzare un'anteprima statica della dashboard:
-
Nella console Google Cloud , vai alla pagina
Integrazioni:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoring.
- Fai clic sul filtro della piattaforma di deployment Kubernetes Engine.
- Individua l'integrazione vLLM e fai clic su Visualizza dettagli.
- Seleziona la scheda Dashboard.
Risoluzione dei problemi
Per informazioni sulla risoluzione dei problemi di importazione delle metriche, vedi Problemi di raccolta dagli esportatori in Risoluzione dei problemi lato importazione.