llm-d

En este documento, se describe cómo tu implementación de Google Kubernetes Engine puede usar Google Cloud Managed Service para Prometheus para recopilar métricas de llm-d. llm-d consta de muchos componentes, incluidas la puerta de enlace de inferencia de GKE y vLLM.

Para obtener información sobre la recopilación de métricas de GKE Inference Gateway y vLLM, consulta los siguientes documentos:

Las instrucciones de estos documentos se aplican solo si usas la colección administrada con Managed Service para Prometheus. Si usas la colección implementada de forma automática, consulta la documentación de llm-d.

Después de configurar GKE Inference Gateway y vLLM, puedes acceder a un panel predefinido en Cloud Monitoring para ver las métricas.

Requisitos previos

Para recopilar métricas desde llm-d a través de Managed Service para Prometheus y la recopilación administrada, tu implementación debe cumplir con los siguientes requisitos:

  • Tu clúster debe ejecutar la versión 1.28.15-gke.2475000 o posterior de Google Kubernetes Engine.
  • Debes ejecutar Managed Service para Prometheus con la colección administrada habilitada. Para obtener más información, consulta Primeros pasos con la recopilación administrada.

También debes cambiar la configuración del recurso PodMonitoring para vLLM. Utilice la siguiente configuración:

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: llm-d-metrics
spec:
  selector:
    matchLabels:
      llm-d.ai/model: ms-pd-llm-d-modelservice
  endpoints:
  - port: 8200
    interval: 10s
    path: /metrics
  targetLabels:
    fromPod:
    - from: llm-d.ai/role
      to: role
    metadata:
    - pod
    - container
    - node
    - top_level_controller_name
    - top_level_controller_type

Ver paneles

La integración de Cloud Monitoring incluye el panel llm-d Prometheus Overview. Los paneles se instalan automáticamente cuando configuras la integración. También puedes ver vistas previas estáticas de los paneles sin instalar la integración.

Para ver un panel instalado, haz lo siguiente:

  1. En la consola de Google Cloud , accede a la página Paneles :

    Acceder a Paneles

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.

  2. Selecciona la pestaña Lista de paneles.
  3. Elige la categoría Integraciones.
  4. Haz clic en el nombre del panel, por ejemplo, llm-d Prometheus Overview.

Para obtener una vista previa estática del panel, haz lo siguiente:

  1. En la consola de Google Cloud , accede a la página Integraciones :

    Acceder a Integraciones

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.

  2. Haz clic en el filtro de la plataforma de implementación Kubernetes Engine.
  3. Ubica la integración de llm-d y haz clic en Ver detalles.
  4. Selecciona la pestaña Paneles.