llm-d

Neste documento, descrevemos como a implantação do Google Kubernetes Engine pode usar o Google Cloud Managed Service para Prometheus a fim de coletar métricas do llm-d. O llm-d consiste em muitos componentes, incluindo o GKE Inference Gateway e o vLLM.

Para informações sobre como coletar métricas do GKE Inference Gateway e do vLLM, consulte os seguintes documentos:

As instruções nesses documentos se aplicam somente se você estiver usando a coleta gerenciada com o Managed Service para Prometheus. Se você estiver usando a coleta autoimplantada, consulte a documentação do llm-d.

Depois de configurar o GKE Inference Gateway e o vLLM, você pode acessar um painel predefinido no Cloud Monitoring para conferir as métricas.

Pré-requisitos

Para coletar métricas do llm-d usando o Managed Service para Prometheus e a coleta gerenciada, sua implantação precisa atender aos seguintes requisitos:

  • Seu cluster precisa executar a versão 1.28.15-gke.2475000 ou posterior do Google Kubernetes Engine.
  • É necessário executar o Managed Service para Prometheus com a coleta gerenciada ativada. Para mais informações, consulte Começar a usar a coleta gerenciada.

Também é necessário mudar a configuração do recurso PodMonitoring para vLLM. Use a configuração a seguir:

apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: llm-d-metrics
spec:
  selector:
    matchLabels:
      llm-d.ai/model: ms-pd-llm-d-modelservice
  endpoints:
  - port: 8200
    interval: 10s
    path: /metrics
  targetLabels:
    fromPod:
    - from: llm-d.ai/role
      to: role
    metadata:
    - pod
    - container
    - node
    - top_level_controller_name
    - top_level_controller_type

Ver painéis

A integração com o Cloud Monitoring inclui o painel Visão geral do llm-d Prometheus. Os painéis são instalados automaticamente ao configurar a integração. Também é possível visualizar visualizações estáticas de painéis sem instalar a integração.

Para ver um painel instalado, faça o seguinte:

  1. No console Google Cloud , acesse a página  Painéis:

    Acesse Painéis

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Selecione a guia Lista de painéis.
  3. Escolha a categoria Integrações.
  4. Clique no nome do painel, por exemplo, Visão geral do llm-d Prometheus.

Para acessar uma visualização estática do painel, faça o seguinte:

  1. No console do Google Cloud , acesse a página  Integrações:

    Acessar Integrações

    Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

  2. Clique no filtro de plataforma de implantação do Kubernetes Engine.
  3. Localize a integração llm-d e clique em Visualizar detalhes.
  4. Selecione a guia Painéis.