Exposer des métriques personnalisées pour les équilibreurs de charge

Cette section explique comment envoyer une ou plusieurs métriques d'un pod ou d'une charge de travail à votre équilibreur de charge.

Ces métriques proviennent du service ou de l'application que vous exécutez. Par exemple, consultez les métriques exposées par le moteur vLLM.

L'équilibreur de charge peut ensuite utiliser ces données avec l'équilibrage de charge basé sur l'utilisation pour équilibrer les charges de travail plus efficacement. Par exemple, vous pouvez utiliser cette fonctionnalité pour surveiller les régions où l'utilisation de la charge de travail est plus importante, puis autoriser l'équilibreur de charge à rediriger le trafic vers la région disposant de plus de ressources disponibles. Dans l'exemple vLLM, gpu_cache_usage_perc est une métrique qui peut être utile pour suivre l'utilisation.

Conditions requises

Voici les exigences concernant les pods :

Les exigences concernant les métriques sont les suivantes.

  • Les métriques doivent être accessibles sur un point de terminaison HTTP.
  • Le format des métriques doit être conforme à la norme Prometheus.
  • Les équilibreurs de charge imposent des restrictions sur les noms de métriques. Par exemple, le nom ne peut pas dépasser 64 caractères. Pour obtenir la liste complète des restrictions, consultez les détails concernant le champ backends[].customMetrics[].name dans la documentation de référence de l'API pour BackendService.

    Si la métrique de votre service ne respecte pas ces restrictions, vous pouvez la renommer à l'aide du champ exportName.

  • Seules les métriques de type "gauge" comprises entre 0 et 1 sont acceptées. La valeur 1 représente une utilisation de 100 %.

  • Les libellés de métriques sont ignorés. Vous ne pouvez donc pas les utiliser pour distinguer les métriques. Assurez-vous que votre charge de travail n'expose pas la même métrique avec plusieurs libellés.

  • Vous pouvez exposer jusqu'à 10 métriques par cluster. D'autres services ont leurs propres limites. Par exemple, consultez les limites et exigences concernant les équilibreurs de charge. Notez qu'un cluster peut utiliser plusieurs équilibreurs de charge.

Équilibrage basé sur l'utilisation (UBB) de GKE basé sur des métriques personnalisées

Vous pouvez utiliser l'équilibrage basé sur l'utilisation (UBB) de GKE pour permettre à l'équilibreur de charge de répartir le trafic en fonction de l'utilisation de vos pods de backend. Au lieu de vous appuyer sur une métrique générique comme le processeur, vous pouvez configurer UBB pour qu'il utilise des métriques personnalisées plus pertinentes pour les performances de votre application.

Lorsque vous utilisez UBB avec des métriques personnalisées dans GKE, les limites suivantes s'appliquent :

  • API Gateway uniquement : vous ne pouvez utiliser UBB avec des métriques personnalisées qu'avec les services que vous exposez à l'aide de l'API Gateway. GKE utilise le contrôleur GKE Gateway pour interagir avec l'API Gateway. Les API Service et Ingress ne sont pas compatibles avec UBB et les métriques personnalisées.
  • Pas de Cloud Service Mesh : vous ne pouvez pas utiliser UBB avec des métriques personnalisées avec Cloud Service Mesh.
  • Équilibreurs de charge non compatibles : vous ne pouvez pas utiliser UBB avec des métriques personnalisées avec les équilibreurs de charge réseau passthrough externes et les équilibreurs de charge réseau proxy externes.

Exposer des métriques pour l'équilibrage de charge

  1. Choisissez une métrique à exposer. Vous pouvez choisir n'importe quelle métrique exposée par votre serveur et qui répond également aux exigences listées dans la section précédente. Cet exemple utilise une métrique personnalisée nommée queue_depth_util.

  2. Ajoutez la ressource personnalisée suivante, en remplaçant les détails spécifiques à votre métrique et à votre pod.

    apiVersion: autoscaling.gke.io/v1beta1
    kind: AutoscalingMetric
    metadata:
      name: NAME
      namespace:NAMESPACE
    spec:
      selector:
        matchLabels:
          name: APP_LABEL_NAME
      endpoints:
      - port: METRIC_PORT
        path: METRIC_PATH
        metrics:
        - name: METRIC
          exportName: METRIC_NEW_NAME
    

    Remplacez les éléments suivants pour qu'ils correspondent à votre charge de travail :

    • NAME : nom de l'objet AutoscalingMetric.
    • NAMESPACE : espace de noms dans lequel se trouvent les pods.
    • APP_LABEL_NAME : libellé utilisé pour le pod.
    • METRIC_PORT : numéro de port.
    • METRIC_PATH : chemin d'accès à la métrique. Vérifiez le chemin d'accès utilisé par votre service ou application. Il s'agit souvent de /metrics.
    • METRIC : nom de la métrique que vous exposez.
    • Facultatif : METRIC_NEW_NAME : vous pouvez utiliser ce champ pour renommer la métrique. Si le nom de la métrique ne respecte pas les restrictions de nom définies par l'équilibreur de charge, utilisez ce champ pour le renommer avec un nom valide.

      Pour obtenir la liste complète des restrictions, consultez les détails concernant le champ backends[].customMetrics[].name dans la documentation de référence de l'API pour BackendService.

  3. Appliquez la ressource à l'aide de la commande suivante :

    kubectl apply -f FILE_NAME.yaml
    

    Remplacez FILE_NAME par le nom du fichier YAML.

    Une fois la ressource personnalisée ajoutée, la métrique est envoyée à l'API Autoscaling. La métrique est lue toutes les quelques secondes et envoyée à l'équilibreur de charge.

  4. Pour utiliser ce signal à des fins d'équilibrage de charge, fournissez un GCPBackendPolicy. Exemple :

    kind: GCPBackendPolicy
    apiVersion: networking.gke.io/v1
    metadata:
      name: my-backend-policy
    spec:
      targetRef:
        group: ""
        kind: Service
        name: store-v1
      default:
        balancingMode: CUSTOM_METRICS
        customMetrics:
        -   name: gke.named_metrics.queue_depth_util
            dryRun: false
    

Notez que les métriques signalées par Prometheus suivent une norme de dénomination différente. Lorsque les métriques sont signalées pour l'équilibrage de charge, l'agent de métriques GKE leur ajoute en interne le préfixe gke.named_metrics. pour respecter les exigences de l'API BackendService.

Pour exposer une deuxième métrique, suivez les mêmes étapes pour créer une autre ressource personnalisée.

Maintenant que vous avez exposé les métriques à l'équilibreur de charge, vous pouvez le configurer pour qu'il les utilise. Pour en savoir plus, consultez Configurer l'équilibreur de charge pour qu'il utilise des métriques personnalisées.

Pour en savoir plus sur l'utilisation de l'équilibreur de charge, consultez Configurer l'équilibrage de charge basé sur l'utilisation pour les services GKE.

Résoudre les problèmes liés aux métriques exposées à l'équilibreur de charge

Pour vérifier que les métriques sont correctement exposées à l'équilibreur de charge, vous pouvez procéder comme suit :

Étapes suivantes