Surveiller les instances et les opérations

Cloud Monitoring collecte et stocke automatiquement des informations sur votre instance Managed Lustre.

Ce document fournit une présentation détaillée des métriques disponibles pour surveiller vos instances Managed Lustre sur Google Cloud. Ces métriques vous aident à comprendre les performances, la capacité et l'état de vos systèmes de fichiers Lustre gérés. Vous pouvez ainsi identifier les goulots d'étranglement, résoudre les problèmes et optimiser l'utilisation des ressources.

Vous pouvez utiliser ces métriques dans Cloud Monitoring pour créer des tableaux de bord personnalisés, configurer des alertes et obtenir des insights plus approfondis sur le comportement de votre instance Managed Lustre.

Cloud Monitoring est automatiquement activé pour Managed Lustre. La collecte de données et l'affichage des métriques dans la consoleGoogle Cloud sont sans frais. Les appels d'API peuvent entraîner des frais. Pour en savoir plus, consultez la page Tarifs de Cloud Monitoring.

Rôles IAM requis

Les rôles suivants sont requis :

Lecteur Monitoring (roles/monitoring.viewer) ou autorisations équivalentes pour afficher les métriques dans Cloud Monitoring.
Éditeur Monitoring (roles/monitoring.editor) ou autorisations équivalentes pour configurer les alertes.

Découvrez comment attribuer un rôle IAM.

Afficher les métriques

Les métriques Cloud Monitoring sont disponibles à deux endroits dans la consoleGoogle Cloud :

La page de détails de l'instance Managed Lustre affiche les métriques disponibles. En plus des métriques listées ci-dessous, il calcule la bande passante des octets copiés et le taux d'objets copiés.
La page Cloud Monitoring propose plusieurs options de graphiques et de personnalisation.

Afficher les métriques sur la page de détails de l'instance

Pour afficher les métriques d'une instance spécifique :

Accédez à la page Instances de la console Google Cloud .

Accéder à la page "Instances"
Cliquez sur l'instance pour laquelle afficher les métriques. La page Détails de l'instance s'affiche.
Cliquez sur l'onglet Surveillance. Le tableau de bord par défaut s'affiche.

Afficher les métriques dans Cloud Monitoring

Pour afficher les métriques Managed Lustre dans Cloud Monitoring, procédez comme suit :

Accédez à la page Explorateur de métriques dans la console Google Cloud .

Accéder à Monitoring : Explorateur de métriques
Suivez les instructions de la section Créer des graphiques avec l'explorateur de métriques pour sélectionner et afficher vos métriques.

Configurer des alertes

Vous pouvez configurer des règles d'alerte dans Cloud Monitoring pour recevoir une notification lorsque votre système de fichiers Managed Lustre remplit des conditions spécifiques, par exemple lorsqu'il dépasse la capacité de stockage ou les limites de débit.

Prérequis

Pour créer des règles d'alerte, vous devez disposer du rôle IAM Éditeur Monitoring (roles/monitoring.editor) sur le projet.

Créer une règle d'alerte

Pour configurer une alerte, définissez une condition à l'aide d'une métrique ou d'une requête PromQL, puis configurez les canaux de notification.

Dans la console Google Cloud , accédez à la page Alertes de la console Google Cloud .

Accéder à Monitoring > Alertes
Cliquez sur + Créer une règle.
Sélectionnez Générateur et choisissez votre métrique, ou sélectionnez Éditeur de code pour saisir une requête avec PromQL. Dans le sélecteur de métriques, les métriques Managed Lustre se trouvent sous les ressources Instance Lustre et Emplacement Lustre.
Configurez la logique de votre déclencheur, puis définissez vos canaux de notification et vos paramètres de notification.
Cliquez sur Créer une règle.

Pour en savoir plus sur la création de déclencheurs et d'autres options, consultez les pages suivantes :

Exemple : Créer une alerte de capacité de stockage

L'exemple suivant montre comment créer une alerte qui se déclenche lorsque votre instance Managed Lustre dépasse 80 % de sa capacité provisionnée.

Dans la console Google Cloud , accédez à la page Alertes de la console Google Cloud .

Accéder à Monitoring > Alertes
Cliquez sur + Créer une règle.
Sélectionnez Éditeur de code.
Dans l'éditeur de requête, collez la requête PromQL suivante :
```
(
  sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
  -
  sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
)
/
sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
> 0.8
```
Cette requête calcule le ratio d'utilisation pour toutes les instances : (Total - Available) / Total. La valeur 0.8 représente le nombre total d'octets atteignant 80 % d'utilisation. Pour recevoir une alerte à 90 %, remplacez cette valeur par 0.9.
Cliquez sur Exécuter la requête pour vérifier la syntaxe et afficher un graphique du taux d'utilisation actuel.
Cliquez sur Suivant, puis configurez le déclencheur sur À chaque infraction de série temporelle.

Cliquez sur Suivant. Dans la section Documentation, ajoutez les actions recommandées pour résoudre le problème de capacité. Exemple :

## Action Required: Lustre Capacity Warning
The Managed Lustre instance is exceeding 80% capacity usage.

**Metric:** Usage Ratio > 0.8
**Severity:** Warning

**Recommended Actions:**
1. Check the instance details in the Google Cloud console.
2. Verify if this is expected data growth or a runaway process.
3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
4. Failure to address this may result in "No Space Left on Device" errors for client applications.

Créer une règle d'alerte avec gcloud

Vous pouvez créer des règles d'alerte à l'aide de la Google Cloud CLI. Notez que vous devrez modifier l'alerte dans la console Google Cloud ultérieurement pour activer des canaux de notification spécifiques.

L'exemple suivant crée une alerte de capacité de 80 % à l'aide de gcloud :

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Détails de la métrique

Les métriques suivantes sont disponibles pour les instances Managed Lustre. Chaque métrique est identifiée par son type (par exemple, lustre.googleapis.com/instance/available_bytes), possède un nom à afficher, une description et des libellés spécifiques qui fournissent un contexte supplémentaire.

Les données sont échantillonnées toutes les 60 secondes. Après échantillonnage, les données ne sont pas visibles pendant un délai pouvant atteindre 180 secondes.

Métriques de capacité de stockage

Métriques liées à l'espace de stockage disponible et provisionné sur votre système de fichiers Lustre.

Pour les libellés de métriques, la valeur de target utilise le format <fsname>-<TYPE><HEXA>, où <HEXA> est l'index basé sur zéro de la cible en hexadécimal. Par exemple, si le nom de votre système de fichiers est filesys, le 43e OST est filesys-OST002a et le 4e MDT est filesys-MDT0003.

Métrique	Description	Détails
`available_bytes`	Nombre d'octets d'espace de stockage pour une cible de stockage d'objets (OST) ou une cible de métadonnées (MDT) donnée, disponible pour les utilisateurs non root.	Nom à afficher : octets disponibles Type de métrique : GAUGE Type de valeur : INT64 Unité : octets Libellés : `component` : type de cible : `ost`, `mdt` ou `mgt`. `target` : nom de la cible.
`capacity_bytes`	Nombre d'octets provisionnés pour la cible donnée. L'espace total de données ou de métadonnées utilisable du cluster pour une instance peut être obtenu en additionnant la capacité de toutes les cibles pour un type de cible donné.	Nom à afficher : capacité en octets Type de métrique : GAUGE Type de valeur : INT64 Unité : octets Libellés : `component` : type de cible : `ost`, `mdt` ou `mgt`. `target` : nom de la cible.
`free_bytes`	Nombre d'octets d'espace de stockage pour un OST ou un MDT donné, disponible pour les utilisateurs root.	Nom à afficher : octets libres Type de métrique : GAUGE Type de valeur : INT64 Unité : octets Libellés : `component` : type de cible : `ost`, `mdt` ou `mgt`. `target` : nom de la cible.

Métriques d'inode (objet)

Métriques liées au nombre d'inodes (objets) disponibles et à la capacité maximale.

Métrique	Description	Détails
`inodes_free`	Nombre d'inœuds (objets) disponibles sur la cible donnée.	Nom à afficher : inodes libres Type de métrique : GAUGE Type de valeur : INT64 Unité : inodes Libellés : `component` : type de cible. `target` : nom de la cible.
`inodes_maximum`	Nombre maximal d'inodes (objets) que la cible peut contenir.	Nom à afficher : nombre maximal d'inodes Type de métrique : GAUGE Type de valeur : INT64 Unité : inodes Libellés : `component` : type de cible. `target` : nom de la cible.

Métriques de performances d'E/S

Métriques fournissant des informations sur les taux de transfert de données et la latence des opérations.

Latence des opérations

Métrique	Description	Détails
`io_time_milliseconds_total`	Nombre d'opérations de lecture ou d'écriture dont la latence se situe dans les plages de latence par bucket.	Nom à afficher : latence de l'opération Type de métrique : CUMULATIVE Type de valeur : INT64 Unité : opérations Libellés : `component` : type de cible. `operation` : type d'opération. `size` : plage de latence par bucket. Par exemple, 512 inclut le nombre d'opérations qui ont duré entre 512 et 1 024 millisecondes. `target` : nom de la cible.
`read_bytes_total`	Nombre d'octets de données lus à partir de l'OST spécifié.	Nom à afficher : octets de données lus Type de métrique : CUMULATIVE Type de valeur : INT64 Unité : octets Libellés : `component` : type de cible, toujours `ost`. `operation` : type d'opération : `read`. `target` : nom de la cible.
`read_samples_total`	Nombre d'opérations de lecture effectuées sur l'OST donné.	Nom à afficher : opérations de lecture de données Type de métrique : CUMULATIVE Type de valeur : INT64 Unité : opérations Libellés : `component` : type de cible, toujours `ost`. `operation` : type d'opération : `read`. `target` : nom de la cible.
`write_bytes_total`	Nombre d'octets de données écrits dans l'OST spécifié.	Nom à afficher : octets écrits dans les données Type de métrique : CUMULATIVE Type de valeur : INT64 Unité : octets Libellés : `component` : type de cible, toujours `ost`. `operation` : type d'opération : `write`. `target` : nom de la cible.
`write_samples_total`	Nombre d'opérations d'écriture effectuées sur l'OST donné.	Nom à afficher : opérations d'écriture de données Genre de métrique : CUMULATIVE Type de valeur : INT64 Unité : opérations Libellés : `component` : type de cible, toujours `ost`. `operation` : type d'opération : `write`. `target` : nom de la cible.

Métriques sur les connexions client

Métriques permettant de comprendre la connectivité des clients.

Clients connectés

Métrique	Description	Détails
`connected_clients`	Nombre de clients actuellement connectés au MDT spécifié.	Nom à afficher : clients connectés Type de métrique : GAUGE Type de valeur : INT64 Unité : clients Libellés : `component` : type de cible. Il s'agit toujours de `mdt`. `target` : nom du MDT.

Surveiller les instances et les opérations Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.