Métriques de surveillance acceptées

Cette page répertorie les métriques Cloud Monitoring disponibles pour Memorystore pour Redis Cluster et décrit ce que chacune mesure.

Métriques Cloud Monitoring

Métriques au niveau du cluster

Ces métriques fournissent une vue d'ensemble de l'état et des performances globales du cluster. Elles sont utiles pour comprendre la capacité et l'utilisation globales du cluster, ainsi que pour identifier les goulots d'étranglement potentiels ou les points à améliorer.

Nom de la métrique	Description
`redis.googleapis.com/cluster/clients/average_connected_clients`	Nombre moyen actuel de connexions client dans le cluster.
`redis.googleapis.com/cluster/clients/maximum_connected_clients`	Nombre maximal actuel de connexions client dans le cluster.
`redis.googleapis.com/cluster/clients/total_connected_clients`	Nombre actuel de connexions client au cluster.
`redis.googleapis.com/cluster/stats/total_connections_received_count`	Nombre total de connexions client au niveau du cluster créées au cours de la dernière minute.
`redis.googleapis.com/cluster/stats/cluster/stats/total_rejected_connections_count`	Nombre de connexions refusées en raison de la limite maxclients.
`redis.googleapis.com/cluster/commandstats/total_usec_count`	Temps total consommé par commande.
`redis.googleapis.com/cluster/commandstats/total_calls_count`	Nombre total d'appels pour cette commande en une minute.
`redis.googleapis.com/cluster/cpu/average_utilization`	Utilisation moyenne du processeur pour le cluster, de 0,0 à 1,0.
`redis.googleapis.com/cluster/cpu/maximum_utilization`	Utilisation maximale du processeur pour le cluster, de 0,0 à 1,0. Cette métrique ne résume que les états `sys_main_thread` et `user_main_thread`. Il n'inclut pas les autres états du processeur (tels que `sys_children` ou `user_children`) disponibles dans la métrique `/cluster/node/cpu/utilization`. Assurez-vous que l'utilisation du processeur ne dépasse pas 0,8 seconde pour le nœud principal et 0,5 seconde pour chaque réplica désigné comme réplica en lecture. Pour en savoir plus, consultez les bonnes pratiques concernant l'utilisation du processeur.
`redis.googleapis.com/cluster/stats/average_expired_keys`	Nombre moyen d'événements d'expiration de clé pour les clés primaires.
`redis.googleapis.com/cluster/stats/maximum_expired_keys`	Nombre maximal d'événements d'expiration de clé pour les clés principales.
`redis.googleapis.com/cluster/stats/total_expired_keys_count`	Nombre total d'événements d'expiration de clé pour les clés principales.
`redis.googleapis.com/cluster/stats/average_evicted_keys`	Nombre moyen de clés évincées en raison de la capacité de mémoire pour les nœuds principaux.
`redis.googleapis.com/cluster/stats/maximum_evicted_keys`	Nombre maximal de clés évincées en raison de la capacité de mémoire sur les nœuds principaux
`redis.googleapis.com/cluster/stats/total_evicted_keys_count`	Nombre de clés évincées en raison de la capacité de mémoire sur les nœuds principaux.
`redis.googleapis.com/cluster/keyspace/total_keys`	Nombre de clés stockées dans le cluster.
`redis.googleapis.com/cluster/stats/average_keyspace_hits`	Nombre moyen de recherches de clés réussies dans le cluster.
`redis.googleapis.com/cluster/stats/maximum_keyspace_hits`	Nombre maximal de recherches de clés réussies dans le cluster.
`redis.googleapis.com/cluster/stats/total_keyspace_hits_count`	Nombre de recherches de clés réussies dans le cluster.
`redis.googleapis.com/cluster/stats/average_keyspace_misses`	Nombre moyen de recherches de clés ayant échoué dans le cluster.
`redis.googleapis.com/cluster/stats/maximum_keyspace_misses`	Nombre maximal de recherches de clés ayant échoué dans le cluster.
`redis.googleapis.com/cluster/stats/total_keyspace_misses_count`	Nombre total de recherches de clés ayant échoué dans le cluster.
`redis.googleapis.com/cluster/memory/average_utilization`	Utilisation moyenne de la mémoire dans le cluster, de 0,0 à 1,0.
`redis.googleapis.com/cluster/memory/maximum_utilization`	Utilisation maximale de la mémoire dans le cluster, de 0,0 à 1,0.
`redis.googleapis.com/cluster/memory/total_used_memory`	Utilisation totale de la mémoire du cluster.
`redis.googleapis.com/cluster/memory/size`	Taille de la mémoire du cluster.
`redis.googleapis.com/cluster/replication/average_ack_lag`	Latence moyenne de confirmation (en secondes) des répliques dans le cluster. La latence de confirmation est un goulot d'étranglement sur le nœud principal d'un cluster. Ce goulot d'étranglement est dû à ses répliques, qui ne peuvent pas suivre le rythme des informations que le nœud principal leur envoie. Dans ce cas, le nœud principal doit attendre l'accusé de réception indiquant que les répliques ont reçu les informations. Cela peut ralentir les commits de transaction et avoir un impact sur les performances du nœud principal.
`redis.googleapis.com/cluster/replication/maximum_ack_lag`	Délai de confirmation maximal (en secondes) des répliques dans le cluster.
`redis.googleapis.com/cluster/replication/average_offset_diff`	Différence moyenne du décalage de confirmation de la réplication (en octets) dans le cluster. La différence du décalage de confirmation de la réplication correspond au nombre d'octets qui n'ont pas été répliqués entre les réplicas et leurs instances principales.
`redis.googleapis.com/cluster/replication/maximum_offset_diff`	Différence maximale de décalage de réplication (en octets) dans le cluster. La différence de décalage de réplication correspond au nombre d'octets qui n'ont pas été répliqués entre une réplique et son instance principale.
`redis.googleapis.com/cluster/stats/total_net_input_bytes_count`	Nombre d'octets réseau entrants reçus par les points de terminaison du cluster.
`redis.googleapis.com/cluster/stats/total_net_output_bytes_count`	Nombre d'octets réseau sortants envoyés depuis les points de terminaison du cluster.

Métriques au niveau des nœuds

Ces métriques fournissent des insights détaillés sur l'état et les performances des nœuds individuels du cluster. Ils sont utiles pour résoudre les problèmes liés à des nœuds spécifiques et optimiser leurs performances.

Nom de la métrique	Description
`redis.googleapis.com/cluster/node/clients/connected_clients`	Nombre de clients connectés au nœud de cluster.
`redis.googleapis.com/cluster/node/clients/blocked_clients`	Nombre de connexions client bloquées par le nœud de cluster.
`redis.googleapis.com/cluster/node/server/uptime`	Mesure le temps d'activité du nœud de cluster.
`redis.googleapis.com/cluster/node/stats/connections_received_count`	Nombre total de connexions client créées au cours de la dernière minute sur le nœud du cluster.
`redis.googleapis.com/cluster/node/stats/rejected_connections_count`	Nombre de connexions refusées en raison de la limite maxclients par le nœud de cluster.
`redis.googleapis.com/cluster/node/commandstats/usec_count`	Temps total consommé par commande dans le nœud du cluster.
`redis.googleapis.com/cluster/node/commandstats/calls_count`	Nombre total d'appels pour cette commande sur le nœud de cluster en une minute.
`redis.googleapis.com/cluster/node/cpu/utilization`	Utilisation du processeur pour le nœud de cluster, de 0,0 à 1,0.
`redis.googleapis.com/cluster/node/stats/expired_keys_count`	Nombre total d'événements d'expiration dans le nœud du cluster.
`redis.googleapis.com/cluster/node/stats/evicted_keys_count`	Nombre total de clés expulsées par le nœud du cluster.
`redis.googleapis.com/cluster/node/keyspace/total_keys`	Nombre de clés stockées dans le nœud du cluster.
`redis.googleapis.com/cluster/node/stats/keyspace_hits_count`	Nombre de recherches de clés réussies dans le nœud de cluster.
`redis.googleapis.com/cluster/node/stats/keyspace_misses_count`	Nombre de recherches de clés ayant échoué dans le nœud de cluster.
`redis.googleapis.com/cluster/node/memory/utilization`	Utilisation de la mémoire dans le nœud du cluster, de 0,0 à 1,0.
`redis.googleapis.com/cluster/node/memory/usage`	Utilisation totale de la mémoire du nœud de cluster.
`redis.googleapis.com/cluster/node/stats/net_input_bytes_count`	Nombre d'octets réseau entrants reçus par le nœud du cluster.
`redis.googleapis.com/cluster/node/stats/net_output_bytes_count`	Nombre d'octets réseau sortants envoyés depuis le nœud du cluster.
`redis.googleapis.com/cluster/node/replication/offset`	Mesure les octets de décalage de réplication du nœud de cluster.
`redis.googleapis.com/cluster/node/server/healthy`	Détermine si un nœud de cluster est disponible et fonctionne correctement.

Métriques de réplication interrégionale

Cette section liste les métriques utilisées pour la réplication interrégionale.

Nom de la métrique	Description
`redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links`	Cette métrique indique le nombre de liens de partition entre les clusters principal et secondaire. Dans un groupe de réplication interrégionale, un cluster principal indique le nombre de liens de réplication interrégionale qu'il possède avec les clusters secondaires du groupe. Pour chaque cluster secondaire, ce nombre devrait être égal au nombre de partitions. Si, de manière inattendue, le nombre tombe en dessous du nombre de partitions, cela indique le nombre de partitions pour lesquelles la réplication entre le réplicateur et le follower a cessé. Dans l'état idéal, cette métrique doit avoir le même nombre que le nombre de shards du cluster principal.
`redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff`	Différence maximale de décalage de réplication entre les partitions principales et secondaires.
`redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff`	Différence moyenne de décalage de réplication entre les partitions principales et secondaires.

Métriques de sauvegarde

Cette section liste les métriques backup et import.

Métriques au niveau du cluster

Nom de la métrique	Description
`redis.googleapis.com/cluster/backup/last_backup_start_time`	Heure de début de la dernière opération de sauvegarde.
`redis.googleapis.com/cluster/backup/last_backup_status`	État de la dernière opération de sauvegarde. Les états sont `1` (succès) et `0` (échec).
`redis.googleapis.com/cluster/backup/last_backup_duration`	Durée de la dernière opération de sauvegarde (en millisecondes).
`redis.googleapis.com/cluster/backup/last_backup_size`	Taille de la dernière sauvegarde (en octets).
`redis.googleapis.com/cluster/import/last_import_start_time`	Heure de début de la dernière opération d'importation.
`redis.googleapis.com/cluster/import/last_import_duration`	Durée de la dernière opération d'importation(en millisecondes).

Métriques de persistance

Cette section liste les métriques de persistance et fournit des exemples de cas d'utilisation pour ces métriques.

Métriques de persistance RDB

Métriques au niveau du cluster

Nom de la métrique	Description
`redis.googleapis.com/cluster/persistence/rdb_saves_count`	Cette métrique indique le nombre cumulé de fois où votre cluster a effectué un instantané RDB (également appelé save). Cette métrique comporte un champ `status_code`. Pour vérifier si un instantané a échoué, vous pouvez filtrer le champ `status_code` pour l'erreur suivante : 3 - INTERNAL_ERROR.
`redis.googleapis.com/cluster/persistence/rdb_save_ages`	Cette métrique indique l'ancienneté de l'instantané de distribution pour tous les nœuds du cluster. Idéalement, la distribution doit présenter des valeurs dont le temps de latence est inférieur (ou égal) à la fréquence de vos instantanés.

Métriques au niveau des nœuds

Nom de la métrique	Description
`redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress`	Cette métrique indique si une sauvegarde BGSAVE RDB est en cours sur le nœud du cluster. TRUE signifie "en cours".
`redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status`	Cette métrique indique si la dernière commande BGSAVE a réussi sur le nœud de cluster. TRUE signifie que l'opération a réussi. Si aucune réécriture en arrière-plan n'a eu lieu, la valeur peut être définie par défaut sur TRUE.
`redis.googleapis.com/cluster/node/persistence/rdb_saves_count`	Cette métrique indique le nombre cumulé d'enregistrements RDB exécutés sur le nœud de cluster.
`redis.googleapis.com/cluster/node/persistence/rdb_last_save_age`	Cette métrique indique le temps écoulé en secondes depuis le dernier instantané réussi.
`redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until`	Cette métrique indique le temps restant, en secondes, avant le prochain instantané.
`redis.googleapis.com/cluster/node/persistence/current_save_keys_total`	Cette métrique indique le nombre de clés dans l'enregistrement RDB actuel en cours d'exécution sur le nœud de cluster.

Métriques de persistance de l'AOF

Métriques au niveau du cluster

Nom de la métrique Description

redis.googleapis.com/cluster/persistence/aof_fsync_lags Cette métrique affiche une distribution du décalage (entre l'écriture des données et la synchronisation du stockage durable) pour tous les nœuds du cluster. Elle n'est émise que pour les clusters avec appendfsync=everysec. Dans l'idéal, vous souhaitez que la distribution présente des valeurs dont le temps de latence est inférieur (ou égal) à la fréquence de synchronisation de votre fichier AOF.

redis.googleapis.com/cluster/persistence/aof_rewrite_count Cette métrique indique le nombre cumulé de fois où un nœud de votre cluster a déclenché une réécriture AOF. Cette métrique comporte un champ status_code. Pour vérifier si les réécritures AOF échouent, vous pouvez filtrer le champ status_code pour l'erreur suivante : 3 - INTERNAL_ERROR.

Nom de la métrique	Description
`redis.googleapis.com/cluster/persistence/aof_fsync_lags`	Cette métrique affiche une distribution du décalage (entre l'écriture des données et la synchronisation du stockage durable) pour tous les nœuds du cluster. Elle n'est émise que pour les clusters avec appendfsync=everysec. Dans l'idéal, vous souhaitez que la distribution présente des valeurs dont le temps de latence est inférieur (ou égal) à la fréquence de synchronisation de votre fichier AOF.
`redis.googleapis.com/cluster/persistence/aof_rewrite_count`	Cette métrique indique le nombre cumulé de fois où un nœud de votre cluster a déclenché une réécriture AOF. Cette métrique comporte un champ `status_code`. Pour vérifier si les réécritures AOF échouent, vous pouvez filtrer le champ `status_code` pour l'erreur suivante : 3 - INTERNAL_ERROR.

Métriques au niveau des nœuds

Nom de la métrique	Description
`redis.googleapis.com/cluster/node/persistence/aof_last_write_status`	Cette métrique indique si la dernière écriture AOF sur le nœud de cluster a réussi. TRUE signifie que l'opération a réussi. Si aucune écriture n'a eu lieu, la valeur peut être définie par défaut sur TRUE.
`redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status`	Cette métrique indique si la dernière opération AOF bgrewrite sur le nœud de cluster a réussi. TRUE signifie que l'opération a réussi. Si aucune réécriture en arrière-plan n'a eu lieu, la valeur peut être définie par défaut sur TRUE.
`redis.googleapis.com/cluster/node/persistence/aof_fsync_lag`	Cette métrique indique le décalage AOF entre la mémoire et le magasin persistant dans le nœud du cluster. Elle ne s'applique qu'aux clusters AOF activés où appendfsync=EVERYSEC.
`redis.googleapis.com/cluster/node/persistence/aof_rewrites_count`	Cette métrique indique le nombre de réécritures AOF dans le nœud de cluster. Pour vérifier si les réécritures AOF échouent, vous pouvez filtrer le champ `status_code` pour l'erreur suivante : 3 - INTERNAL_ERROR.
`redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count`	Cette métrique indique le nombre d'erreurs d'appel fsync() AOF et ne s'applique qu'aux clusters AOF activés où appendfsync=EVERYSEC\|ALWAYS.

Métriques de fidélisation courantes

Métriques applicables aux mécanismes de persistance AOF et RDB.

Métriques au niveau des nœuds

Nom de la métrique	Description
`redis.googleapis.com/cluster/node/persistence/auto_restore_count`	Cette métrique indique le nombre de restaurations à partir du fichier de vidage (AOF ou RDB).

Exemples de cas d'utilisation pour les métriques de persistance

Vérifier si les opérations d'écriture AOF entraînent une latence et une pression sur la mémoire

Supposons que vous détectiez une latence ou une utilisation de la mémoire accrues sur votre cluster ou sur le nœud du cluster. Dans ce cas, vous pouvez vérifier si l'utilisation supplémentaire est liée à la persistance AOF.

Comme vous savez que les opérations de réécriture AOF peuvent déclencher des pics de charge transitoires, vous pouvez inspecter la métrique aof_rewrites_count, qui vous donne le nombre cumulé de réécritures AOF au cours de la durée de vie du cluster ou du nœud du cluster. Supposons que cette métrique vous montre que les augmentations du nombre de réécritures correspondent à des augmentations de la latence. Dans ce cas, vous pouvez résoudre le problème en réduisant le taux d'écriture ou en augmentant le nombre de partitions pour réduire la fréquence des réécritures.

Vérifier si les opérations d'enregistrement RDB entraînent une latence et une pression sur la mémoire

Comme vous savez que les opérations d'enregistrement RDB peuvent déclencher des pics de charge transitoires, vous pouvez inspecter la métrique rdb_saves_count, qui indique le nombre cumulé d'enregistrements RDB au cours de la durée de vie du cluster ou du nœud dans le cluster. Supposons que cette métrique vous montre que les incréments du nombre d'enregistrements RDB correspondent à des augmentations de la latence. Dans ce cas, vous pouvez réduire l'intervalle d'instantané RDB pour diminuer la fréquence des réécritures. Vous pouvez également effectuer un scaling horizontal du cluster pour réduire les niveaux de charge de référence.

Interpréter les métriques pour Memorystore for Redis Cluster

Comme vous pouvez le voir dans la liste ci-dessus, de nombreuses métriques partagent trois catégories : moyenne, maximum et total.

Pour Memorystore pour Redis Cluster, nous fournissons des variantes moyennes et maximales de la même métrique. Vous pouvez donc les utiliser toutes les deux pour identifier les points chauds de cette famille de métriques.

La valeur totale de la métrique est indépendante et fournit des insights distincts qui ne sont pas liés à l'objectif d'identification des points chauds des valeurs moyenne et maximum.

Comprendre les métriques moyennes et maximales

Supposons que vous compariez les valeurs average_keyspace_hits et maximum_keyspace_hits de votre cluster. Plus la différence entre les deux métriques est importante, plus les hits sont concentrés dans votre instance. Dans l'idéal, vous devriez obtenir une valeur proche de average_keyspace_hits ou maximum_keyspace_hits, car cela signifie que les hits sont répartis de manière plus uniforme dans votre instance.

Ce principe s'applique à toutes les métriques qui présentent des variations moyenne et maximale de la même métrique.

Exemple de zone cliquable

Si vous comparez average_keyspace_hits et maximum_keyspace_hits pour tous les shards de votre cluster, la comparaison de ces valeurs indique où se produit le hot spotting. Par exemple, supposons que les fragments d'un cluster à six fragments présentent le nombre de résultats suivant :

Segment 1 : deux hits
Segment 2 : deux résultats
Segment 3 : deux résultats
Segment 4 – 2 hits
Segment 5 – 2 hits
Partition 6 à 8 hits

Dans cet exemple, average_keyspace_hits renvoie la valeur 3 et maximum_keyspace_hits renvoie la valeur 8, ce qui indique que le shard 6 est actif.

Nous fournissons des métriques au niveau des nœuds que vous pouvez utiliser pour identifier les points chauds du cluster.

Métriques de surveillance acceptées Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Métriques Cloud Monitoring

Métriques au niveau du cluster

Métriques au niveau des nœuds

Métriques de réplication interrégionale

Métriques de sauvegarde

Métriques au niveau du cluster

Métriques de persistance

Métriques de persistance RDB

Métriques au niveau du cluster

Métriques au niveau des nœuds

Métriques de persistance de l'AOF

Métriques au niveau du cluster

Métriques au niveau des nœuds

Métriques de fidélisation courantes

Métriques au niveau des nœuds

Exemples de cas d'utilisation pour les métriques de persistance

Vérifier si les opérations d'écriture AOF entraînent une latence et une pression sur la mémoire

Vérifier si les opérations d'enregistrement RDB entraînent une latence et une pression sur la mémoire

Interpréter les métriques pour Memorystore for Redis Cluster

Comprendre les métriques moyennes et maximales

Exemple de zone cliquable

Métriques de surveillance acceptées