Bonnes pratiques pour Memorystore for Redis Cluster

Cette page fournit des conseils pour utiliser Memorystore pour Redis Cluster de manière optimale. Elle souligne également les problèmes potentiels à éviter.

Bonnes pratiques pour la gestion de la mémoire

Cette section décrit les stratégies de gestion de la mémoire des instances afin que Memorystore pour Redis Cluster fonctionne efficacement pour votre application.

Concepts de gestion de la mémoire

Charge d'écriture : volume et vitesse auxquels vous ajoutez ou mettez à jour des clés sur votre cluster Redis. Votre charge d'écriture peut varier de normale à très élevée en fonction de votre cas d'utilisation de Redis et des modèles d'utilisation de l'application.
Règle d'éviction : Memorystore for Redis Cluster utilise la règle d'éviction volatile-lru. Vous pouvez utiliser des commandes telles que EXPIRE pour définir des expulsions pour les clés.

Surveiller un cluster avec une charge d'écriture normale

Consultez la métrique /cluster/memory/maximum_utilization. Si /cluster/memory/maximum_utilization est à 100 % ou moins, votre cluster Redis fonctionne correctement lorsque vous utilisez une charge d'écriture normale.

Toutefois, si l'utilisation de la mémoire approche les 100 % et que vous prévoyez une augmentation de l'utilisation des données, vous devez augmenter la taille de votre cluster pour faire de la place pour les nouvelles données.

Surveiller un cluster avec une charge d'écriture élevée

Consultez la métrique /cluster/memory/maximum_utilization. En fonction de la gravité de votre charge d'écriture élevée, votre cluster peut rencontrer des problèmes de performances aux seuils suivants :

Des problèmes peuvent survenir en cas de charge d'écriture très élevée si /cluster/memory/maximum_utilization atteint 65 % ou plus.
Les charges d'écriture modérément élevées peuvent poser problème si /cluster/memory/maximum_utilization atteint 85 % ou plus.

Dans ce cas, vous devez augmenter la taille de votre cluster pour améliorer les performances.

Si vous rencontrez des problèmes ou si vous pensez que votre instance a une charge d'écriture élevée, contactez l'assistanceGoogle Cloud .

Scaler les segments

Lorsque vous mettez à l'échelle le nombre de partitions dans une instance, vous devez le faire pendant les périodes de faible charge en écriture. Le scaling pendant les périodes de forte charge d'écriture peut mettre de la pression sur votre instance en raison d'une surcharge de mémoire due à la réplication ou à la migration de slots.

Si votre cas d'utilisation Redis utilise l'éviction de clés, le scaling vers une taille de cluster plus petite peut réduire votre taux de réussite du cache. Dans ce cas, vous n'avez pas à vous inquiéter de perdre des données, car l'éviction de clés est prévue.

Pour les cas d'utilisation de Redis où vous ne souhaitez pas perdre de clés, vous ne devez réduire la taille du cluster que si celui-ci dispose encore de suffisamment d'espace pour vos données. Votre nouveau nombre cible de partitions doit permettre d'allouer au moins 1,5 fois la mémoire utilisée par les données. En d'autres termes, vous devez provisionner suffisamment de partitions pour 1,5 fois la quantité de données de votre cluster. Vous pouvez utiliser la métrique /cluster/memory/total_used_memory pour connaître la quantité de données stockées dans votre instance.

Bonnes pratiques concernant l'utilisation du processeur

En cas de panne zonale inattendue, les ressources de processeur de votre cluster sont réduites en raison de la perte de capacité des nœuds de la zone indisponible. Nous vous recommandons d'utiliser des clusters haute disponibilité. L'utilisation de plusieurs répliques par segment (par opposition à une réplique par segment) fournit des ressources de processeur supplémentaires en cas de panne. Vous pouvez avoir jusqu'à cinq répliques par partition.

De plus, nous vous recommandons de gérer l'utilisation du processeur des nœuds afin qu'ils disposent d'une marge suffisante pour gérer le trafic supplémentaire provenant de la capacité perdue en cas d'indisponibilité zonale inattendue. Vous devez surveiller l'utilisation du processeur pour les nœuds principaux et les répliques à l'aide de la métrique Secondes d'utilisation du processeur du thread principal /cluster/cpu/maximum_utilization.

En fonction du nombre de répliques que vous provisionnez par nœud, nous vous recommandons les cibles d'utilisation du processeur /cluster/cpu/maximum_utilization suivantes :

Pour les instances avec un réplica par nœud, visez une valeur /cluster/cpu/maximum_utilization de 0,5 seconde pour le primaire et de 0,5 seconde pour le réplica.
Pour les instances comportant au moins deux répliques par nœud, visez une valeur /cluster/cpu/maximum_utilization de 0,9 seconde pour la réplique principale et de 0,5 seconde pour chaque réplique.

Si les valeurs de la métrique dépassent ces recommandations, nous vous conseillons d'augmenter le nombre de shards dans votre instance. Si votre instance comporte moins de cinq instances dupliquées, vous pouvez également augmenter leur nombre jusqu'à un maximum de cinq.

Commandes Redis gourmandes en ressources

Nous vous recommandons vivement d'éviter d'utiliser des commandes Redis gourmandes en ressources. L'utilisation de ces commandes peut entraîner les problèmes de performances suivants :

Latence élevée et délais avant expiration des clients
Pression sur la mémoire causée par des commandes qui augmentent l'utilisation de la mémoire
Perte de données lors de la réplication et de la synchronisation des nœuds, car le thread principal Redis est bloqué
Vérifications de l'état, observabilité et réplication affamées

Le tableau suivant liste des exemples de commandes Redis gourmandes en ressources et vous propose des alternatives plus efficaces.

Catégorie	Commande gourmande en ressources	Alternative économe en ressources
Exécuter pour l'ensemble de l'espace de clés	`KEYS`	`SCAN`
Exécuter pour une collection de clés de longueur variable	`LRANGE`	Limitez la taille de la plage que vous utilisez pour une requête.
	`ZRANGE`	Limitez la taille de la plage que vous utilisez pour une requête.
	`HGETALL`	`HSCAN`
	`SMEMBERS`	`SSCAN`
Bloquer l'exécution d'un script	`EVAL`	Assurez-vous que votre script ne s'exécute pas indéfiniment.
Bloquer l'exécution d'un script	`EVALSHA`	Assurez-vous que votre script ne s'exécute pas indéfiniment.
Supprimer des fichiers et des liens	`DELETE`	`UNLINK`
Publier et s'abonner	`PUBLISH`	`SPUBLISH`
Publier et s'abonner	`SUBSCRIBE`	`SSUBSCRIBE`

Bonnes pratiques concernant les clients Redis

Votre application doit utiliser un client Redis compatible avec les clusters lorsqu'elle se connecte à une instance Memorystore pour Redis Cluster. Pour obtenir des exemples de clients compatibles avec les clusters et des exemples de configurations, consultez Exemples de code de la bibliothèque cliente. Votre client doit tenir à jour une carte des emplacements de hachage vers les nœuds correspondants du cluster afin d'envoyer les requêtes aux bons nœuds et d'éviter la surcharge de performances causée par les redirections de cluster.

Mappage des clients

Les clients doivent obtenir une liste complète des emplacements et des nœuds mappés dans les situations suivantes :

Lorsque le client est initialisé, il doit remplir le mappage initial entre les emplacements et les nœuds.
Lorsqu'une redirection MOVED est reçue du serveur, par exemple en cas de basculement lorsque tous les emplacements desservis par l'ancien nœud principal sont repris par la réplique, ou en cas de re-partitionnement lorsque des emplacements sont déplacés du nœud principal source vers le nœud principal cible.
Lorsqu'une erreur CLUSTERDOWN est reçue du serveur ou que les connexions à un serveur particulier expirent de manière persistante.
Lorsqu'une erreur READONLY est reçue du serveur. Cela peut se produire lorsqu'un nœud principal est rétrogradé en réplica.
De plus, les clients doivent actualiser régulièrement la topologie pour rester à jour en cas de modifications et pour en savoir plus sur les changements qui peuvent ne pas entraîner de redirections ni d'erreurs du serveur, par exemple lorsque de nouveaux nœuds de réplique sont ajoutés. Notez que toutes les connexions obsolètes doivent également être fermées lors de l'actualisation de la topologie afin de réduire la nécessité de gérer les connexions ayant échoué lors de l'exécution de la commande.

Découverte du client

La découverte du client se fait généralement en envoyant une commande CLUSTER SLOT, CLUSTER NODE ou CLUSTER SHARDS au serveur Redis. Nous vous recommandons d'utiliser la commande CLUSTER SHARDS. CLUSTER SHARDS remplace la commande CLUSTER SLOTS (obsolète) en fournissant une représentation plus efficace et extensible du cluster.

La taille de la réponse aux commandes de découverte des clients du cluster peut varier en fonction de la taille et de la topologie du cluster. Les clusters plus volumineux avec plus de nœuds génèrent une réponse plus importante. Il est donc important de s'assurer que le nombre de clients effectuant la découverte de la topologie du cluster ne croît pas de manière illimitée.

Ces actualisations de la topologie sont coûteuses sur le serveur Redis, mais elles sont également importantes pour la disponibilité des applications. Il est donc important de s'assurer que chaque client n'effectue qu'une seule requête de découverte à un moment donné (et met en cache le résultat en mémoire), et que le nombre de clients effectuant les requêtes reste limité pour éviter de surcharger le serveur.

Par exemple, lorsque l'application cliente démarre ou perd la connexion au serveur et doit effectuer la découverte du cluster, une erreur courante consiste à ce que l'application cliente effectue plusieurs demandes de reconnexion et de découverte sans ajouter de délai exponentiel lors de la nouvelle tentative. Cela peut rendre le serveur Redis non réactif pendant une longue période, ce qui entraîne une utilisation très élevée du processeur.

Éviter la surcharge de découverte sur Redis

Pour limiter l'impact causé par un afflux soudain de demandes de connexion et de découverte, nous vous recommandons de procéder comme suit :

Implémentez un pool de connexions client de taille finie et réduite pour limiter le nombre de connexions entrantes simultanées provenant de l'application cliente.
Lorsque le client se déconnecte du serveur en raison d'un délai d'attente, réessayez avec un intervalle exponentiel entre les tentatives avec gigue. Cela permet d'éviter que plusieurs clients submergent le serveur en même temps.
Utilisez le point de terminaison de découverte Memorystore for Redis Cluster pour découvrir les clusters. Le point de terminaison de découverte est disponibilité élevée et l'équilibrage de charge est réparti sur tous les nœuds du cluster. De plus, le point de terminaison de découverte tente d'acheminer les requêtes de découverte de cluster vers les nœuds dont la vue de la topologie est la plus à jour.

Bonnes pratiques de persistance

Cette section explique les bonnes pratiques concernant la persistance.

Persistance RDB et ajout d'instances répliquées

Pour obtenir les meilleurs résultats lors de la sauvegarde de votre instance avec des instantanés RDB ou de l'ajout de réplicas à votre instance, suivez les bonnes pratiques suivantes :

Gestion de la mémoire

Les instantanés RDB utilisent un fork de processus et un mécanisme de copie lors de l'écriture pour prendre un instantané des données de nœud. En fonction du modèle d'écritures dans les nœuds, la mémoire utilisée par les nœuds augmente à mesure que les pages concernées par les écritures sont copiées. L'empreinte mémoire peut atteindre le double de la taille des données dans le nœud.

Pour vous assurer que les nœuds disposent de suffisamment de mémoire pour effectuer l'instantané, conservez ou définissez maxmemory à 80 % de la capacité du nœud afin que 20 % soient réservés aux frais généraux. Cette surcharge de mémoire, en plus des instantanés de surveillance, vous aide à gérer votre charge de travail pour que les instantanés soient créés avec succès. De plus, lorsque vous ajoutez des répliques, réduisez le trafic en écriture autant que possible. Pour en savoir plus, consultez Surveiller un cluster avec une charge d'écriture élevée.

Instantanés obsolètes

La récupération de nœuds à partir d'un instantané obsolète peut entraîner des problèmes de performances pour votre application, car elle tente de réconcilier une quantité importante de clés obsolètes ou d'autres modifications apportées à votre base de données, comme un changement de schéma. Si vous craignez de devoir effectuer une récupération à partir d'un instantané obsolète, vous pouvez désactiver la fonctionnalité de persistance RDB. Une fois la persistance réactivée, un instantané est pris au prochain intervalle d'instantané planifié.

Impact des instantanés RDB sur les performances

En fonction de votre modèle de charge de travail, les snapshots RDB peuvent avoir un impact sur les performances de l'instance et augmenter la latence de vos applications. Vous pouvez minimiser l'impact des instantanés RDB sur les performances en planifiant leur exécution pendant les périodes de faible trafic d'instance, si vous acceptez de prendre des instantanés moins fréquemment.

Par exemple, si votre instance enregistre un trafic faible de 1h à 4h du matin, vous pouvez définir l'heure de début sur 3h du matin et l'intervalle sur 24 heures.

Si votre système présente une charge constante et nécessite des instantanés fréquents, vous devez évaluer attentivement l'impact sur les performances et peser les avantages de l'utilisation d'instantanés RDB pour la charge de travail.

Ajouter une instance répliquée

L'ajout d'un réplica nécessite un instantané RDB. Pour en savoir plus sur les instantanés RDB, consultez Gestion de la mémoire.

Quand utiliser un cluster à zone unique

Si vous configurez un cluster pour qu'il n'utilise pas de réplicas, nous vous recommandons d'utiliser un cluster à zone unique. Voici pourquoi :

Coût et performances

Si votre objectif principal est de minimiser les coûts et d'obtenir des performances optimales pour vos clients situés dans la même région, nous vous recommandons de choisir un cluster à zone unique.

Minimiser l'impact d'une indisponibilité

Lorsque vous choisissez un cluster à zone unique, les pannes de zone sont moins susceptibles d'avoir un impact sur votre cluster. En plaçant tous les nœuds dans une seule zone, la probabilité qu'une panne de zone affecte votre serveur passe de 100 % à 33 %. Il y a 33 % de chances que la zone où se trouve votre cluster tombe en panne, contre 100 % de chances que les nœuds situés dans la zone indisponible soient affectés.

Récupération rapide

En cas de panne zonale pour un cluster à une seule zone, Memorystore pour Redis Cluster simplifie la récupération de vos données. Vous pouvez provisionner rapidement un nouveau cluster dans une zone fonctionnelle et rediriger votre application pour minimiser les interruptions d'opérations.

Bonnes pratiques concernant Lettuce

Cette section décrit les bonnes pratiques à suivre pour utiliser Lettuce afin de se connecter à une instance Memorystore pour Redis Cluster.

Mettre à jour les valeurs des paramètres

Lorsque vous utilisez Lettuce, remplacez le paramètre validateClusterNodeMembership par false. Sinon, vous risquez d'obtenir des erreurs unknownPartition lorsque la topologie change.

Activer le protocole TLS (Transport Layer Security)

Cette section explique les avantages en termes de sécurité et les implications en termes de performances de l'utilisation du protocole TLS (Transport Layer Security), ainsi que des recommandations pour son activation.

Avantages de sécurité

En utilisant TLS, vous bénéficiez des avantages de sécurité suivants :

Authentification Identity and Access Management (IAM) : TLS utilise ce type d'authentification pour se protéger contre les attaques par usurpation d'identité du serveur, telles que les attaques de type "man in the middle".
Chiffrement en transit : le chiffrement intégré àGoogle Cloudprotège le trafic au sein du réseau Google au niveau de l'infrastructure. Toutefois, cela implique de faire confiance aux piles hôte et réseau de Google. Bien que ce chiffrement soit transparent et activé par défaut, il n'est pas de bout en bout. En revanche, TLS utilise le chiffrement en transit au niveau de la couche d'application. Ce chiffrement de bout en bout vous offre plus de contrôle sur vos clés et processus de chiffrement.
Protection des jetons d'authentification : si vous utilisez l'authentification IAM, l'activation de TLS minimise le risque d'exposition et de fuite de vos jetons d'authentification.

Implications en termes de performance

TLS a un impact sur les performances des manières suivantes :

Établir des connexions : un client et un serveur ayant établi une session TLS peuvent la reprendre sans répéter le processus gourmand en ressources d'établissement de la connexion entre le client et le serveur. En activant la reprise TLS, vous réduisez la surcharge liée à l'établissement d'une connexion entre le client et le serveur.

Si vous n'établissez pas de reprise TLS, l'établissement de connexions nécessite beaucoup de ressources. Pour les connexions nouvelles et existantes, de nombreuses connexions entre le client et le serveur peuvent entraîner des délais d'expiration de la connexion. Cela peut entraîner un effet boule de neige, car Memorystore pour Redis Cluster tente de rétablir les connexions expirées, ce qui augmente les ressources qu'il utilise pour établir les connexions.
Chiffrer et déchiffrer des données : le chiffrement et le déchiffrement des données impliquent des opérations gourmandes en ressources processeur qui ont un impact à la fois sur le client et sur le serveur. Cela peut réduire la capacité de votre cluster et augmenter sa latence.

Recommandations

Lorsque vous envisagez d'activer TLS, nous vous recommandons d'évaluer vos règles de sécurité en tenant compte des avantages et des inconvénients de TLS. Si vous choisissez d'activer TLS, tenez compte des points suivants :

L'activation de la reprise TLS permet d'atténuer la surcharge liée à l'établissement de connexions. Une connexion entre le client et le serveur n'est requise que pour la connexion initiale. Toutefois, une expansion soudaine de la taille du cluster du client peut entraîner une brève interruption causée par la première handshake complète de chaque nouvel hôte client.
Bien que certaines bibliothèques clientes n'offrent pas de contrôles intégrés pour activer TLS, vous pouvez utiliser du code personnalisé pour intégrer cette fonctionnalité à vos clusters.