高可用性和副本

本页介绍了 Memorystore for Valkey 的架构如何支持和提供高可用性 (HA)。本页还介绍了有助于提高实例性能和稳定性的建议配置。

高可用性

Memorystore for Valkey 基于高可用性架构构建,您的客户端可以直接访问托管的 Memorystore for Valkey 节点。您的客户端可以通过连接到各个端点来执行此操作,如 连接到 Memorystore for Valkey 实例 中所述。

直接连接到分片具有以下优势:

  • 直接连接可避免中间跃点,从而最大限度地缩短客户端与 Valkey 节点之间的往返时间(客户端延迟时间)。

  • 在启用集群模式的情况下,直接连接可避免任何单点故障,因为每个分片都设计为独立失败。例如,如果来自多个客户端的流量使某个槽(键空间块)过载,则分片故障会将影响限制为负责为该槽提供服务的分片。

我们建议您创建高可用性多可用区实例,而不是单可用区实例,因为前者具有更好的可靠性。不过,如果您选择预配没有副本的实例,我们建议您选择单可用区实例。如需了解详情,请参阅何时使用单可用区实例

如需为实例启用高可用性,您必须为每个分片预配至少 1 个副本节点。您可以在创建实例时执行此操作,也可以将副本数扩缩为每个分片至少 1 个副本。副本可在计划内维护和意外分片故障期间提供自动故障切换

您应按照客户端最佳实践中的指南配置客户端。使用建议的最佳实践可让客户端自动处理实例的以下项,而不会出现任何停机时间:

  • 角色(自动故障切换)

  • 端点(节点替换)

  • 与启用集群模式相关的槽分配更改(消费者横向扩容和缩容)

副本

高可用性 Memorystore for Valkey 实例是一种区域级资源。Memorystore for Valkey 会将分片的主虚拟机和副本虚拟机分布在多个可用区中,以防可用区服务中断。Memorystore for Valkey 支持每个节点具有 0-5 个副本的实例。

您可以使用副本来提高读取吞吐量,但可能会导致数据过时。

  • 启用集群模式 :使用 READONLY 命令建立连接,以便客户端可以从副本读取数据。
  • 停用集群模式:连接到读取器端点以连接到任何可用的 副本。

启用集群模式的实例形状

下图说明了启用集群模式的实例的形状:

具有三个分片且每个节点零个副本的实例形状

一个未设置副本且节点均匀分布在三个可用区中的 Memorystore for Valkey Cluster Mode Enabled 实例。

具有三个分片且每个节点一个副本的实例形状

一个 Memorystore for Valkey 集群模式已启用实例,每个节点有一个副本,节点均匀分布在三个可用区中。

具有三个分片且每个节点多个副本的实例形状

一个 Memorystore for Valkey 集群模式已启用实例,每个节点有多个副本,节点均匀分布在三个可用区中。

停用集群模式的实例形状

下图说明了停用集群模式的实例的形状:

具有多个副本的实例形状

一个 Memorystore for Valkey 集群模式已停用的实例,具有多个副本和节点,均匀分布在三个可用区中。

自动故障切换

分片内的自动故障切换可能是由于维护或主节点意外故障而发生的。在故障切换期间,副本会升级为主实例。您可以明确配置副本。该服务还可以在内部维护期间临时预配额外的副本,以避免任何停机时间。

自动故障切换可防止在维护更新期间丢失数据。如需详细了解维护期间的自动故障切换行为,请参阅维护期间的自动故障切换行为

故障切换和节点修复时长

对于计划外事件(例如主节点进程崩溃或硬件故障),自动故障切换可能需要数十秒的时间。在此期间,系统会检测到故障,并选择一个副本作为新的主实例。

对于服务替换失败的节点,节点修复可能需要几分钟的时间。所有主节点和副本节点都是如此。对于非高可用性实例(未预配副本),修复失败的主节点也需要几分钟的时间。

计划外故障切换期间的客户端行为

客户端连接可能会根据故障的性质重置。自动恢复后,应使用指数退避算法重试连接,以避免主节点和副本节点过载。

使用副本提高读取吞吐量的客户端应做好准备,在失败的节点自动替换之前,容量会暂时降低。

丢失的写入

在因意外故障而导致的故障切换期间,由于 Valkey 复制协议的异步特性,已确认的写入可能会丢失。

客户端应用可以利用 Valkey WAIT 命令来提高实际数据安全性。

单可用区服务中断对键空间的影响

本部分介绍了单可用区服务中断对 Memorystore for Valkey 实例的影响。

多可用区实例

  • 高可用性实例 :如果某个可用区发生服务中断,则整个键空间可用于读取和写入,但由于某些读取副本不可用,因此读取容量会降低。我们强烈建议您超额预配集群容量,以便实例在极少数情况下发生单可用区服务中断时具有足够的读取容量。服务中断结束后,受影响可用区中的副本会恢复,并且集群的读取容量会恢复到其配置的值。如需了解详情,请参阅构建可伸缩且可靠的应用时应遵循的模式

  • 非高可用性实例(无副本) :如果某个可用区发生服务中断,则在该可用区中预配的键空间部分会进行数据刷新,并且在服务中断期间无法进行写入或读取。服务中断结束后,受影响可用区中的主实例会恢复,并且集群的容量会恢复到其配置的值。

单可用区实例

  • 高可用性和非高可用性实例 :如果实例预配所在的可用区发生服务中断,则集群不可用,并且数据会被刷新。如果其他可用区发生服务中断,则集群会继续处理读取和写入请求。

最佳实践

本部分介绍了高可用性和副本的最佳实践。

添加副本

添加副本需要 RDB 快照。RDB 快照使用进程 fork 和 “写入时复制”机制来拍摄节点数据的 快照。根据写入节点的模式,节点的已用内存会随着写入所触及的页面的复制而增长。内存占用量可能高达节点中数据大小的两倍。

为确保节点有足够的内存来完成快照,请将或 设置 maxmemory 保留为节点容量的 80%,以便为开销预留 20%。除了监控快照之外,此内存开销还有助于您管理工作负载以成功拍摄快照。此外,在添加副本时,请尽可能降低写入流量。如需了解详情,请参阅监控实例的内存用量