- 微信
- 复制链接
  
  复制链接到剪贴板

【技术补给站】第10期：分析内部运行机制，教你解决redis性能问题-4008云顶国际网站

华为云社区精选发表于 2021/05/26 14:55:34 2021/05/26

【摘要】聚焦redis的性能分析，思考redis 可以通过哪些机制来提高性能，当性能瓶颈发生的时候，我们又能做出哪些优化策略，最终确保业务系统的稳定运行。

redis是一种键值数据库，有着时延低、性能好、数据结构丰富的特点，常用作缓存、排行榜、计数器、消息队列等，是电商秒杀、聊天系统等业务场景中的“熟客”。

作为一个“缓存中间商”，redis的性能问题至关重要，一旦发生操作延迟问题，很容易引起连锁反应。所以本文聚焦redis的性能分析，从redis的基本概念出发，了解redis是什么，它的运行机制，思考redis可以通过哪些机制来提高性能，当性能瓶颈发生的时候，我们又能做出哪些优化策略，最终确保业务系统的稳定运行。

一个网站总有大量的数据是用户共享的，如果每个用户都去数据库查询，效率就太低了。所以有了新的4008云顶国际网站的解决方案：将用户共享数据缓存到服务器的内存中。

举个例子，应用程序们从mysql查询到的数据，会到redis这里登记，后面再需要用的时候，就先查找redis的缓存，无需返回到mysql查找。一套流程下来，为mysql减轻了不小的负担，网络服务的性能显著提升。

redis堪称数据库届的万金油，哪里需要往哪里搬，这也得益于它有着丰富的数据结构，以及强大的读写性能。

以数据结构为例，redis和其他结构化存储的重要区别便是，它不仅支持字符串，还支持不同类型的抽象数据结构，如列表、映射、集、排序集、hyperloglogs、位图、流和空间索引等。那么redis是如何做到如此“万能”的，它支持的这些数据结构又是如何从底层实现呢？就从非关系型数据库谈起，详细聊了聊这个问题，就像最简单的字符串，redis并未沿袭传统c语言的惯例，而是单独构建了一种简单的动态字符串抽象类型，并充分利用sds实现。

当然，如果你想进一步了解redis系统的设计理念，比如它通过什么机制将数据缓存到内存中，或许会给你一些启发，作者谈到了redis的历史、流行度、设计思想，并通过支持redis的java客户端jedis ，用详尽的代码案例一步步演示了它支持的数据类型使用方法，它的事务特性、集群等等，更为具象地了解redis的特点。

当我们对redis的基本原理了然于胸后，再针对业务场景进行优化时，也能更合理地使用各种redis命令。

redis的最大特点是使用内存来存储数据，当内存超过物理内存的限制后，内存数据会和磁盘产生频繁的交换，最终导致redis性能急剧下降。所以在生产环境中我们通过配置参数maxmemoey来限制使用的内存大小。在中，作者详细解释了2个常见的缓存淘汰算法lru算法和lfu算法，如何删除那些没用的数据。

另一方面，redis为了把内存中的数据持久到磁盘上，也提供了完善的持久化机制，主要包括2种：

rdb：产生一个数据快照文件
aof：实时追加命令的日志文件

但是如果配置不合理，持久化会占用过多内存从而影响性能。举个例子，如果aof的刷盘时机设置为每次写入都刷盘，由于每次写命令都需要写入文件并刷到磁盘中才会返回，当写入量很大时，会增加磁盘io的负担，大大降低redis的写入性能。谈到了这两种持久化机制对redis性能的影响，建议大家针对不同的业务场景选择合适的持久化方式。

在讨论redis性能问题的时候，不得不提的一点是它的单线程结构，这里的单线程指的是执行命令，比如一条命令从客户端到达服务端不会立刻被执行，而是会进入一个队列中等待，每次只会有一条指令被选中执行。详细分析了单线程模型的redis为什么性能如此之高，能达到每秒万级别的处理能力，简单透露两点：纯内存访问、i/o多路复用技术，具体可以阅读文章。而redis的单线程架构，也意味着网络问题会对它的性能产生一定的影响。

另外，当业务规模扩大，单个redis服务无法承载的时候，我们常常会用分布式架构来提高redis的性能，和都讨论了主从模式下的关键功能：哨兵，通过对其源码的理解，详细说明了哨兵的代码实现方式，并学会使用哨兵功能解决主节点的写能力、存储能力限制等等。

除此之外，诸如数据结构的复杂度、网络带宽、操作系统以及硬件本身都会对redis的性能产生影响，它的性能问题几乎涵盖了 cpu、内存、网络、磁盘的方方面面，再此不一一赘述。

综上，我们分析了影响redis性能的一些关键内部机制，比如它的缓存淘汰算法；它的持久化会占用过多内存从而影响性能；它的单线程架构等。通过了解redis的这些内部实现原理，也能进一步帮助大家排查它的性能问题。

下面，我们将给出一些应对redis性能问题的4008云顶国际网站的解决方案。

以常见的缓存问题为例，通常情况下，redis缓存层由于某种原因宕机后，所有的请求会涌向存储层，短时间内的高并发请求可能会导致存储层挂机，称之为“redis雪崩”。有针对性的总结了redis发生缓存穿透、雪崩、击穿情况时，能够有效应对的4008云顶国际网站的解决方案，比如不要给访问频繁的热点数据设置过期时间，从而解决redis实例没有起到缓存层作用的问题。

大key也是影响redis性能的关键因素，如果一个 key 写入的 value 非常大，那么 redis 在分配内存时就会比较耗时。同样的，当删除这个 key 时，释放内存也会比较耗时，这种类型的 key 我们一般称之为大key。在中，作者就针对数据库报错oom来一步步分析大key的问题，先是查看redis集群内存监控指标，确认内存异常分片，然后通过在线&离线工具分析，结果显示大key导致数据大小分布不均。对此作者给出了两个方案：短期是删除查询到的key，长期是对大key进行拆分。

另一个经常被诟病性能问题的是fork， fork是开源redis的一个重要依赖，当 redis 开启了后台 rdb 和 aof rewrite 后，在执行时，它们都需要主进程创建出一个子进程进行数据的持久化，fork就是创建子进程的系统调用函数。

在华为云gaussdb(for redis)服务团队支撑某客户业务上云的过程中，就发现了由fork引发的时延抖动问题，文章一场由fork引发的超时，让我们重新探讨了redis的抖动问题还原了当时的场景，探究了fork对性能的影响，包括业务抖动、内存率利用率降低和实例容量受限。比如，在电商大促、热点事件等业务高峰时发生上述fork，会导致redis阻塞，进而对业务造成雪崩的影响。

团队通过修改日志、系统性排查整改代码中的 fork调用，最后在新版本gaussdb(for redis)中解决了该问题，并清零了内部的fork使用，与原生redis相比，彻底解决了fork的性能隐患。

其实，考虑到业务场景越来越复杂，原生redis出现性能瓶颈难以避免。这时候，最简单粗暴的解决方法就是使用商业版本的redis，一劳永逸解决可能存在的性能问题。

在 gaussdb(for redis)与原生redis集群的性能对比中，就比较了华为云自研redis和原生redis集群在x86架构下的性能测试报告，结果表明gaussdb(for redis)在性能、抗写和存储成本上的优势明显。

进一步从技术角度拆解分析了gaussdb(for redis)如何在存算分离的架构下，实现强一致、秒扩容、超可用、低成本。以强一致为例，redis遇到流量压力进行主从切换时很容易发生数据不同步问题，gaussdb ( for redis)就在存储层（dfv层）去进行强一致的数据同步，而非计算层，这样就避免了任何中间态下的数据的不一致，再也不用担心宕机导致数据丢失。更多的技术细节揭秘，也可以阅读这组专题高斯redis揭秘系列文章，更全面的认识gaussdb ( for redis)。

redis的性能问题，涉及到的技术细节很多，本专题只是列出了一些较为典型的问题，希望读者能够通过上述提及的技术文章，对它有更深入的认识，学会从底层运行机制去思考redis的性能调优。

福利时间到，小编准备了3个小问题，参与互动的小伙伴有机会获得由华为云社区提供的开发者大礼包，任选其一回答即可。