华为云企业级redis揭秘第六期:feed流场景中的应用-4008云顶国际网站
【最新活动】企业级redis专场热销中!首月免费,包年仅需4折!
gaussdb(for redis)(下文简称高斯redis),是华为自研的强一致、持久化nosql数据库,兼容redis5.0协议。
在互联网时代,我们日常生活充斥着feed流,微信朋友圈、微博、抖音以及头条等等都在使用feed流,将我们关注的好友或感兴趣的内容及时推送给我们,使我们沉沦其中无法自拔,带来商业价值的提升。接下来将和大家一起探讨常见的feed流系统包含的概念、架构和挑战以及如何使用高斯redis设计一个feed流系统。
feed流系统从形式上是feed生成者将生产的feed经过存储分发系统传递给feed消费者,最终以某种展现形式。
- feed:单次推送的内容。 一条微博就是一个feed。
- feed流:由连续的feed组成的信息流。
- 展现形式:展示形式目前主要有timeline和rank。比如微博以timeline展示。头条客户端主要以推荐rank来进行展示。
- feed生产者:对于微博就是每个用户,针对头条就是推荐算法。
- feed消费者:接收feed通知的主体。
- 同步存储系统:这部分一般又可以分为三部分(具体实现会略有差异)。
6.1 内容存储模块:这部分关心feed原始内容如何存储。如你发的一条微博。
6.2 关联关系存储模块:对于微博存储的是用户的关注人和被关注人,对于头条存储的是人群(根据用户画像对所有用户进行分类)
6.3 信箱模块:一般又可叫做消息传递模块,feed消息存储到信箱,才能最终形成feed流。
通过上述的概念介绍,我们来看feed如何从feed生产者最终流转到feed消费者。
feed生产者创作一条内容后发到server端,server端先将消息内容存储到消息存储模块,接着根据信箱模块的设计查询关系存储库将通知信息写入信箱模块, feed消费者通过查询信箱获取及时消息。
消息存储模块:
feed内容一般都是半结构化数据,数据量大,需要持久化内容,逻辑上就是一个kv系统,id到内容的映射关系。
关系存储模块:
关联关系会发生新增和删除,是一个变长的集合,需要能够支持快速的增删查动作,一般不需要支持join等复杂操作。因此nosql数据库比较适合这类数据的存储。
信箱模块:
说到信箱模块一般大家都会讨论是采用推模式、拉模式或推拉模式结合方式。在华为云pb级数据库gaussdb(for redis)揭秘第五期:高斯 redis 在im场景中的应用 也有过讨论。
推模式,在查询完关联关系后,将feed通知写入到每个feed消费者的收件箱中,feed消费者查询自己的收件箱就能获取完整的feed流,通知会写入每个需要通知的人收件箱,写会放大。
拉模式,将feed通知写入自己的发件箱,feed消费者先查询关系库,然后从所有关注人的发件箱中获取feed消息后合并展示,因此收件箱被读次数和被关注人数目有关,读会放大。
推拉模式结合:针对大多数用户的写入用推模式,特定用户采用拉模式,feed消费者读取时分别读取自己的收件箱和特定用户的发件箱,合并之后展示。
究竟选用哪种模式,看具体业务场景和要求。
很多业务在具体实现的时候,会先将消息写入消息队列,一方面可以起到流量削峰的作用,另一方面可以实现一些特定的推送优化逻辑,如判断为垃圾广告或者敏感词不进行推送。
我们首先从微信朋友圈公布的数据来感受一下。在2021年1月19日,在微信公开课pro上微信创始人张小龙披露微信最新数据:微信每天有7.8亿用户进入朋友圈,1.2亿用户发表朋友圈。平均每人打开浏览十几次,每天100亿次浏览量。若我们想实现类似的feed流系统会有什么挑战。从存储量上来看,若用户平均每天发送3次朋友圈,每条内容1kb,一年大约1000亿条记录,存储容量接近100tb。从访问请求次数来看,每天写入和读取ops峰值至少百万级别,用户写入和读取延迟都要有实时性,响应时间至少都要在秒级内,否则用户分分钟关闭app。因此我们需要一个持久化、海量存储、高吞吐、易扩展、低延迟、低存储成本的分布式存储系统。
5.1 高斯redis简介
高斯redis是华为云数据库团队自主研发且兼容redis5.0协议的云原生数据库,采用计算存储分离架构。存储侧使用自研的存储系统dfv,容量无限扩展、强一致、高可靠。计算侧基于 lsm 存储引擎实现,具有极佳的写性能和读性能。利用计算分离架构的优势,高斯redis扩容无需进行数据拷贝,实现秒级扩容,充分发挥了云原生的弹性伸缩、资源共享的优势。
5.2 feed流场景如何利用高斯redis优势
针对feed流场景,可以按照如下方式使用高斯redis:
- 消息内容存储
利用高斯redis的kv结构即可实现,高斯redis采用存储计算分离架构,可以轻松支撑海量数据存储及低延迟访问延迟。 - 关联关系存储
高斯redis集合结构或字典结构可以轻松实现关联关系的增删改查。 - 信箱存储
信箱从实现上就是一个队列,支持从指定位置消费的能力。高斯redis的stream结构可以实现队列能力,轻松实现feed流消息读取。
5.3 高斯redis feed流实践
以下用高斯redis实现一个简单的微博样例,采用写扩散模型,用以说明可行性。
系统中存在四个用户,jay、jolin、zhangsan、lisi。其中zhangsan、lisi关注了jay,lisi同时关注了jolin。
以上实现了一个简单的微博系统,真实系统会比这个复杂,会涉及业务场景特定处理逻辑。用高斯redis作为feed流存储底座是比较理想的技术选型。
高斯redis具有持久化、海量存储、高吞吐、易扩展、低延迟、低存储成本等优点, 作为feed流存储底座非常合适,其优异的读写性能和高级特性将会极大简化应用开发。同时,高斯redis在开源redis基础之上,较好平衡了性能和成本,能够广泛应用在智慧医疗、流量削峰、计数器等领域。
本文作者:华为云数据库gaussdb(for redis)团队
杭州/西安/深圳简历投递:yuwenlong4@huawei.com
gaussdb(for redis)产品4008云顶国际网站主页:
更多技术文章,关注gaussdb(for redis)官方博客:
https://bbs.huaweicloud.com/community/usersnew/id_1614151726110813
- 点赞
- 收藏
- 关注作者
评论(0)