这个Kata说难那是非常难,说简单也非常简单。
要求
假设我们在一个超级大的电商工作(比如淘宝),现在需要实现一个功能,展示销量TOP10的商品,每个小时更新一次,如何去做?
如果这时候产品突然告诉你需求改变,你更喜欢下面的哪个变化?
- 更新时间改成每天一次
- 只计算24小时内的TOP10,但是要求实时更新
思考
这个Kata不需要写代码(其实也没法写代码),只谈谈思路。
说白了,这题就是如何处理大数据。
我觉得对于大公司来说,上面的两个选择其实都需要做,顾客既需要看到总排名,又需要看到今日最热,所以下面分开讨论。
总TOP10
每小时更新还是每天更新其实并不重要,或许我们会想到半夜人少,把更新放在半夜,但是要知道大公司面向的已经不是某一个地方的用户,而是全球用户,所以理论上并不存在人少的时间。换句话说,这种思路的前提是更新TOP10和给用户提供正常服务矛盾,所以要错开。
认识到根本问题后,我们要做的就是思考如何不让计算影响正常服务。
由于总数据量非常大,所以必然要用到集群,总节点有限,所以我认为关键是要做好负载均衡。计算TOP10本身已经有很多优秀的算法了,选择一个可以用分布式计算实现的算法就行,之后主要是通过负载来动态分配节点,用户多的时候分配给计算的节点少,速度慢些,用户少的时候分配给计算的节点多,速度快些。
24小时TOP10
24小时的关键是速度,我的思路是使用分布式内存存储,增量计算。
购买记录肯定是有log的,也就是说我们只有第一次计算的时候需要遍历24小时全部log,之后每次有新log进来都更新内存数据并抛弃过时数据,实现增量计算。这个数据量使用分布式的内存数据库应该足够解决。
这个思路同样可以用在总TOP10上,但是总的数据量非常大,放在内存中会严重影响正常使用,并且总排名对时间不是非常敏感,所以没必要使用内存。
泡面
现在你应该明白了,为什么我说这个问题既难又简单,真做起来这是世界性难题,但是嘴上说说就很简单了,所以这篇文章就像泡面一样,似乎很好吃,但是没营养。