直接上数据
简书不支持iframe,只能点连接了,连接里的排行是实时的哦~
至于这里,只能用工具把html转markdown了。
我尽量每周更新!
相关分析
还做了个《简书“短篇小说”作者排名》
11月7日简书修改了页面格式,导致我的爬虫爬取失败,直到昨天才发现并修复。
以下是2017年11月13日爬取的结果:
简书推的内容不能满足需求
最近发现简书的“短篇小说”里有许多出彩的文章。但是官方推的内容不能满足自己的胃口。
原因两点:
- “热门”榜里只按照“点赞”数量排序。发布时间越长的文章越靠前。
- “最新评论”和“最新收录”只按照时间排序。但是文章质量参差不齐,心的文章里很多垃圾。
自己动手,丰衣足食
其实我就是想更方便的找到好的文章
于是自己用Python写了个爬虫程序,然后发布到自己的树莓派上,每天自动更新。
关于分数计算
为了避免上面说的那些问题,我把分数设计成了多项式加权。包括:
- 阅读量
- 点赞
- 回复
- 打赏
- 文章发布时间
打脸#
我原本想着找到好文章,结果一看题目,
好狗血!!!。
难怪官方的推荐内容都是三观正的了。
不过点进去看了之后,发现有些文章的确写的入木三分。
只是用了"谁敢比我惨"或者"谁敢比我贱"的噱头。
希望有一天,草根小说也能不靠“辣眼睛”的题目也能吸引读者。
那说明大家的阅读鉴赏能力提高了。
持续改进#
个人觉得这个挺有意思,我会继续改进。
- 相比于昨天的排名变化(已实现)
- 将排行榜页面从树莓派移动到coding和github上,并支持定时自动更新。(已实现)
- 记录数值的历史数据,挖掘更多的有趣规律(已实现)
- 利用scrapy框架重构(已实现)
- 树莓派升级到64位系统,解除32位版本mongodb的2G存储大小限制。(已实现)
- 爬取更多专辑信息。目前扩大到“短篇小说”“世间事”“微小说”。(已实现)