一直对我简书里平均每天增加的几十个粉丝比较感兴趣,今天兴起爬了一部分,做了一点点小分析,拿出来大家看看。
之所以对这些粉丝感兴趣,是因为我的3000+粉丝里,绝大多数是无发文、无粉丝的,怎么都感觉他们像机器人。
应该是简书有所限制,爬虫只能爬到前900个粉丝,暂用这一部分了。
爬取的字段包括:昵称、关注数、粉丝数、文章数和主页链接五个字段。
先给粉丝分个类
900个数据不需要高端大气的机器学习了,Excel散点图足以。
把粉丝数和文章数作为用户的产出,关注数作为用户的输入,得到下面这么一个散点分布
看图可以发现绿圈里面的人产出多,关注少,可以算是大V了;紫圈里面的是产出和关注中等,属于普通用户;红圈就比较好玩了,产出少但是关注很多,这些粉丝就值得关注了。
把产出为0的粉丝单独摘出来做个图:
可以看到除了有一个老铁关注了390人以外,100-400之间断断续续有20多人,人主要集中在0-100之间。所以,再截取一下:
这个图又比较好玩了:40以上又是断断续续,关注数量集中在40和20上线。仔细看图,里面分别在4和25这两个点附近有断层。可能是我爬取的数据比较小。不做研究了~
用户ID的研究
下面的内容似乎会触及到简书的利益,所以如果不合适烦劳各位编辑告知删除。
用户的主页都是这样:
http://www.jianshu.com/u/2317cbc1f6fa
之所以加密后面的字段是为了防止别有居心的人按照ID递增爬取大量爬取用户信息。当然也是为了隐藏真实的用户数量了,毕竟还要拉投资。
研究这些ID发现,都是由0-9数字和a-f字母组成,所以肯定会首先想到是16进制数字。
把被加密的字段转换成10进制数,加1转回16进制后,发现并不存在这个链接。所以肯定不是直接转化这么简单了。
不过还是要转化一下的,把爬取的所有用户ID加密字段转换成10进制数后做散点图,发现了不得了的事情:
笔直的直线啊,这妥妥的线性相关的节奏,回归分析走起来!
不得了了啊,相关系数近乎1,P值为0!
所以我准备猜测用户ID的加密方式是
原始数字序列×某个系数+某个常数→十六进制
只是简单猜测,并没有实际计算和测试。
我想,偌大个网站这么多优秀的工程师肯定不会用这么简单的方式加密,最起码得整个不可逆的哈希加密吧~