抓取知乎 300W 用户之后,原来我的关注人数竟排在前 1%

前几天写了一个爬虫扔到服务器上,耗时 3 天,我抓取了知乎 2908077 个用户的基础数据。这里简单分享一下数据。

数据说明

在分享数据之前,简单说一下数据的来源,也就是爬虫抓取的规则。

规则很简单,首先抓取知乎第一大 V 张佳玮关注列表里的用户,然后抓取再这些用户关注列表里面的用户,由此类推,直到抓完知乎所有的用户。

值得说明的有两点:其一,只抓取在关注列表里面的用户可以有效的过滤到三无的僵尸用户;其二,在知乎的设置中勾选了「隐私保护」的用户只能对站内用户可见,因此没有登录信息的爬虫是抓取不到其关注列表的。

从数量上来说,这份知乎用户信息应该是很全面而且有效的,因为爬虫抓取了知乎完整的关注关系链,粗略的可以认为知乎的有效用户大约是 300 W。当然,如果从个人信息维度来看,数据就显得很薄弱,因为仅仅抓取了每个用户最简单的几个基础数据。原因也很简单,因为我的初衷核心是写一个爬虫,而不是去抓取知乎的用户信息。

知乎用户数据

知乎关注人数 Top 10

首先,知乎关注人数 TOP 10 的大 V 大家都很熟悉,如下:

用户关注人数 TOP 10

其中,知乎第一大 V 张佳玮的关注人数为 1248627,因为不知道里面的僵尸粉有多少,假设没有僵尸粉(这是不可能的),那么知乎平均每 3 个有效用户就有一个关注他。

他们的回到问题数量和文章数分别如下:

Top 10 的回答数量和文章数量

可以看得出来,张佳伟不管是回答数量和文章数量都远超其他 9 个大 V,确实勤奋和高产。而排名第二的李开复老师就相反了,不管是回答数量仅有 107 个,文章也只有一篇,均是垫底。但是作为知乎第二大 V ,不得不说名人效应十分明显。另外黄继新和周源情况相似,回答数量和文章文章都相对较少,但是排在第三和第四和他们作为知乎的创始人应该有很大的关系。最后不得不说一下葛巾貌似是出走过一次知乎,然后删除了很多答案,具体情况不是特别了解。

粗略的看下来,排除特殊情况,貌似关注人数和回答数量成正相关,所以想要获得更多关注的小伙伴多多回答问题吧。

关注人数

关注人数的分布如下:

知乎关注人数分布图

可以看出,关注人数分布图是很符合社会资源分配规律的。要注意的是,我抓取的用户是在关注列表里面的,意味着他们至少有一个关注者。关注人数只有个位数的仍然占到了 83%,然后依次是 15%,2% 和 1%。而关注者超过 1W 的仅有 2586 位,占 0.09%,他们应该可以被称为知乎大 V 了。

值得一提的是,我去年春节的时候回到过一个问题「你因为睡觉太死错过什么重要的事情」可能比较搞笑或者像段子,到目前为止收获了 5.2k 的赞。我仅仅因为这个突然火了的回答,偶尔就会有小伙伴关注,当然到目前为止也只有 350 个关注者。但是,关注者超过 350 的仅仅只有 33420 个用户,只占了 1.1%,如果算上那些极度不活跃用户和僵尸用户,就仅仅这 350 个关注者还真可以排进前 1%,但是如果要前 0.1% 的话,则要求关注数要接近 1W。再次证明很像社会资源分布一样,阶梯分布十分明显,极少部分人拥有了绝大部分资源,而绝大部分人却只拥有极少的资源。

回答数量

回答数量的分布如下:

知乎用户回答数量分布图

可以看到这 300W 的用户中,没有回答一个问题的用户占到了 46%,而回答问题在个位数的也占了 38%,两者加起来占了知乎 85% 的用户。而回答数量超过 1000 条的仅仅只有 739 个人 。和绝大部分大众社区一样,大部分都是吃瓜群众,只有少部分是内容的生产者。

文章数量

文章数量的分布如下:

知乎用户文章数量分布图

数据很直观,没有写过文章的用户占到了 97%,再次强调他们是在关注列表里面的有效用户。而超过 10 篇的用户,仅仅只有 11478 位。还是那句话,内容生产者少数,吃瓜群众才是社区的大多数。

写在最后

虽然保存每个用户的信息很少,但是依旧还有一些信息可以挖掘,比如,用户是某个或某几个话题的优秀回答者,相关信息也有保存。但是,今天暂时就分享这么多。结论一点也不出乎意料,知乎现在就是一个以普通用户为主体的大众社区。这几乎是任何一个社区高速扩张所不能避免的结果。个人感觉,随着知乎的扩张,用户量急剧增加同时,高质量内容的比例下滑,而高质量内容的数量却没有明显的增加,其中段子、鸡汤文和情感类所占比例太大,而这些话题恰好是普通大众喜闻乐见的。我以后或许会找个机会再挖掘一下相关的数据,从数据角度证明一下。

最后,我的初衷仍然是写个爬虫而已。我爬知乎的原因仅仅是因为我能爬知乎。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容