前几天接触了一下pyspider,最近又在复习pandas,所以打算拿豆瓣的数据来练练手。
这次我的目标是分析一下豆瓣2016年国产影视剧的情况,所以我以标签的方式来抓取影视剧(2016+中国),但是不得不让我吐槽的是,豆瓣对标签的使用还是有些不太严谨,有些老电影也会打上2016年的标签,有些明明是中国拍的却没有带“中国”的标签,比如“爵迹”。所以我不得的进行数据清洗,去掉了不是2016年的影视剧, 也人工筛选了一部分带有中国标签的,但主要由国外制作的影视剧(比如功夫熊猫)。至于“爵迹”这类因为没有中国标签而无法抓取的影片这次就先暂不考虑。
更新:发现用制片地区信息来判断是否国产比用标签判断更准确,所以重新抓取了2016的所有影视剧作品数据,保留了制片地区优先为中国的电影(比如功夫熊猫这种是“美国/中国”,这种情况就排除,只有中国/美国的时候才认为是国产影视剧),这样上述提到过一些遗漏的影视剧也被重新包括了。
整体评分分布
在有效的644部影视节目中,最低分2.2分,从直方图来看,其实分布还算均匀,9-10分影视剧作品偏少。
前二十和后二十名
豆瓣电影中有两个主要变量可以影视剧作品的表现——得分和评分人数。我决定按照这两项表现取对数之和作为参考标注,做出一个2016年国产影视剧排行榜。最终,前二十的影视剧作品如下(“index”就是我新建的指数):
4/10/2017修正:之前index取值方法是rate和audience取对数,但实际情况还是audience对排名比重影响最大,所以用极大极小值重新归一化,将rate和audience的取值范围限定于0到1之内,所以前二十和后二十都有略微变化。
基本上2016年好的片子都排进前20了,整体评分也都较高,不过前二十中也出现了摆渡人长城这种得分较低的片子(可怜的王导张导),但是由于观众数量很大,所以也能挤入这个榜单。再来看一下倒数前20的影视剧作品,反正我是一部都没看过(不过有些名字看着挺刺激的):
更新:因为发现后二十的影片实在是观影人数太少了,所以取了第一四分位数 (Q1)——225人,225人以上的影片才考虑,所以最新的后二十如下:
更新后的后二十排行榜比之前更为靠谱,均是些低分电影。
类型分析
豆瓣电影中对影视剧作的类型分析还是比较正规的,但是有一个问题,一部作品可以有多个类型。比如既是剧情片,又是科幻片,还可能是爱情片。一开始我想取每部电影的第一个类型作为它的类型,但又考虑到大多数影视剧的第一个类型往往是剧情类,这么做可能会减少电影类型的多样化,所以最后对于电影类型的分析我就直接按照类型名分类,不做额外处理。
从这张饼图中我们可以看出,2016年影视剧作品中剧情片数量最多,爱情其次,喜剧第三,值得注意的是第四名的真人秀。
在观影人数方面(评分人数),犯罪片,动作片,奇幻片获得前三。
在的平均得分方面,纪录片平均得分最高,传记其次,脱口秀,戏曲,短片也有比较多的好评,得分最差的是恐怖片,惊悚片和情色片。
导演
再来看看排名前二十的导演:
基本上这个排名和之前的影视剧排名类似,除了个别导演一年内出了两部作品,导致了排名上下有波动。周星驰凭借着美人鱼成为成为了2016年指数最高的导演。按照惯例,我们来认识下指数后二十导演。
更新:导演指数后二十也做了调整
演员
上图是不同演员的整体情况图,大部分的演员平均作品得分集中在6分左右。圆圈的大小表示2016年的作品数量,圆圈越大,说明2016的作品越多。嗯,最大的那个圆圈就是薛之谦。我们来看看哪个演艺圈明星在2016年最忙:
因为选取了单年的数据,所以演员的指数排名基本和影视指数排名相似,前几名的都是出演指数最高影视剧的演员,比如美人鱼,驴得水,大鱼海棠,七月与安生和火锅英雄的演员。不过,我统计了下出演作品大于2的演员情况:
后续研究
- 重新抓取后的数据包括了所有地区国家,下次有机会按照国别对数据再来进行研究。
- 这次只是研究了2016的整体情况,并没有研究不同年份之间的数据,下次可以从时间维度方面对影视剧的数据进行研究。