豆瓣网是一个国内用户分享交流电影、书籍等文化活动的社交平台。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,无论描述还是评论都由用户提供(User-generated content,UGC),是Web 2.0网站中具有特色的一个网站。
豆瓣电影评分的定位相当于中国国内的IMDb
(互联网电影数据库),而其针对了国内用户区别于国外的文化差异、人群受众、网络交流环境等各方面因素在电影评价上产生了一定的差异,能更贴切地反映国人对于电影的理解。
本文为豆瓣电影TOP250榜单的分析以及展示数据背后的意义。
目标网页地址
https://movie.douban.com/top250
项目流程如下:
- 数据收集 —— 运用
Python
的requests
,lxml
等库抓取豆瓣网页数据,并导出为csv
文件作为数据库。 - 数据处理 —— 使用
Python
的Numpy
,Pandas
库整理数据。 - 分析与展示 —— 根据处理后的数据做分析,并使用
matplotlib
和sklearn
库做相应的可视化展示与回归分析,使得文章更直观反映数据背后的意义。 - 总结 —— 作出结论。
其中数据收集、处理这两部分的文章内容主要侧重于技术实现,分析与展示这部分的内容则相对侧重可视化表现以及数据背后的意义。