一、项目实施的目的、意义
随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的栓桔。由于网络信息数量庞大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。
所以我们需要这样一种工具,可以帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及与该事件与其它事件之间的关系。
二、项目研究内容和拟解决的关键问题
(一)****将选定的话题/报道进行模型化处理
- 对不同的数据需要用不同的模型方法去处理,这样子可以得到较好的效果,常用的模型有语言模型与向量空间模型。
(二)****报告/话题相似性的比较
- 对所有的话题C1、C2、……Cn,要判断某一则报道S属于哪一个话题,就需要计算报道和各个话题之间的相似程度,最后把最高相似度和阈值进行比较。这里,我们需要对话题和报道之间的相似度有一个较好的运算处理,这也是一个亟待解决的问题。
(三)****对话题之间进行聚类和分类处理
判断某个新报道是属于已有话题还是一个新话题。需要我们把新报道和已有话题进行比较,如果相似度高于某个阈值,则把新报道归入相似度最高的话题中,如果对所有话题的相似度都低于阈值,则创建一个新话题。因此阈值的合理选取是我们要解决的关键问题。
在后期的跟踪训练中,需要我们用到对种子数据的训练能力。这里涉及到神经网络等相对高端的技术,也是对每个队员一次挑战。
三、项目研究与实施的基础条件
我们小队已具备对热点论坛、微博大V文章的信息采集能力。
数聚 (专为个人定制的信息流) 这个是我们团队之前做的一个数据采集的项目。说明小队成员有协作完成比赛项目的能力。
小队成员有阿里云服务器良好的使用能力,对服务器知识有一定的贮备。
小队成员是软件卓越计划班的成员,具有良好的接受和学习、探索新知识的能力
我们有优秀的计算机、概率论、量子数学老师的亲自指导的机会
项目参考文献
[1] 互联网中事件检测与跟踪系统设计与实现 于兆鹏
[2] 基于中文微博的热门话题提取与追踪 叶永涛
[3] 网络热门话题的跟踪建模与检测分析 李晶
[python] 基于k-means和tfidf的文本聚类代码简单实现中文文本聚类(切词以及Kmeans聚类)
四、项目实施方案
(一)****数据收集****,并进行文本预处理
利用网络爬虫****采集指定网页上的信息
除去数据中非文本部分
处理中文编码问题
中文分词
引入停用词
特征处理
(二)****建立数据模型,进行聚类分析
对文本类数据进行数据化模型化处理,使用语言模型,向量空间模型。
对报道数据进行聚类分析,通过增量k-mwans算法。
(三)****对处理的数据的展示:
根据时间、因果等因素对热点话题生成事件网络图谱
利用js前端技术,实现动态展示,新颖独特。
五、学校可以提供的条件
(一)****物质条件的支持:
因为我们这个项目很有挑战性,所以我们组员之间很需要经常讨论交流,所以我们需要一间适中大小的实验环境。
最新的科研资料及书籍。
服务器的采购费用、新技术的学习费用等资金支持。
(二)****教师指导
由于我们对这方面的技术尚未成熟,还需要教师对我们的偏正。不过,我们还有时间去学习去磨练,应该是没问题的
该项目的实现需要用到概率论的高等算法知识以及神经网络和分布式系统等高端技术的支持,所以我们需要两位专业级老师的指导。
六、预期成果
能够实现对各大国内知名新闻网站信息进行时事话题追踪的系统。
七、经费预算
阿里云服务器3000元
阿里云数据库5000元
域名购买500元
书籍资料300元
总计:8800元