• 文献阅读
本学期主要阅读了两方面的论文:1.非负矩阵分解方法用于话题探测; 2. 用seq2seq生成对话的相关论文。
尝试了相关代码。对于非负矩阵分解方法的几篇经典论文,做了基础的代码编写和修改,并对其模型做了不同数据集的尝试,有了一些baseline结果。
• 基础学习
学习机器学习的基础知识,结合Ian Goodfellow的《Deep Learning》和李航的《统计学习方法》,主要学习了机器学习中的数学和HMM、EM、RNN等相关算法。
学习tensorflow的基础。
• 小论文进展
实验内容:在对新闻报道序列进行话题的变迁分析时,通过对不同时间段的话题分别抽取形成文章的话题随着时间线的变化趋势,为了避免在每个时间片分析出的话题毫无关联,通过采用联合矩阵来融合不同时间潜在话题,从而从文档的内部信息中进行建模,保证其时间上的连贯性,根据矩阵分解得到不同时间相似的话题的结果,从而发现它们的话题的演变和相关话题的依赖关系。
实验进展:
模型的推导求解、相关基础代码已经完成,并且完成了一个小数据集的测试,目前在进行加入噪声数据之后的对比实验。代码运行太慢(大概一周才能出来一个数据集)。
进行相关方法的撰写,学习别人论文的写作方法技巧。
• 下学期计划
1. 将这学期的论文完成并投稿。
2. 可以尝试tensor方法来做话题的探测和在Twitter上“信息挟持”等噪声消息的过滤。去噪声并监控top 10 个话题,生成连贯的话题报道序列。
3. 阅读相关的论文,寻找将神经网络的方法应用于话题分析的创新点。