什么是分类
把一个对象分成不同的种类,比如情感分类,有悲伤、快乐,一个心情可以分成不同类别。
贝叶斯分类
取对数
朴素贝叶斯当中油大量的乘法运算,两边同时取对数,计算结果不变,把计算结果存在哈希表当中,实际上转化为加法的问题。转换为权重
在二分类的问题,转化为权重之后可以直接进行相减。选取topk的关键词
主要也是为了减少计算开销,在关键词很多的时候,我们的计算时间会很长。选择最重要的,和文章、场景最贴切的topk。
分割样本
对于比较长的文本,里面插入一些垃圾句子,常规计算会对判断结果产生影响,在文章中选取一定数量的词和文章的长度成正相关。位置权重
将词语在文章中的位置考虑进去,也就是位置权重,比如标题权重就比较大。