6篇文章 · 5529字 · 4人关注
期望交叉熵也称为KL距离,反映的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布之间的距离,具体公式表示如下 P(t)表示特征t...
评价函数( Objective Function ),用于评价一个特征子集的好坏的指标 。这里用符号J ( Y )来表示评价函数,其中Y是一个特...
互信息(mutual information)是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量 在对文本进行特征选择的时候,X表示某个...
TF-IDF,最开始用于信息检索,在信息检索中其计算过程如下 TF-IDF模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中...
卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然...
在文本分类中利用信息增益进行特征提取 信息增益体现了特征的重要性,信息增益越大说明特征越重要 假设数据中有k类: 每类出现的概率是: 各类的信息...
文集作者