什么造就好的Feature
Google Machine Learning Recipes 3
Github工程地址 https://github.com/ahangchen/GoogleML
欢迎Star,也欢迎到Issue区讨论
Feature越好,分类器也就越好
这里举了一个对两种狗狗做分类的问题介绍好的Feature应有的特性
简化问题
- 好的feature能有力地说明两个类别的不同
- 单个feature往往不完美,所以需要多个feature
- 假如由人来做分类器,会需要什么信息?(找好的feature)
- 对于一个feature,如果不同的label中,这个feature的值分布越均匀,则这个feature的分类作用越弱
在同一种眼睛颜色中,不同狗的数量差不多,说明眼的颜色的分类作用弱,这样的feature会降低分类器的准确性
- 好的feature应该是相互独立的,能够提供更多有效信息,
- 每个feature在分类器中都占一定的重要性,而如果feature间不独立,重要性的比重也会与原本的计划有偏差
- feature应当预处理地尽可能与结果直接相关
- 有好的feature还不够,还要有好的feature之间的好的组合
总结
好的feature应该是这样的:
- Informative
- Independent
- Simple
代码
Good-Feature:构造数据集与绘制柱状图
如果觉得我的文章对您有帮助,请随意打赏~