最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。 Step1: Exploratory Data Analysis EDA,也就是对数据...
![240](https://cdn2.jianshu.io/assets/default_avatar/8-a356878e44b45ab268a3b0bbaaadeeb7.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP属地:北京
最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。 Step1: Exploratory Data Analysis EDA,也就是对数据...
以下这些能否给个有效性排序?
如果某个特征有好几万个取值,那么用dummy variable就并不现实了,这时候可以用Count-Based Learning.
(更新)近期在kaggle成功的案例中发现,对于类别特征,在模型中加入tf-idf总是有效果的。
还有个方法叫“Leave-one-out” encoding,也可以处理类别特征种类过多的问题,实测效果不错。
此外,还有一种方法是可以参考文章
“A preprocessing Scheme for High-Cardinality Categorical Attributes in Classification and Prediction Problems”
文/JxKing(简书作者)
原文链接:http://www.jianshu.com/p/32def2294ae6
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。
用python参加Kaggle的些许经验总结最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。 Step1: Exploratory Data Analysis EDA,也就是对数据...