240 发简信
IP属地:北京
  • 120
    用python参加Kaggle的些许经验总结

    最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。 Step1: Exploratory Data Analysis EDA,也就是对数据...

  • 以下这些能否给个有效性排序?
    如果某个特征有好几万个取值,那么用dummy variable就并不现实了,这时候可以用Count-Based Learning.
    (更新)近期在kaggle成功的案例中发现,对于类别特征,在模型中加入tf-idf总是有效果的。
    还有个方法叫“Leave-one-out” encoding,也可以处理类别特征种类过多的问题,实测效果不错。

    此外,还有一种方法是可以参考文章
    “A preprocessing Scheme for High-Cardinality Categorical Attributes in Classification and Prediction Problems”

    文/JxKing(简书作者)
    原文链接:http://www.jianshu.com/p/32def2294ae6
    著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。

    用python参加Kaggle的些许经验总结

    最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。 Step1: Exploratory Data Analysis EDA,也就是对数据...