这几章我们聊聊集成学习,集成学习算法是目前为止我们在相同特征条件下做特征工程时,建立模型评分和效果最好的算法。比之前讲过的线性回归、Logist回归、KNN、决策树的评分效果...
同见博客:http://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/(对Latex公式支持更好) 在分类任...
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N...
分词器选择 调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好。举个例子: 在上述例子中,IK和Mmsg 用的同一套词典。Ansj和I...
基于spark xgb 对于潜在新用户的弱特征进行建模,都是用关联的老用户的业务统计值、标签的统计值建模。 label_1 :历史邀请发生注册的用户,label_0:这些邀请...
RandomForest建模中,入参中包含了数值型、字符串类型的值。入模的时候,统一使用df.na.fill(0.0)会导致NullPointerException或者Can...
归档至github What 基本上所有的互联网公司都有其广告投放平台,这是给广告主投放广告的一个页面。广告主可以通过广告提交页面提交自己的广告需求,后台会给广告主圈定一部分...
在一个移动操作系统中,APP可以实现一个叫做消息推送(push)的功能。push是能够起到提醒或者唤醒用户的作用的,也是app运营渠道之一,运用得当可以帮助产品运营人员更高效...
浅谈LR 背景 机器学习 套路:学习过程:Input -> Model新数据,应用模型,得到结果。例子:分类输入:feature,label学习:找到feature和labe...