分析建模,日常问题整理(二十三)
2019.1.31~2019.2.18
- ceil()向上取整 math模块函数
print(math.ceil(0.1))
- ceil()向上取整 math模块函数
- echarts百度地图不显示图像
一定要同时加载bmap.js和输入正确的ak码,ak码在申请时要设定浏览器端还是服务器端。
- echarts百度地图不显示图像
<script src="/static/js/bmap.js"></script>
<script src="http://api.map.baidu.com/api?v=2.0&ak=x7czkMIjCIPym3ouLKgecQ4f6kmEY0ZH"></script>
- pyecharts的line-横轴类必须是字符串,如果是数值型,会显示不出图像的!
- 小样本如何选择模型
训练求解的模型参数受样本影响特别大,样本变化一点点,参数解就跳到另一组解去了。总之,模型是不稳定的。(正好遇到这个问题)
一是使用少量的稳定的变量
二是等数据积累足够了再做模型吧
- 小样本如何选择模型
AIC:寻找可以最好地解释数据但包含最少自由参数的模型
AIC=2k+nln(SSR/n)最小
elastic net:弹性网络是一种使用 L1,L2范数作为先验正则项训练的线性回归模型.这种组合允许学习到一个只有少量参数是非零稀疏的模型,就像 Lasso一样,但是它仍然保持一些像Ridge的正则性质。我们可利用 l1_ratio 参数控制L1和L2的凸组合。弹性网络是一不断叠代的方法。
scikit-learn
对损失函数(目标函数)加入一个惩罚项,使得模型由多解变为更倾向其中一个解。
在最小二乘法中,可以这样理解。XTX可能是不可逆的,通过加上正则项,迫使弱的特征的系数缩减为0.
- 同时包含离散变量和连续变量的决策树模型在Python中的实现。
R中可以同时处理,但是sklearn不行。
使用ID3(只能处理离散变量),修改脚本处理存在连续变量的模型。
cart只能同时处理离散变量和连续变量。如果同时包含离散变量和连续变量,需要把离散变量进行编码或者哑变量转换。
lgbm在训练单棵树时能够同时处理离散和连续变量,(大多数机器学习算法都不支持类别特征)LightGBM优化了对类别特征的支持,可以直接输入类别特征,不需要额外的one-hot编码展开。【但是lgb.fit()时还是会报错不能float(x)???】
- 同时包含离散变量和连续变量的决策树模型在Python中的实现。
CTR特征是啥??
决策树单独用来做预估模型效果一般,但是有几个用处
1)用来对连续变量选择最优分箱(这个可以尝试一下)
2)用来选择规则
3)提炼规则用来做衍生变量,使用衍生变量来做更精准的模型。