似然函数
什么样的参数跟我们的数据组合后恰好是真实值。既什么样的参数的极值点
对数似然
似然是累乘,转换为对数似然,把乘法转换为加法(对数里的乘法可已转换为加法)
只是极值变换了,极值点不变。同样可以找到最优的参数让我们的预测值最接近我们的真实值。
线性回归的
误差项 独立并且是由相同的分布的,并且服从均值为0,方程为的高斯分布
- 独立:比如A1和A2两个人一同去银行贷款,他两没关系,互相独立
- 通分布:A1和A2都来我们假定的同一家银行
- 高斯分布:银行会多给、也可能会少给,但是绝大多数情况下这个浮动不会太大、极小情况下浮动会比较大,复合正常情况。
误差的目标
让似然函数(对数变换后也一样)越大越好。可使用最小二乘法
最常用的评估方法
最常用的评估项:
的取值越接近于1,我们认为拟合的越好
梯度下降
- 引入:当我们得到一个目标函数后,如何求解?直接求解,不一定可解(线性回归可以当成是一个特例)
- 常规套路:机器学习的套路就是,我交给机器一堆数据,然后告诉他什么样的学习是对的(目标函数)然后让他朝着这个目标去做
- 如何优化:一次往往效果不好,我们要一步步完成迭代(每次优化一点点,最后达到我们的目标效果)
批量梯度下降
容易得到最优解,但由于每次考虑所有成本,速度很慢。
随机梯度下降
每次找到一个样本,迭代速度快,但不一定每次都朝着收敛的方向(噪音点、离群点也会到结果又影响)
小批量梯度下降
每次更新选择一小部分数据来算,实用
学习率(步长)
对结果会产生巨大的影响,一般设置小写(0.01、0.001)。一般是学习率乘以方向,所以越大的学习率,越容易导致数据的不收敛。
如何选择学习率:从小的开始,效果不好的话,在调小
批处理数量:32, 64, 128都可以,很多时候还得考虑内存和效率。
逻辑回归算法原理
Logistic regression
- 目的:分类还是回归?经典的二分类算法!
- 机器学习算法选择:先逻辑回归在用复杂的,能简单还是用简单的。
- 逻辑回归的决策边界:可以是非线性的。
sigmoid函数
公式:
自变量取值为任意实数,值域[0, 1]
解释:将任意的输入映射到了[0, 1]区间,我们在线性回归中可以得到一个预测值,在将该值映射到sigmoid函数中,这样就完成了由值到概率的转换,也就是分类任务。