学习任务:
1、了解什么是Machine learning
机器学习是通过大量的样本数据学习得到一个函数或学习器,使得以后在给学习器一个输入时可以给出一个唯一的输出值,并且这个输出值和实际的输出值误差在允许范围内。
2、学习中心极限定理,学习正态分布,学习最大似然估计
中心极限定理:样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
正态分布:正态分布也称高斯分布,正态分布的函数如下:
其中:μ为均数,σ为标准差。μ决定了正态分布的位置,与μ越近,被取到的概率就越大,反之越小。σ描述的是正态分布的离散程度。σ越大,数据分布越分散曲线越扁平;σ越小,数据分布越集中曲线越陡峭。
最大似然估计:概率是预测一个事件发生的概率,而似然是指如果要使得这个事件发生,其事件发生的概率应该是多少,而使得这个事件以最大概率发生所对应的似然则是最大似然估计。
3、推导回归Loss function和梯度下降公式
4、学习损失函数与凸函数之间的关系
凸函数的性质是在某个开区间C内的凸函数f在C内连续,且在除可数个点之外的所有点可微。而线性回归模型所对应的损失函数就是可微的凸函数,这样,就不会出现有多个局部最优解的问题。
5、了解全局最优和局部最优
在建立一个模型后,利用梯度下降法求得w和b使得损失函数最小,而当损失函数存在多个局部最小值时,就可能求得一组w和b使得损失函数局部最小,而不是全局最小。对于线性回归模型而言,其损失函数是可微的凸函数,所以只有1个最小值,不存在局部最优。
6、写出梯度下降的代码
参考:https://blog.csdn.net/weixin_42633385/article/details/90147660
7、学习L2-Norm,L1-Norm,L0-Norm,并说明为什么用L1-Norm代替L0-Norm
范数:
L0-Norm:是指向量中非零元素的个数。如果用L0规则化一个参数矩阵W,就是希望W中大部分元素是零,实现稀疏。
L1-Norm:L1范数是指向量中各个元素的绝对值之和,也叫”系数规则算子(Lasso egularization)“。L1范数也可以实现稀疏,通过将无用特征对应的参数W置为零实现。
L2-Norm:L2范数是指向量各元素的平方和然后开方,用在回归模型中也称为岭回归(Ridge regression)。
L2避免过拟合的原理是:让L2范数的规则项||W||2 尽可能小,可以使得W每个元素都很小,接近于零,但是与L1不同的是,不会等于0;这样得到的模型抗干扰能力强,参数很小时,即使样本数据x发生很大的变化,模型预测值y的变化也会很有限。
原因包括:1)L0范数很难优化求解;2)L1是L0的最优凸近似,比L0更容易优化求解。
参考(https://blog.csdn.net/lyf52010/article/details/79822144)
8、推导正则化公式
9、学习为什么只对w/Θ做限制,不对b做限制
因为w是样本中所有属性的权重,而b只是一个偏差,与样本的属性基本没有关系,所以在学习时只对w做限制,对b不用做限制。