ch22 ch24
机器学习的方法数不胜数,但是所有方法都试图建立一个模型来对现有实例进行归纳
所有方法可分为:
模型的表示
用于评估模型优度的目标函数
一种优化方法,可以通过学习找出一个模型,使目标函数值最大化或最小化
机器学习算法:
- 监督式学习
1、从一组成对的特征向量和值开始
2、目标:从这些特征向量和值中推导出某种规则,预测出未知的特征向量及所定义的值
3-1:回归模型:为每一个特征向量关联一个实数
3-2:分类模型:为每一个特征向量关联一组数量有限的标签
- 非监督式学习
没有给定一个标注的特征向量集合,通过算法自动发现特征向量集合中的隐含模式
名词解释
- 特征工程:区分数据中的信号和噪声,如果相对于样本量来说数据的维度(即特征的数量)比较大的时候,特征工程就有较大的失败风险
- 距离度量:
目的:看看响尾蛇与巨蟒更相似,还是与箭毒蛙更相似。
方法:
1、比较等长向量的闵可夫斯基距离
def minkowskiDist(v1, v2, p):
"""假设v1和v2是两个等长的数值型数组
返回v1和v2之间阶为p的闵可夫斯基距离"""
dist = 0.0
for i in range(len(v1)):
dist += abs(v1[i] - v2[i])**p
return dist**(1/p)
kmean聚类的理解
k最邻近算法:
对新样本进行标注时,就是根据它们与训练集样本的相似度而进行的
KNN分类器的缺点:当存在严重的分类不平衡的时候(两种类别数量差别大),分类结果非常糟糕
改进:对k最邻近进行加权