机器学习的根本任务是预测
machine learning
≈ looking for function
机器学习与人工智能、深度学习的关系
- 人工智能:机器展现的人类智能
- 机器学习:计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。
- 深度学习:实现机器学习的一种技术
机器学习可以解决什么问题
- 给定数据的预测问题
✓ 数据清洗/特征选择
✓ 确定算法模型/参数优化
✓ 结果预测 - 不能解决什么
✓ 大数据存储/并行计算
✓ 做一个机器人
评价指标
样本数除以所有的样本数,通常来说,正确率越高,分类器越好;
- 1)正确率(accuracy):正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的
- 2)错误率(error rate):错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate;
- 3)灵敏度(sensitive):sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;
- 4)特效度(specificity):specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;
- 5)精度(precision):精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);
- 6)召回率(recall):召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。
- 7)F1-score 就是一个综合考虑precision和recall的metric: 2precisionrecall / (precision + recall)
误差分析及过拟合/欠拟合
欠拟合的处理主要有哪些方式:
- 添加新特征
- 增加模型复杂度
- 添加多项式特征项
- 减小正则化系数
处理过拟合?
- 增大训练数据的量
- 利用正则化技术
- 对数据进行清洗
- 减少迭代次数
- 增大学习率
Machine Learning Summary
Rather than giving the program the rules,an algorithm finds theryles for us.