Lec1-4 机器学习细部
案例——银行是否给顾客发信用卡
数据:顾客的资料【输入】
期望结果:给该顾客发卡,或不发卡【输出】
机器学习:学习银行怎么样发卡(会使后来的收益最好)
潜在模式:有一些指标可以帮助判断是否应该给用户发卡,由人工操作的时候,会综合考虑顾客信息,使得假设给该用户发卡(或不发),银行收益会更大。
符号化
input: x∈X (顾客资料)
output:y∈Y (发卡/不发卡)
机器所要学的潜在模式(target function 目标函数): f:X -> Y 从X到Y的理想公式。
从最简单的一维数据出发,假设训练数据D={(x1, y1), (x2, y2), ……,(xN,yN)}.真实的f(x)是唯一的,但不被我们所知悉,机器学习要做的就是从资料X出发,帮助我们分析出假设的函数g(x),使g(x) ~= y,即g(x)无限接近于f(x)。
那么可以假设g(x)为一次函数、二次函数等等你可能想到的函数,对于某个机器学习算法而言,g(x)的类型应该大致是选定的,训练过程只是调整函数的参数去拟合真实的数据曲线,让y = g(x)不断逼近真实的目标函数y = f(x)。g(x)尝试去猜测、模拟f(x),使g(x)的结果在已知数据上可以和f(x)得到近似的结果。
g(x)可以有多种可能,但随着信息量的增加,g(x)的选择范围会被缩小。数据通过机器学习演算法A,从假设集合hypothesis中选取近似于目标函数 f 的拟合函数 g。若机器学习学到了潜在的模式,有技巧上的提升,则期望 g 和 f 越像越好。
信用卡问题中可能的 g(x)
g是从假设集合H中选定的hk。hk是g可能的取值。
h1: 年收入大于80w
h2:债务大于10万
h3:工作小于两年
……
假设集合hypothesis set 中可能包含了好的假设,也可能有不好的。机器学习所做的事情就是通过演算法A从假设集合H中选出它认为最好的g。
机器学习模型就是指演算法A和假设集合H。
完整流程
Lec1-5 机器学习 V.S. 数据挖掘/人工智能/统计
机器学习
用数据找出一个hypothesis g(x)与想要的target function f(x) 相像。
数据挖掘
用数据找出一些有趣的事情。(如超市用户购物一个东西后,会不会想购买另一个东西——找出商品间的关联性)。
机器学习 V.S.数据挖掘——相同或相关
如果有趣的事情就是预测之类的找出与target function f 类似的hypothesis g,那么机器学习和数据挖掘是一样的。
如果有趣的事情和找出target function f 类似的hypothesis g相关,那么数据挖掘可以帮助机器学习做得更好,或者机器学习能帮助数据挖掘来挖出有趣的东西。
些许不同
传统的数据挖掘也聚焦于在大量的数据中进行高效的计算。
非常接近
这两个领域非常地接近,很难找到只做其一的研究者。
机器学习 V.S.人工智能——机器学习是实现人工智能的一种方法
人工智能希望电脑做出某种东西有聪明的表现,如下棋、开车。会预测是很聪明的一件事,找到一个g跟我们想要的f很接近,从这个角度出发,机器学习是实现人工智能的一种方法。人工智能有很多方法可以实现。
下棋案例
传统人工智能:树状图——分析下这一步的好处坏处;
机器学习人工智能:从棋手下棋的数据中或自己去下棋来学习下棋的方法。
机器学习 V.S.统计——统计是可以实现机器学习的一种方法
统计使用数据来做一些推论,比如我们不知道丢硬币正面背面几率是多少,我们丢1000次,来推论一下正面几率是多少。
g是一个推论结果,f 是一个我们不知道的事情。从这个角度来说,统计实际上是实现机器学习的一种方法。
些许不同
传统的统计很多工具会用到机器学习上面,但统计是从数学出发的,很多东西会想办法写下一些假设,最后用可以证明的结果说在这样的统计的数量下有什么可以证明的推论。传统统计学很多是数学上的推论,机器学习从数据计算出发,很多演算法更重视怎么算出来,而不是数学上的结果。