接触机器学习的第一周,我首先学习了关于监督学习以及非监督学习的含义。
一、监督学习
关于监督学习supervised learning,我的理解就是,每一个数据都要有一个对应的值。
监督学习又可以分为两种:
1、regression problem回归类问题
回归类问题的求解对应的是一个连续的值
关于regression problem,吴恩达老师的举例是说有一堆关于房子大小的房价的数据,然后你来预测一下你朋友的房子应该值多少钱。下图就是每个房子大小对应的房价值。
可以看到每一个房子大小不同都是有一个对应的房价的,这就是监督学习。而且你要预测你朋友的房价,就是通过上面那些确切的点来拟合一条误差最小的线,从而预测出你朋友的房价,很显然这是一个回归类问题,因为这是一个连续的值。
2、classification problem分类问题
分类问题的求解对应的是一个离散的值
关于classification problem,吴恩达老师的举例是有一堆关于肿瘤大小的数据,每个数据对应了这个患者是不是患了癌症。然后给你一个肿瘤大小的数据,你来预测患者是否患了癌症。
可以看到,每个肿瘤大小对应了一个值,这个直接就是是否患癌症,这就是监督学习 。而给你一个肿瘤大小的数据预测是否患有癌症,这就是supervised learning中的classification problem。这里的分类就是指是否患有癌症,而这个也就是所谓的离散值。
二、非监督学习
关于非监督学习unsupervised learning,我的理解就是,给你一堆数据,你从其中找出一个结构,一开始我并没有给这些数据打标签,你要自己发现其中的结构。
非监督学习又可以分为两类:
1、clustering algorithm聚类算法
聚类顾名思义就是聚集分类,就是给你的一堆数据中,这些数据可以聚集分类成很多类型。如下图。
2、non-clustering algorithm 非聚类算法
顾名思义就是数据没有聚集分类,这是一堆杂乱的数据,而你要在这混乱的环境中找到一个结构。
吴恩达老师的举例就是一个鸡尾酒宴会问题。"The cocktail party algorithm",在宴会这个嘈杂的环境中,你要能自动区分出其中各自不同的声音。
第一次笔记就到这,好好总结,好好学习。