1、监督学习(supervised learning) :分类,通过已有的训练样本(已知数据和对应输出)去训练得到一个最优模型,再对未知数据进行判断分类。
举例:在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊,等等。我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出。当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个(或者那些)函数,从而不需要大人在旁边指点的时候,我们也能分辨的出来哪些是房子,哪些是鸟。
2、无监督学习(unsupervised learning):在于我们事先没有任何训练样本,而需要直接对数据进行建模。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
举例:在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。
3、所谓监督学习,就是两步,一是定出模型确定参数,二是根据训练数据找出最佳的参数值,所谓最佳,从应用角度看,就是最大程度地吸收了训练数据中的知识,找到最佳参数后,我们就得出一个参数都是已知的模型,此时,我们就可以利用模型预测数据的结果了(例如某人是否患癌症)。
如何找到最佳参数:
(1)设置目标函数最优
(2)正则化就是对参数施加一定的控制,防止参数走向极端。常用的正则化就是L2正则,也就是所有参数的平方和。我们希望这个和尽可能小的同时,模型对训练数据有尽可能好的预测。
我们将L2正则项加到最初的目标函数上,就得出了最终的目标函数。
原目标函数(预测和真实的差:预测误差):损失函数
4、xgboost对应的模型是一堆CART树(分类回归树),简单将各个树的预测分数相加。