从零开始机器学习-5 深入了解机器学习

本文由 沈庆阳 所有,转载请与作者取得联系!

前言

随着计算机计算能力和数据量的不断增长,人工智能在近些年以近乎爆炸似的速度进行增长。其中,专家系统、机器学习、推荐系统和计算机视觉等人工智能的分支也在不断扩大。
机器学习是人工智能中的一个重要工具,机器学习能够帮助我们解读一连串或是离散的数据的含义。对于机器学习,我们不需要硬编码(HardCode),而只需向程序提供足够多的样本,即可得到可以达到目的的自己想要的程序。比如我们在前几章中可以使用相同的程序,不同的样本来训练程序识别不同的物体,甚至是不同的动物,而不需要改变程序的任何代码。

本节关键词

标签(Label)、特征(Feature)、样本(Example)、模型(Model)、回归(Regression)、分类(Classification)、训练(Train)、损失(Loss)

机器学习的框架

机器学习的定义如下:
·机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。
也许通过前几节的练习,我们对机器学习的定义有了一些了解。

标签

在离散数学的学习中,我们学过简单的线性回归(Simple Linear Regression)。比如,成都市平均房价与房屋面积的关系、一个餐馆的销售额与周围学校大学生的数量等。我们要通过房屋面积来预测房价,要通过大学生的数量来预测餐馆的销售额。那么在上述问题中,要预测的变量为y(房价与销售额),即标签。标签可以是房屋未来的价格、图片中显示的物体是什么、音频文件的含义或任何事物。
因此,标签即要预测的事物,用y表示。

特征

在上一段介绍的情境中,我们根据房屋面积和学生数量来预测事物,这些根据的信息即为特征。进一步地解释来说,特征即输入变量,用x表示。对于一些简单的机器学习来说,特征可能仅有一个。但是对于复杂的机器学习问题来说,可能有上万个特征。用{x1,x2,x3...xn}来表示这些特征。

样本

样本分为有标签样本和无标签样本。
有标签样本包含着特征和标签,其定义形式如下:

有标签样本: {特征, 标签}: (x, y)

样本是一个矢量,我们使用有标签样本来训练机器学习程序。
无标签样本包含特征,但不包含标签,其定时形式如下:

无标签样本: {特征, ?}: (x, ?)

在通过使用有标签的样本来训练好我们的机器学习程序之后,我们可以使用机器学习程序来预测无标签样本,从而得到相应的预测的标签。

模型

模型,即特征和标签之间的关系。在数学中,我们通常使用函数或是映射来表示x和y的关系。而在机器学习领域中,这种关系则被称作模型。
模型的诞生通常分为2个阶段。首先是训练模型,即创建和学习模型。通过训练模型我们可以创建出一个模型。通过给机器学习程序给予足够的有标签样本(特征和标签的集合),模型逐渐学习其中特征和标签的关系。
当模型创建完毕之后,便是推断。将训练好的模型用于无标签样本,来预测相应的标签y'。

回归与分类

回归模型可用于预测连续值,而分类模型可用于预测离散值。这将在后面进行阐述。

线性回归

线性回归(Linear regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 这种函数是一个或多个称为回归系数的模型参数的线性组合。 只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。


一个简单线性回归的例子

在上图中,我们假设其含义为平均房价和房子面积之间的关系。由前面所讲可知,平均房价是我们要预测的事物,即标签。而房子面积则是特征。
在初中数学里,我们可以画出一条直线,可以在x轴上任取一点,做x轴的垂线,来截取直线上的一点,该点的y值即我们预测的平均房价。
该直线的方程在几何学中以:y=ax+b来表示。
其中:
a为斜率,b为直线在y轴上的截距。
而在机器学习中,我们以如下形式表示:
y'=w0+w1x1
其中,y'为我们要预测的标签,即理想的输出值、w0指的是偏差、w1指的是特征1的权重、x1指的是特征即输入项。
如果具有多个特征,即非简单线性回归,则该模型的表示形式如下:
y'=x0+w1x1+w2x2+....wnxn

训练和损失

训练

在监督式机器学习中,训练指的是通过有标签样本来学习,从而得到各个特征的理想的权重和偏差值。机器学习的算法通过结合所有输入样本,找到合适的权重和偏差值从而使损失最小,即经验风险最小化。
损失即对单个样本而言,模型预测的准确程度。以简单线性回归为例,如果模型直线直接穿过所有样本点,则损失为0(基本上是不可能的)。如果模型距离样本点偏差过大,则损失越大。训练模型则是为了找到损失较小的偏差和权重。

损失

对于线性回归而言,其损失函数为平方损失,即L2损失。
均方误差指的是每个样本的平均平方损失。要计算均方差,需要求出各个样本的所有平方损失之和,然后除以样本数量,即:
均方差=(实际值-预测值)^2 / 样本数量
表述为,实际值和预测值差的平方除以样本数量。
在机器学习中,不同的模型适用不同的损失函数。损失函数的选取对于我们准确地计算损失极其关键。

觉得写的不错的朋友可以点一个 喜欢♥ ~
谢谢你的支持!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容