机器学习实战(一):机器学习基础

何谓机器学习

机器学习就是把无序的数据转换成有用的信息,对与任何需要操作数据的领域都有所裨益。

机器学习的主要任务就是分类,当我们决定使用某个机器学习算法进行分类,首先需要做的是算法训练,即学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合,每个训练样本包含多个特征和一个目标变量。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。训练样本必须知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。我们通常将分类问题中的目标变量称为类别,并假定分类问题只存在有限个数的类别。

为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精度。

机器学习的主要任务

除了分类问题(将实例数据划分到合适的分类中)外,机器学习的另一项任务就是回归,它主要用于预测数值型数据,如数据拟合曲线。分类和回归都属于监督学习,因为这类算法必须知道预测什么,即目标变量的分类信息。

与监督学习相对应的是无监督学习此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似对象组成的多个累的过程被称为聚类;将寻找描述数据统计值的过程称为密度估计。此外,无监督学习还可以减少数据特征的维度,以便使用二维或三围图形直观地展示数据信息。

如何选择合适的算法

选择实际可用的算法必须考虑以下两个问题:使用机器学习算法的目的;需要分析或收集的数据是什么。

考虑使用机器学习的目的。如果想要预测目标变量的值,则可以选择监督学习算法。在根据目标变量的类型,离散型选择分类器算法,连续数值型选择回归算法。如果不想预测目标变量的值,则可以选择无监督算法,再根据是否需要将数据划分为离散的组,确定使用聚类算法,如果还需估计数据与每个分组的相似程度则选择使用密度估计算法。

这里我们主要聚焦在分类器算法

其次需要考虑数据问题。特征值是离散型变量还是连续型变量,特征值中是否存在缺失的值,何种原因造成缺失,数据中是否存在异常值,某个特征发生的频率如何。充分了解这些数据特性有助于我们选择机器学习算法。

开发机器学习应用程序的步骤

  1. 收集数据:如使用网络爬虫从网上抽取数据,设备发送来的实测数据等
  2. 准备输入数据:确保数据格式符合要求,方便匹配操作
  3. 分析输入数据:人工分析得到的数据是否存在空值、异常值,是否可以识别出模式
  4. 训练算法:将训练数据集输入到算法中,抽取知识或信息
  5. 测试算法:评估算法的效果,如识别准确率、用时等
  6. 使用算法:将算法转换为应用程序,执行实际任务。

Python语言的优势

为什么选择Python作为实现机器学习算法的编程语言?

  1. Python的语法清晰
  2. 易于操作纯文本文件
  3. 使用广发,存在大量的开发文档

缺点:性能问题,运行效率不高。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容