Day 3 模型选择

TODO

学习曲线和网格搜索代码

错误类型

  • 过度简化 -->欠拟合
    • 在训练集中表现不好,称这种错误类型为 偏差引起的误差(error due to bias) -->high bias(高偏差误差)
  • 过度复杂化 -->过拟合
    • 训练集表现好,但测试集上表现不好,偏向于记住而不是学习特点,称这种错误类型为 由方差引起的误差(error due to variance) -->high variance(高方差误差)

模型复杂度图表

计算出 训练误差个数 和 测试误差个数

交叉验证

  • training set(训练参数,训练一堆模型) | cross validation set (对模型做出决定,例如多项式的次数,选出最好的模型) | testing set (模型最终的测试)


    Screen Shot 2018-08-31 at 7.47.54 PM.png

k折交叉验证

sklearn

from sklearn.model_selection import KFold
kf = KFold(12,3,shuffle = True)
# 12代表数据集个数,3代表每一个bucket中训练集的个数,shuffle = true 表示随机分配

for train_indices, test_indices in kf:
print(train_indices,test_indices)

学习曲线 (Learning Curves)

判断欠拟合,恰当和过拟合


Screen Shot 2018-08-31 at 8.08.08 PM.png

注:高偏差 -->两条曲线交点偏高,恰当 -->两条曲线交点偏低, 高方差 -->两条曲线不会相交

通过学习曲线检测过拟合和欠拟合

网格搜索

  1. logistic regression model


    Screen Shot 2018-08-31 at 8.37.08 PM.png

    训练集算出多项式的斜率和系数(超参数)等,cv计算F1得分,选择F1 得分最高的模型,测试集保证模型比较适合
    2.Training a Decision Tree
    超参数之一为深度,参数是树叶和节点等的阈值


    Screen Shot 2018-08-31 at 8.39.47 PM.png
  2. Training a Support Vector Machine
    超参数:内核(线性或多项式),gamma参数 -->多个超参数 ->grid search,gamma建议设置几个按指数级增长的值,例如0.1,1,10


    Screen Shot 2018-08-31 at 8.43.04 PM.png

在sklearn中的网格搜索

假如训练svm,想在如下参数间做出决定--- kernel : poly或rbf,C: 0.1,1,或10

  • 导入GridSearchCV
    from sklearn.model_selection import GridSearchCV
  • 选择参数
    字典,keys是参数名称,values是每个参数可能值的列表
    parameters = {'kernel' : ['poly', 'rbf'], 'C': [0.1,1,10]}
  • 创建一个评分机制(score)
    此处选择F1分数
from sklearn.metrics import make_scorer
from sklearn.metrics import f1_score
scorer = make_scorer(f1_scorer)
  • 使用参数(parameter)和评分机制(scorer)创建一个GridSearch对象,使用此对象与数据保持一致(fit the data)
grid_obj = GridSearchCV(clf, parameters, scoring = scorer)
grid_fit = grid_obj.fit(X, y)
  • 获得最佳估算器(estimator)
    best_clf = grid.fit.best_estimator_

附:每日一题:几句话简述 TF-IDF的思想是什么

参考TF-IDF与余弦相似性的应用(一):自动提取关键词

解答:

  • TF-IDF算法是一种用于信息检索和数据挖掘的常用加权技术。其主要思想是通过给评判是否为关键词的指标分配不同权重,并结合为一个指标。TF-IDF算法认为词频和逆文档频率是两个重要衡量指标,并给予了对应的计算方法。但是否为关键词的指标还应包括词的位置信息,以及其本身与主题的切合度等,所以并不完善。可以考虑给不同位置的词分配不同的权重。还可以考虑其与标题的相似度(比如用余弦相似性的原理?)代替其与主题的切合度。与主题相关的处理方法还可以考虑抓取一些signposting language, 往往作者在传达主题时会用一些特定的句型或词,所以可以考虑通过这个抓取主题,从中挑选出关键词。
  • TF(Term Frequency) 词频
  • IDF(Inverse Document Frequency)逆文档频率。在词频的基础上,要对每个词分配一个"重要性"权重.权重大小与词的常见程度成反比
  • TF-IDF = TF*IDF
  • 算法细节:
    • 计算词频


      0.png

      或者


      1.png
    • 计算逆文档频率


      2.png
    • 计算TF-IDF


      3.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,841评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,415评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,904评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,051评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,055评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,255评论 1 278
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,729评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,377评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,517评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,420评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,467评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,144评论 3 317
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,735评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,812评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,029评论 1 256
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,528评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,126评论 2 341

推荐阅读更多精彩内容

  • 本内容为Udacity课程波士顿房价预测项目,欢迎阅读,有错的地方请留言。仅参考不建议作为其他用途。 优达学城毕业...
    MrMiaow阅读 14,338评论 1 18
  • 前言 本文根据实际项目撰写,由于项目保密要求,源代码将进行一定程度的删减。本文撰写的目的是进行公司培训,请勿以任何...
    b19707134332阅读 4,817评论 0 18
  • 机器学习工程师纳米学位 模型评价与验证 项目 : 预测波士顿房价 第一步. 导入数据 在这个项目中,你将利用马萨诸...
    代号027阅读 3,782评论 0 1
  • 利用回归预测数值型数据 线性回归 前面讲的都是监督学习中的分类,训练出可以判断样本类别的模型,而回归的目的是预测数...
    我偏笑_NSNirvana阅读 9,511评论 4 50
  • Android开发工具集合 android studio开发工具大全
    戴马阅读 155评论 0 1