数据预处理和特征工程

作者:hooly

微信公众号:一口袋星光

1.导入数据

2.数据预处理:

2.1标准化:

把数据按比例缩放,使之落入一个小的空间里。常用的方法有:

1.z-score标准化(或零-均值规范化),经过处理后的数据均值为0,标准差为1,处理方法是:

z-score

其中μ是样本的均值,σ是样本的标准差

2.区间放缩法/线性转换:

y=( (x-MinValue) / (MaxValue-MinValue) )(new_MaxValue-new_MinValue)+new_minValue

2.2归一化:

归一化把有量纲的数据转化成无量纲数据,且归到[0,1]区间内,常见的方法有:

1.区间放缩法/线性转换:

区间放缩法/线性转换

其中min是样本中最小值,max是样本中最大值,最大值与最小值非常容易受异常点影响。

2.对数函数转换:

y=log10(x)

标准化和归一化的区别:

标准化是将数据压缩到一个小的区间;而归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]区间内。

2.3定量特征二值化:

以某个值为阈值,转换为0,1变量

eg 将用户的对某类产品的近3个月的购买频次二值化,设置>10次算做频繁购买,<=10次算不频繁购买;(这个例子可能不够好)

2.4定性特征哑编码

哑变量:也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量。

eg 假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了

2.5连续数据离散化

将连续的特征,做分组处理,使其离散化,

eg团购所有的deal的折扣分布,是从0到10折之间的连续的值,我们可以按照步长为1折进行分组。所以所有折扣可以分为0~1折;1~2折...9~10折

2.6缺省值填补,missing value

对于缺失值填补有几种方式,均值填补、中位数、众数等统计上的数据填补。或者使用机器学习预测数据进行填补

eg 比如上面例子中的折扣我们可以使用均值(mean)填补,但是对于性别缺省的我们无法填补,这时候可以使用机器学习进行性别预测(当然预测的效果只有你自己知道)

2.7交叉特征:

有些特征需要交叉才有意义:示例

2.8降维

3.特征选择

3.1 Filter法(过滤法)

按照变量内部特征或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数选择特征.与特定的学习算法无关,因此具有较好的通用性,作为特征的预筛选器非常合适。缺点主要是由于算法的评价标准独立于特定的学习算法,所选的特征子集在分类准确率方面通常低于Wrapper方法。

1方差选择法:计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征,简单来说方差过小的特征,说明特征值变化不大,这样的特征会导致后面学习效果比较差,所以我们应该尽量选方差较大的特征。

2.相关系数计算法:可以使用皮尔逊系数计算特征自标量和目标值因变量之间的相关系数。[-1,1]之间,大于1正相关,小于1负相关,等于0 不相关。

3.卡方检验

4.互信息

3.2 Wrapper法(封装法)

封装式特征选择是利用学习算法的性能来评价特征子集的优劣。因此,对于一个待评价的特征子集,Wrapper方法需要训练一个分类器,根据分类器的性能对该特征子集进行评价,学习算法包括决策树、神经网络、贝叶斯分类器、近邻法以及支持向量机等。Wrapper方法缺点主要是特征通用性不强,当改变学习算法时,需要针对该学习算法重新进行特征选择。

1.递归特征消除法:递归消除特征法使用一个模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。Logistic回归的R实现详见本微信公众号历史文章:Logistic回归详解(三)——变量选择部分。

3.3 Embedded(集成法)

在集成法特征选择中,特征选择算法本身作为组成部分嵌入到学习算法里。最典型的即决策树算法。包括基于惩罚项的特征选择法和基于树模型的特征选择法。

1.基于惩罚项的特征选择法

2.基于树模型的特征选择法

4降维

4.1主成分分析PCA

4.2线性判别分析LDA

作者:hooly

微信公众号:一口袋星光

我会在微信公号上持续更新我的文章,你来讨论我很欢迎。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容