深度学习中的特征工程

转自本人博客 Lew's Blog

  1. 什么是特征工程?
    顾名思义,特征工程是一种工程活动,目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据和特征决定了机器学习的上限,算法和模型不过是逼近这个上限。不过深度学习不用像传统机器学习那样人为合成高级复杂特征,只需利用人类的先验知识处理一阶特征,后面深度学习会自己学习到相关的复杂特征。
  2. 数据类型
    不同的数据有不同的数据类型,而不同数据类型的数据处理方式也不同
    • 离散型数据
      在进行机器学习或深度学习的建模中,总会碰到离散型数据,比如 性别:男,女;比如学历:高中,大学,硕士,博士。一般来说,对离散型的数据有以下几种处理方式:
      • One-Hot Encoding(若特征种类很多,高稀疏化)
      • Hash Encoding(低稀疏,高压缩)
      • embedding(注意比较与Hash Encoding 的区别,NLP常用)
      • 基于计数的encoding
      • 特殊情况:当输入是0,1的二值信号,而且0是对所模拟的模型是有作用的,那么这时候采用flatten的战术,即0变成0,1 ,1变成1,0 。比如原来64个输入特征,flatten后变成128个特征,实例参考建模攻击PUF的相关项目。注意flatten和one-hot有本质区别,一个是扩展特征的长度,一个是扩展特征的维度。
    • 连续型数据
      除了分类这样的离散数据,我们也会碰到诸如身高,学习成绩,资金等连续型的数据。对于连续型数据,有以下的处理方式:
      • 缺失数据处理:在收集来的数据中,往往会出现某处数据为空不存在的情况。一般处理方式有填0处理,填NAN处理,平均值或中位值处理等。没有特殊情况的话,一般不推荐填0处理,0和空相差的意义较大,0是有意义的。
      • 归一化:归一化与标准化的区别:标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。
      • 离散化:将连续值分区,某个分区内的数据均为某个分类值。例如个人资产为连续值,处理后 个人资产小于100W为普通阶级,个人资产100W-1000W为中产阶级,个人资产1000W以上为富人阶级等。某些情况下若取值跨度太大或者太小,可以取对数或者开方平方等处理后再离散化。
    • 时间数据
      时间数据本质上也还是一种连续数据,但是有一些特殊的地方,比如时区,比如周期性。因此处理时尤其要注意特殊节假日,时区等问题。
    • 空间数据
      例如经纬度,地址,邮编等,比较不规范,根据具体情况进行处理

Reference

  1. 详解特征工程与推荐系统
  2. 特征工程到底是什么?
  3. 数据预处理: One-Hot Encoding
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容