机器学习中，有哪些特征选择的工程方法？

文章来自Ricequant实习生江嘉健，转载需授权

最近一段时间，我们米筐科技量化策略研究团队在自己的策略研究平台上，做了一些量化分析方面的特征工程和特征选择研究。关于它们在量化交易中的应用，我可以分享一下我们团队的经验。

首先，追本溯源，为什么特征工程和特征选择值得讨论？在实际的数据分析和建模中，我们通常要面对两种情况：1 数据集中已有的特征变量不够多，或者已有的特征变量不足以充分表征数据的特点；2 我们拥有大量的特征，需要判断出哪些是相关特征，哪些是不相关特征。特征工程解决的是第一个问题，而特征选择解决的是第二个问题。

对于特征工程来说，它的的难点在于找到好的思路，来产生能够表征数据特点的新特征变量；而特征选择的难点则在于，其本质是一个复杂的组合优化问题（combinatorial optimization）。例如，如果有 30 个特征变量，当我们进行建模的时候，每个特征变量有两种可能的状态：“保留”和“被剔除”。那么，这组特征维度的状态集合中的元素个数就是2的30次方。更一般地，如果我们有 N 个特征变量，则特征变量的状态集合中的元素个数就是2的N次方。因此，从算法角度讲，通过穷举的方式进行求解的时间复杂度是指数级的。当 N 足够大时，特征筛选将会耗费大量的时间和计算资源（图1）。在实际应用中，为了减少运算量，目前特征子集的搜索策略大都采用贪心算法（greedyalgorithm），其核心思想是在每一步选择中，都采纳当前条件下最好的选择，从而获得组合优化问题的近似最优解。

图1：通过穷举法求解特征选择问题的二叉树表示。状态集合中元素的个数随特征变量数目增加而呈现指数增长。

目前很多流行的机器学习的材料，都未能给出特征工程和特征选择的详细论述。其主要原因是，大部分机器学习算法有标准的推导过程，因而易于讲解。但是在很多实际问题中，寻找和筛选特征变量并没有普适的方法。然而，特征工程和特征选择对于分析结果的影响，往往比之后的机器学习模型的选择更为重要。斯坦福大学教授，Coursera上著名的机器学习课程主讲老师Andrew Ng就曾经表示：“基本上，所谓机器学习应用，就是进行特征工程。”

在特征工程和特征选择的在量化交易的应用方面，我们试图回答以下两个问题：

1 如何对沪深300指数进行特征工程？

2如何尽可能减少数据，以及算法本身的局限性给特征选择带来的负面影响？

接下来，就以上两个问题，不揣浅陋，我分享一些我们团队的经验和思考。

1沪深300指数的特征工程

在量化分析中，常见的因子大致可以分为四类：

（1）量价因子，例如成交量，收盘价等；

（2）基本面因子，例如市盈率，所属行业等；

（3）技术分析因子，例如MACD, DIF等；

（4）宏观经济因子（或称外部响应因子），例如利率，各个季度的经济数据等。

1970年，尤金法马（Eugene Fama）提出了有效市场理论，认为证券资产价格包含一切的市场信息。这就是量价因子能够反映市场特征的根本依据。对于一个非有效市场而言，我们认为，量价因子甚至可能更为重要：任何人根据非公开信息进行交易，其交易信息仍然会反映在量价因子中。类似的观点更接近于有效市场理论的强假设版本：市场上一切公开或非公开的信息，都会反映在资产的价格中。

基于这个思路，在四类因子中，我们首先尝试对量价因子实现特征工程。2015年，在一篇名为《WorldQuant Formulaic 101 Alphas》的研究报告中，以数据挖掘能力而闻名业界的对冲基金WorldQuant LLC给出了他们的 101 个阿尔法的数学表达式。在报告中，这些阿尔法表达式被分为了趋势追随，均值回归和混合型三种。既然这 101 个阿尔法表达式在实践中被证明行之有效，且对应明确的市场意义（趋势，反转和混合），在特征工程研究中，我们使用报告中的变换方法和阿尔法表达式为基础，构造了60 个特征变量，用于下一步的机器学习建模。这 60 个特征变量的构建过程，可参看我们第二份报告的附录2。

2集成特征打分器 (Ensemble Feature Grader, EFG)

如上所述，特征选择的本质上是求解一个计算量随特征变量个数呈指数增长的组合优化问题。基于不同的子集搜索和评价标准，不同的方法给出的都只是一个近似最优解，而解的合理性也将受方法本身的局限性所影响。因此，为了系统化地进行特征选择，获得更为合理的相关特征变量子集，在这里我们借鉴机器学习里面的集成学习（ensemble learning）的思想，提出一个集成特征打分器（以下称EFG)。在这个打分器中，我们使用了八种方法（Pearson 相关系数，距离相关系数，简单线性回归，基于AIC的Lasso回归，基于BIC的Lasso回归，随机森林，循环特征剔除和岭回归）对特征变量分别进行打分，并进而计算其总得分，以尽量减少数据和单一特征选择方法引起的问题，进而改善特征选择的效果。

我们进一步使用了 Frideman 训练集对 EFG 进行测试。这个训练集中包含非线性相关项，噪音项，权重不同的线性相关项和引起多重共线性的项，基本上囊括了实际数据处理中可能出现的主要问题，而 EFG 的测试表现令人满意。有兴趣的朋友，可以参看我们第二份研究报告附录1，了解详细的测试过程和结果。

在实际建模中，我们使用 EFG 对上一步获得的 60 个特征变量进行打分，筛选出 14 个得分较高的特征变量，并以此进行了聚类分析。我们发现两个聚类所对应的不同收益率分布，其中第一个聚类所包含的交易日，其下一个交易日的收益率的均值明显高于第二个聚类所对应的均值。基于这个结果，我们实现了一个基准择时策略。其思路是，如果一个交易日和聚类1的距离较近，我们就进行买入；离聚类2较近，则不进行交易。下午为该策略的累计收益率（图2），其表现明显好于长期持有沪深300指数相关的资产。

图2：使用 EFG 进行特征选择后累积收益率曲线计算：(a)沪深300指数；(b) 在聚类1包含的交易日进行交易；(c) 在聚类2包含的交易日进行交易

以上就是我们在利用机器学习算法进行金融量化分析中的经验和尝试。关于下笔为文，古人有一句真知灼见：“结字因时而变，运笔千秋不易。” 对于数据分析和建模来说，道理也不外如是。计算机理论和机器学习算法的发展，使得数据分析和建模成为了这个时代的显学。目前，用

R 或者 Python 等高级编程语言实现一个复杂的模型，所需的可能就是区区几十行代码。但是自问自心，我们是否能够真的对于数据和模型做得了如指掌？是否能保证当模型出现问题时，我们能知其所以然？在一个足够长的时间维度内，我们认为，在数据建模和量化交易中能够出类拔萃的人，始终应该保持着对数据和算法全面，准确，深刻的理解和思考。

概而言之，拨开数据的重重迷雾，理解和预测复杂多变的金融市场，即使不考虑其物质回报，其过程本身也令人着迷。我们走上了这条荆棘丛生，又有壮丽风光的旅途，乐于体认这个过程中一切的艰辛和甘甜。希望我们这里所叙述的经验和思考，也对你有所启发。

研究报告链接：

https://zhuanlan.zhihu.com/p/21337419

https://zhuanlan.zhihu.com/p/21406355

枕书达旦，以争朝夕，与君共勉。

作者：Ricequant

链接：https://www.jianshu.com/p/e66f88da0be2

來源：简书

简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341

机器学习中，有哪些特征选择的工程方法？

推荐阅读更多精彩内容