量化投资方法研究评述与未来展望
摘要:量化投资是一个年轻且充满生命力的领域,近年来在我国学术和实业界的发展都十分迅速。但现有的研究文献还比较零散也缺乏比较优质的文献综述,给相关研究者带来困惑。本文对近年来量化投资领域比较经典和新的文献进行了梳理。全文共包括五个部分,第一部分是引言,说明了文献综述的范围和本文的目标。第二部分说明了量化投资的定义、量化投资的主要过程以及其与传统投资的区别。第三部分叙述了量化投资底层的金融理论沿革以及其底层理念。第四部分梳理了目前比较混乱的量化投资领域分类。最后第五部分则是一个总结性的叙述。
关键词:量化投资、量化交易、文献综述
一、引言
量化投资,与传统投资方法相比,是一门数学、金融学、心理学、计算机科学等学科交叉融合的新兴学科,也是一种学术界和实业界高度结合的采取数理方法进行投资组合管理谋取超额收益的年轻投资方法。其在美国已有四十余年的历史并构成了美国金融市场举足轻重的构成部分,涌现出了诸如西蒙斯等大量量化投资专家和如量子基金、欧米伽对冲基金公司等成功的量化基金案例。在我国,量化投资相对进入较晚还很不成熟,但发展十分迅速,市场规模和份额不断扩大,受到越来越多的业内投资者的认可。
一方面量化投资和学术界的研究非常紧密,其本身就是由投资学的发展带来的,目前许多量化研究员的主要工作就是转化学术成果到实践背景中进行验证.(张然等,2017)。另一方面我们也注意到,量化投资在传统金融学和数学的理论和方法的基础上伴随着新的金融工程技术、大数据存储和计算技术、机器学习算法不断涌现出诸多分支;在实业界,量化投资策略与方法是一种宝贵的易受曝光而使其时效性遭受损失的商业秘密,故大量先进成果未向社会公布,而在中国学界该领域的研究还相对比较稀少和零碎,也缺少比较优质的综述类文献。
因此,本文根据国内外量化投资领域的一些具有代表性的文献,重新梳理了量化投资的概念、理论基础、包含的子领域及其内容特点。并分析了量化投资在中国市场的适用性,指出了本领域一些具有发展前景的研究方向。
二、量化投资定义
(一)量化投资的定义
目前国内外对于量化投资尚未有一个统一的定义,但一般分成狭义和广义两种角度。从狭义定义的角度讲,如张然,周柏成等对其的解释是“量化投资采用一定的数理模型对投资策略和逻辑进行量化,进而通过计算机技术等现代科技手段来实现其投资过程”。(周柏成,刘毅男,2019),这种定义强调量化投资只是通过计算机技术辅助实现策略背后投资者的投资逻辑,如张然指出“如何选择阿尔法模型的选股因子?最重要的标准是选股因子是否符合经济直觉,一个好的因子,一定能用简单的语言描述其选股逻辑”(张然,汪荣飞,2017),但是这种定义具有局限性,把一些近些年不断涌现的诸如基于数据挖掘和机器学习方法挖掘因子的统计方法排斥在外。
而从广义的角度讲,Fabozzi在其著作《Challenges In Quantitative Equitiy Management》用是否采用固定规则和计算机模型区分量化投资和传统投资方法“通过信息和个人判断来管理资产为基本面投资或者传统投资,如果遵循固定规则,由计算机模型产生投资决策则可被视为数量化投资”(Fabozzi,2008),该定义被相应广泛采信,本文也采用该定义。
(二)量化投资主要过程
不同的量化投资交易员可能采取迥然不同的量化方法,但通常而言,一个完整的量化投资都要离不开以下几步。我们综合了国内的一些比较具有代表性文献作出以下描述:
1、数据的获取和预处理
充足和清洁的数据是一个量化的量化策略,特别是数据驱动型的量化策略得以构建的最基本前提。一般目前市场上的数据质量和数量都比较参差不齐,但目前比较常用的主要有以下3个来源:
首先是收费的数据来源,如国内的Wind、国外的彭博系统都能提供较为全面的金融数据,但由于其成本高昂,主要适用于机构投资者。也有一些机构投资者会组建团队,自己获取和处理有关数据。
其次是免费的数据来源,如许多金融机构和python库都提供免费的金融数据下载,但是普遍存在数据错误和缺失较多,数据质量较差的问题。
最后是量化交易平台提供的数据,目前国内外有许多量化平台,如BigQuant等都会免费为其平台用户提供数据研究,但是这些数据依赖于平台,常常存在不能方便或免费的导入和导出的困难。
获取数据后,还必须对数据进行预处理,这一过程主要包括数据清理、数据聚合、数据变换、数据离散化和数据规约等。这些操作十分繁琐但极其重要,在数据科学领域,有关人士作出实证研究统计,前期对数据的预处理工作常常占据到数据科学家70%以上的工作量。
2.量化投资策略的构架
主要包括阿尔法模型、风险控制模型和交易成本模型的构建。该部分也被一些学者称为黑箱(张利平,2014)。
其中阿尔法模型度量了收益,其本质是多因子模型,股票收益被表达为各类因子暴露度和因子收益乘积之和,其目的是寻找预期收益更高的因子,这些因子就是阿尔法因子中的选股因子,而如何找到更好的选股因子是学界和业界一直以来最关心的话题。(张然等,2019),有学者认为,量化投资一直追求的无非是“持续、有效地转换更多的好因子”(Kahn,2010)。
风险控制模型有多种方式,一般来讲被普遍认可的是适用多因子模型进行风险估计。2012年BARRA公司发布BARRA CNE5模型,尽管一些学者也指出了诸如过拟合等问题,但BARRA中国风险模型的构建方法严谨、数据结果的可信度很高,对于成熟度较低的中国A股市场,无疑是业界标杆。(张然等,2017)
交易成本模型中则主要考虑往已有模型中加入显性交易成本和隐性交易成本以降低模型和现实差异造成的风险,前者包括佣金和印花税等,后者则包括买卖价差、价格冲击和机会成本等只有当执行交易时才会发生的成本。
3.策略的回溯测试
回测过程就是讲投资策略模型放入到一段历史中进行检测,得出期间的收益和风险情况等指标。该过程在编程上往往比较繁琐,容易出现错误,但其代价十分高昂,必须小心的避免可能出现的诸如前视风险和后视风险等。
4.策略的优化
量化投资研究员往往筛选出回测结果较好的策略,进行多次迭代和优化,通过不断检测后,最终方将其用到实盘交易中。常常使用的验证方法包括交叉验证和网格搜索两种。前一种相对简单,后者相对复杂。(周柏平等,2019)
(三)量化投资与传统投资的区别
近年来一些学者总结了量化投资和传统投资的一些对比(刘毅,2012),尽管不能完全的概括量化投资的特点,但也包含了主要方面,故本文得以采用。
表1:量化投资和传统投资的区别
也有一些学者比较好的概括了与传统投资相比,量化投资的优点和弊端(周柏平等,2019),在这里我们列述如下表:
表2:量化投资的利弊
三、量化投资的金融理论基础
(一)理论基础
量化投资是建立在深厚的金融和统计学理论之上的。是一门理论和实践结合非常强的学科。Louis Bachelier首次用量化手段描述了布朗运动,构架了至今都很重要随机游走模型,该模型形成了最早的金融市场理论框架(Louis Bachelier,1900)。Harry M.Markowitz在其论文首次引入了均值和方差的概念量化度量投资组合中的收益和风险,即“投资组合理论”,至此学界对微观金融和投资学领域开始由定性研究时代进入到定量研究时代。(Harry M.Markowitz,1952)。随后在60年代,Sharpe(1964)、Litner(1965)和Mossin(1966)在Harry M.Markowitz的理论上几乎各自独立的提出了CAPM模型。该模型将资产风险进一步分为资产的“市场风险”和“非系统风险”。使其能够反映风险和与预期收益的证券价格。同时Fama在60年代也提出了重要的有效市场假说,将市场按有效程度分为3个级别,这两个理论都为量化投资提供了基础。1970s,随着美国活跃的金融创新,Black&Scholes推导出B-S模型解决了衍生品定价问题。同时由于CAPM理论建立在过于严苛的理论假设上,Stepen A.Ross(1976)也提出了基于更少和更合理假设的APT套利模型。80s-90s,随着金融工程的兴起,诸如著名的风险管理模型Var等被不断提出,如Eugene F.Fama(1993)等也在APT理论和CAPM理论的基础上构架了著名的“三因子模型”,CarHart(1997)则在Fama的模型基础上加入动量因子,形成了当前业界仍广泛采用的“四因子模型”。与此同时,被广泛接受的有效市场假说也因市场出现了大量无法解释的现象而被抨击,备具活力的行为金融学学派横空出世。90s至今,随着计算机科学和数据科学的不断演进,非线性科学中诸如Nerual Network、Deep Learning、Decision Tree等方法和研究工具被不断应用到量化投资领域中,涌现出许多新的量化投资分支和研究成果。
(二)量化投资的假设
Chincarini(2006)曾对量化投资分析框架的底层理念做了一个简单的总结:
四、量化投资方法的分类及特点(量化投资分类与构成)
对于量化投资的分类目前尚未有一个统一的定论,并且新的研究方法和分支也在不断涌现而出,本文筛选出了三种比较主流和合理的分类方法。
(一)按阿尔法模型的不同分类
张利平在其论文中按照阿尔法模型的不同将量化模型分为理论驱动型和数据驱动型两类的方法(张利平,2014)。两类方法主要的分歧在于量化投资策略的构架特别是阿尔法模型中的因子选择步骤上。
理论驱动型的量化投资方法重视投资逻辑,投资者根据观察,提炼出能解释所观察现象的一般性模型,然后使用市场数据进行检验,判断该理论能否有效的反应市场情况,带来正的阿尔法。理论驱动型的量化方法强调逻辑性,指出过度依赖于数据挖掘会陷入到过拟合的陷阱,缺少了投资逻辑的支撑因此极易在捕捉到真正的规律和特点的同时,捕捉到大量的噪声。(周柏平等,2019)张然等也指出缺乏投资逻辑支撑的因子挖掘具有失控风险,认为一个好的因子必须可以用简单的话语描述其背后的投资逻辑(张然等,2017)。目前学界和业界最常用的是多因子模型,已经有一套相对比较成熟的方法。
与理论驱动型相对应的则是数据驱动型的量化投资方法,指依靠机器学习等新兴的算法和分布式计算等新技术带来的廉价及时的强大数据处理能力,替代人工进行因子选择的方法。该方法可以看成一个数据挖掘的过程。其因子选择的逻辑与理论驱动型完全不同,依赖于统计规律如大数定律而非人工知识经验。故一方面支持者认为其是量化投资未来的希望与主流方向,因其能避免人工因子选择的主观性和局限,因子选择的广度也大大拓展了,特别是在因子选用高度相似以至于有效阿尔法因子时效性越来越差的当下,这种能力更是弥足宝贵。反对者则认为其缺乏投资逻辑的支持,陷入噪声和过拟合的陷阱中以至于没有很好的实际用处。
目前,机器学习算法在中国股票市场预测问题的表现问题也成了一个实证性的问题,需要系统性的检验。这一方面的研究还很少,但也有如李斌等学者对机器学习驱动的量化基本面投资通过跑马比赛的方法进行了实证研究,检验了其与传统方法的效果差异。(李斌等,2019)
(二)按数据分类
按数据分类的方法则是根据选用数据内容与类型的不同对量化投资分类,基本面数据量化投资、技术面数据量化投资和事件数据量化投资等。
其中,基本面数据可构建出包括价值型策略、成长性策略、品质型策略以及其他类型的策略(张利平,2017);技术面数据主要包括了趋势指标、震荡指标、超买超卖指标、能量指标、动量指标等(李斌等,2017),也包括用于修正策略的市场信号数据,如市场参与者信号、市场价格信号、市场情绪信号等(张然等,2017);事件数据则常常结合了NLP等技术,将事件转换为可以放入模型中进行预测的数据,常见的事件数据有“高送转”事件、定向增发事件、业绩预告事件、高管增持事件、指数样本股调整事件(周柏成等,2019)。与此同时,随着技术进步,如财经新闻、媒体舆论等以往难以及时观测的非结构化数据,也越来越多的加入到我们的因子数据中。在实际应用中,我们往往以某一类型数据一般为基本面数据为主,构建各种包含各种数据在内的因子库结合使用。
(三)按主题分类:
量化投资也包括了大量的子领域,一些时候我们也将其称之为量化投资。这些子领域的一部分包括:择时交易、高频交易、CTA量化投资策略、ETF量化交易、统计套利等。总体而言,可以分为四大类(刘毅,2012)
表3:量化投资研究分类
五、结论与展望
量化投资是一个富有生机的跨多学科的新领域,特别在国内A股市场的弱市场环境下可能更具潜力,但国内在该领域的研究还比较少,比较零散,也缺乏比较好的文献综述。因此本文对近年来比较经典和新的国内外文献进行了总结。首先明确了量化投资的定义与过程,然后指出了其与传统投资方式的异同点与利弊。其次,对量化投资的底层理论的沿革与其底层的理念与假设进行了说明。最后,对目前比较混乱的量化投资分类进行了重新梳理,并指出了各个子类的特点,这也是本文最有创新的地方。同时本文也指出,随着机器学习、大数据算法等技术的普及以及算法算力的提升,基于数据挖掘的量化投资也是一个十分具有希望的方向。
参考文献
[1]金业.金融市场量化交易策略与风险研究[J].金融经济,2019(16):124-125.
[2]李斌,邵新月,李玥阳.机器学习驱动的基本面量化投资研究[J].中国工业经济,2019(08):61-79.
[3]何诚颖.人工智能炒股能跑赢大盘吗?[J/OL].人民论坛·学术前沿:1-10[2019-12-10].http://kns.cnki.net/kcms/detail/10.1050.C.20191016.1745.002.html.
[4]虞雀.量化交易的未来前景研究[J].经贸实践,2018(12):68.
[5]胡熠,顾明.巴菲特的阿尔法:来自中国股票市场的实证研究[J].管理世界,2018,34(08):41-54+191.
[6]谢堞江. 量化交易策略综述与新策略设计[D].浙江大学,2016.
[7]陈永伟.人工智能与经济学:近期文献的一个综述[J].东北财经大学学报,2018(03):6-21.
[8]刘倩倩. 基于情绪择时的量化投资策略研究[D].山东财经大学,2015.
[9]王宣承.基于LASSO和神经网络的量化交易智能系统构建——以沪深300股指期货为例[J].投资研究,2014,33(09):23-39.
[10]李斌,林彦,唐闻轩.ML-TEA:一套基于机器学习和技术分析的量化投资算法[J].系统工程理论与实践,2017,37(05):1089-1100.
[11]张利平. 基于多因子模型的量化选股[D].河北经贸大学,2014.
[12]王帅. 量化投资:从行为金融到高频交易[D].华东师范大学,2013.
[13]王淑燕,曹正凤,陈铭芷.随机森林在量化选股中的应用研究[J].运筹与管理,2016,25(03):163-168+177.
[14]孔翔宇,毕秀春,张曙光.财经新闻与股市预测——基于数据挖掘技术的实证分析[J].数理统计与管理,2016,35(02):215-224.
[15]李子睿. 量化投资交易策略研究[D].天津大学,2013.
[16]刘毅. 因子选股模型在中国市场的实证研究[D].复旦大学,2012.
[17]张然、汪荣飞.《基本面量化投资》[M].北京大学出版社,2017:p249-p292
[18]周柏成、刘毅男.《量化投资策略》[M].清华大学出版社, 2019:p2-p58
[19]Cornett M M, Saunders A. Financial institutions management: A risk management approach[M]. McGraw-Hill/Irwin, 2003.
[20]Kahn R N. Quantitative equity investing: out of style?[J]. Journal of Portfolio Management, 2010, 36(2): 5.
[21]Chincarini L B. Quantitative equity portfolio management: An active approach to portfolio construction and management[M]. McGraw-Hill, 2006.
[22]Kakushadze Z. 101 formulaic alphas[J]. Wilmott, 2016, 2016(84): 72-81.
[22]Bachelier L. Théorie de la spéculation[C]//Annales scientifiques de l'École normale supérieure. 1900, 17: 21-86.
[23]Markowitz H. Harry M. Markowitz[J]. Portfolio selection, Journal of Finance, 1952, 7(1): 77-91.
[24]Sharpe W F. Capital asset prices: A theory of market equilibrium under conditions of risk[J]. The journal of finance, 1964, 19(3): 425-442.
[25]Mossin J. Equilibrium in a capital asset market[J]. Econometrica: Journal of the econometric society, 1966: 768-783.
[26]Karoui N E, Jeanblanc‐Picquè M, Shreve S E. Robustness of the Black and Scholes formula[J]. Mathematical finance, 1998, 8(2): 93-126.
[27]Cox J C, Ross S A, Rubinstein M. Option pricing: A simplified approach[J]. Journal of financial Economics, 1979, 7(3): 229-263.
[28]Fama E F, French K R. Common risk factors in the returns on stocks and bonds[J]. Journal of financial economics, 1993, 33(1): 3-56.
Abstract: Quantitative investment is a young and full of vitality. In recent years, it has developed rapidly in China's academic and practical industries. However, the existing research literature is still fragmented and lacks high-quality literature reviews, which confuses relevant researchers. This article reviews the classic and emerging literature on quantitative investment in recent years. This article consists of five parts. The first part is an introduction that illustrates the scope of the literature review and the purpose of this article. The second part explains the definition of quantitative investment, the main process of quantitative investment and its differences from traditional investment. The third part describes the evolution of financial theory at the bottom of quantitative investment and its underlying ideas. The fourth part sorts out the currently confusing classification of quantitative investment fields. The last part is a concluding narrative.
Keywords: quantitative investment, quantitative trading, literature review