量化交易平台Quantopian讲座(10)——离散与连续随机变量

随机变量指取值具有偶然性的变量，通常我们使用概率分布来描述它。摇骰子就是一个经典例子，结果为1-6均匀分布。具体又可以分为离散随机变量与连续随机变量，下文会分别进行介绍。在金融中，使用随机变量建模非常有用，金融资产的价格的波动可以通过确定性模式与随机模式来进行描述，其中随机模式中就需要使用到随机变量。

概率分布函数

每个随机变量都服从其内在的概率分布函数，概率分布函数表明了出现每个可能值的概率，通常我们使用P(X=a)来表示X等于a的概率，对于离散随机变量，使用p(x)来表示P(X=x)，这个通常也被称为概率质量函数(P.M.F)。对于连续随机变量来说，每个点上的概率都为0，无法再使用概率质量函数，这里就需要使用概率密度函数(P.D.F)。概率分布是毕苏期权定价模式、二叉树定价模型及资本资产定价模型(CAPM）的基础，进行蒙特卡洛模拟也需要理解概率分布。
对于每个概率分布函数，还有与其对应的累积分布函数（C.D.F），累积分布函数被定义为

累积分布函数

注：离散型我们通过累计所有小于等于x的概率密度函数计算，连续性则需要使用微积分进行处理

离散随机变量

离散随机变量存在有限结果集，每个结果都有其独立的概率，例如抛硬币，正反面都有1/2的概率出现。但是并不是一定所有结果出现的概率都相等，每个结果出现的概率由其概率质量函数决定。
概率函数有以下两个主要特征

0≤p(x)≤1 因为所有概率都介于0，1之间
所有结果的p(x)之和为1

接下来我们介绍两种最为常见的离散型概率分布。

均匀分布

均匀分布是最为基本的概率分布，所有结果出现的概率完全相同，以掷骰子为例，筛子有六个面，分别代表数字1~6，每个面出现的概率是完全相同的，都为1/6，于是其概率质量函数可写作p(x)=1/6。
我们分别用程序模拟掷骰子10次与10000次，来观察一下各个值出现的次数。

示例代码

10次的结果图

注：可以看到实验次数少的情况下，分布可能存在非常不均匀的情况

10000次的结果图

注：可以看到这时候各个值出现的情况基本已经完全一致
对于掷骰子，我们来看下其对应的概率质量函数(P.D.F)与累积分布函数(C.D.F)

概率质量函数与累积分布函数

可以看到概率质量函数如上所述，全部为1/6，而累积分布函数由1/6一直递增至最后的1，累积函数也有两个主要特征：
1.分布累积函数取值也是介入0，1之间
2.分布累积函数随x增加，保持不变或增加，不会出现降低的情况。

二项分布

二项分布通常用来描述成功/失败情况，在投资中，许多的决策都会导致结果出现二分的情况。如果只做一次成功/失败试验，我们称之为伯努利试验，伯努利试验有两个可能的结果:

伯努利试验

注：假定1表示成功，p代表成功的概率
二项分布则是进行n次伯努利试验，其中成功的次数。其中每次伯努利试验相互独立，整体分布由n与p两个参数决定，可写为X~B(n,p).
为了计算二项分布随机变量的概率分布函数，我们需要从总试验中选出成功的个数，这就是组合解决的问题（从一个集合中选出元素的所有可能，不考虑次序），从n个元素中选出x个的排列定义如下：

排列公式

使用排列公式，我们也就可以很容易地得到二项分布的概率分布函数：

二项分布概率分布函数

注：表示从n个元素中选出x个成功，标识为成功，其余为失败
X ~ B(5,0.50)的概率质量函数和累积分布函数如下：

二项分布的概率质量函数与累积分布函数

注：可以看到2次和3次概率最高，因为它们在组合中出现的次数最多
通过代码模拟10000次该试验，可以看到结果与预想非常吻合

示例代码

结果直方图

如果假定股票的价格随某个符合二项分布的随机变量波动，就可以得到股票价格波动的二项式模型，这个模型也是许多期权定价模型的基础。模型假定特定时期内，股票的价格会根据上升/下降的概率波动，这就将股票价格转换为了二项随机变量、上行/下行度（上升/下降概率）与初始股价的一个函数，通过参数的调整，这个模型可以用来预测各种不同证券的价格。

连续随机变量

与离散随机变量不同，连续随机变量存在无限多个结果，而正因为有无限多个结果，又会导致任意单个结果的概率为0，所以研究单个结果的概率毫无意义，对于连续随机变量，我们往往会考虑某个区间内结果的概率，这里就需要使用上文提到的概率密度函数（P.D.F）与微积分，例如X介于a与b之间的概率可表示为：

连续随机变量区间内概率

概率密度函数有两个基本要求：

对于所有X来说，概率密度函数值大于等于0
在−∞~+∞的范围上，概率密度函数的积分为1

连续均匀分布与正态分布是最为常见的两种分布形式

连续均匀分布

假设a与b分别代表可能结果的最小与最大值，连续均匀分布的概率密度函数如下：

连续均匀分布概率密度函数

将其绘制成图表，可以看到其为一条水平的直线：

连续均匀分布概率密度函数图表

累积分布函数也可以通过计算矩形面积的方式得到：

连续均匀分布累积分布函数

图形为一条从原点发散的斜向上直线：

连续均匀分布累积分布函数图表

正态分布

正态分布是统计学中非常普遍且重要的一种分布，许多统计学方法与检验（金融分析）都是以数据满足正态分布为前提假设的，这些都得感谢中心极限法则(CLT，样本足够大的独立试验都满足正态分布)。在一些量化交易策略中，正态分布也为我们提供了许多便捷，例如许多配对交易策略，就是以证券对间的价差变化服从正态分布为基础的。
正态分布有两个参数，平均值(μ)与方差(σ2)，X服从正态分布可以写为：

X服从正态分布

现代组合理论中，通常都假设证券收益服从正态分布，而且正态分布还具有一个很关键的特征，多个服从正态分布的随机变量的线性组合仍然服从正态分布，这就为证券组合及其后的分析提供了极大的便利。
正态分布的概率密度函数如下：

正态分布概率密度函数

注：X定义的范围为−∞~+∞。如果μ=0并且σ=1，这时候的正态分布称为标准正态分布
我们将均值为1，方差分别为1、2的两个正态分布概率密度函数绘制出来，看看两者有什么区别

示例代码

均值相同，方差不同的两个正态分布

注：蓝色为标准正态分布，绿色为方差为2的正态分布
可以看到，方差越大，波峰就越低，也就意味这在均值附近的分布越少。
正态分布在金融中常常被用来对收益建模，而不是对股票价格建模，这是因为股票价格不会低于0，而正态分布则不存在此限制。
一旦知道了正态分布的均值（μ）与标准差（σ），就可以得到以下几条常用结论：

68%的观测值会落在μ±σ的区间内
95%的观测值会落在μ±2σ的区间内
99%的观测值会落在μ±3σ的区间内
这其实就是置信区间的概念。

使用中心极限法则（注：样本一定要足够大），我们可以将不同的随机变量标准化为标准正态分布变量，标准化的方式为：

标准化

注：其中μ为均值，σ为标准差
例如假定X为服从二项分布，X ~ B(n,p)，其均值与方差为

二项分布的均值与方差

我们对10000次二项分布试验的结果进行标准化，再讲标准化的结果绘制出来，看看会是一个什么图形

示例代码

绘制结果

** 注：可以看出是一个正态分布的形状 **

分布拟合

接下来，我们尝试对股票的收益进行分布拟合，看看特斯拉2015年全年的每日收益率是否符合正态分布。在开始之前，必须要做的是检查收益数据是否符合正态分布的特征，这里需要使用J-B检验，如果最后得到的p值低于阈值，则表示不符合正态分布。

示例代码

注：可以看到J-B检验的p值小于了阈值，所以可以认为收益率是不符合正态分布的
既然认为特斯拉2015年的收益率是不符合正态分布的，接下来我们假设其符合正态分布，计算其概率密度函数，并绘制在同一图表当中，来看看实际数据与理论上正态分布的差异。

示例代码

拟合图

图中可以明显看到理论曲线的波峰要比实际值低了不少，这也印证了上文非正态分布的结论，决定正态分布波峰高低的系数称为峰度，正态分布的峰度值为3，而特斯拉数据计算出的峰度值为5.2。对于价格与收益的建模，非常困难的一点就在于无法确定背后的真实分布。正态分布在金融中应用如此广泛在于许多的理论与框架都是基于正态分布假设的（例如毕苏期权定价模型就假设了股票价格是对数正态分布的），但现实世界中的数据很难满足正态分布的假设，在实际策略实现时，除非你有足够充分的理由，否则请不要假设数据是满足某些特定分布的。
总的来说，在进行实际的分布拟合时，我们脑中应该有几个预期的分布，针对这些分布，需要进行大量的校验来确定哪一个才是最佳的拟合，而且，一旦有新的信息可用，就必须对样本均值、方差进行更新，甚至需要重新选择模型进行拟合。
本文就到这里，感谢阅读，欢迎订阅:)

最后编辑于：2017.12.06 01:04:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,332评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,930评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,204评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,348评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,356评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,447评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,862评论 3赞 394
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,516评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,710评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,518评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,582评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,295评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,848评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,881评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,121评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,737评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,280评论 2赞 341

量化交易平台Quantopian讲座(10)——离散与连续随机变量

概率分布函数

离散随机变量

均匀分布

二项分布

连续随机变量

连续均匀分布

正态分布

分布拟合

推荐阅读更多精彩内容