随机变量指取值具有偶然性的变量,通常我们使用概率分布来描述它。摇骰子就是一个经典例子,结果为1-6均匀分布。具体又可以分为离散随机变量与连续随机变量,下文会分别进行介绍。在金融中,使用随机变量建模非常有用,金融资产的价格的波动可以通过确定性模式与随机模式来进行描述,其中随机模式中就需要使用到随机变量。
概率分布函数
每个随机变量都服从其内在的概率分布函数,概率分布函数表明了出现每个可能值的概率,通常我们使用P(X=a)来表示X等于a的概率,对于离散随机变量,使用p(x)来表示P(X=x),这个通常也被称为概率质量函数(P.M.F)。对于连续随机变量来说,每个点上的概率都为0,无法再使用概率质量函数,这里就需要使用概率密度函数(P.D.F)。概率分布是毕苏期权定价模式、二叉树定价模型及资本资产定价模型(CAPM)的基础,进行蒙特卡洛模拟也需要理解概率分布。
对于每个概率分布函数,还有与其对应的累积分布函数(C.D.F),累积分布函数被定义为
注:离散型我们通过累计所有小于等于x的概率密度函数计算,连续性则需要使用微积分进行处理
离散随机变量
离散随机变量存在有限结果集,每个结果都有其独立的概率,例如抛硬币,正反面都有1/2的概率出现。但是并不是一定所有结果出现的概率都相等,每个结果出现的概率由其概率质量函数决定。
概率函数有以下两个主要特征
- 0≤p(x)≤1 因为所有概率都介于0,1之间
- 所有结果的p(x)之和为1
接下来我们介绍两种最为常见的离散型概率分布。
均匀分布
均匀分布是最为基本的概率分布,所有结果出现的概率完全相同,以掷骰子为例,筛子有六个面,分别代表数字1~6,每个面出现的概率是完全相同的,都为1/6,于是其概率质量函数可写作p(x)=1/6。
我们分别用程序模拟掷骰子10次与10000次,来观察一下各个值出现的次数。
注:可以看到实验次数少的情况下,分布可能存在非常不均匀的情况
注:可以看到这时候各个值出现的情况基本已经完全一致
对于掷骰子,我们来看下其对应的概率质量函数(P.D.F)与累积分布函数(C.D.F)
可以看到概率质量函数如上所述,全部为1/6,而累积分布函数由1/6一直递增至最后的1,累积函数也有两个主要特征:
1.分布累积函数取值也是介入0,1之间
2.分布累积函数随x增加,保持不变或增加,不会出现降低的情况。
二项分布
二项分布通常用来描述成功/失败情况,在投资中,许多的决策都会导致结果出现二分的情况。如果只做一次成功/失败试验,我们称之为伯努利试验,伯努利试验有两个可能的结果:
注:假定1表示成功,p代表成功的概率
二项分布则是进行n次伯努利试验,其中成功的次数。其中每次伯努利试验相互独立,整体分布由n与p两个参数决定,可写为X~B(n,p).
为了计算二项分布随机变量的概率分布函数,我们需要从总试验中选出成功的个数,这就是组合解决的问题(从一个集合中选出元素的所有可能,不考虑次序),从n个元素中选出x个的排列定义如下:
使用排列公式,我们也就可以很容易地得到二项分布的概率分布函数:
注:表示从n个元素中选出x个成功,标识为成功,其余为失败
X ~ B(5,0.50)的概率质量函数和累积分布函数如下:
注:可以看到2次和3次概率最高,因为它们在组合中出现的次数最多
通过代码模拟10000次该试验,可以看到结果与预想非常吻合
如果假定股票的价格随某个符合二项分布的随机变量波动,就可以得到股票价格波动的二项式模型,这个模型也是许多期权定价模型的基础。模型假定特定时期内,股票的价格会根据上升/下降的概率波动,这就将股票价格转换为了二项随机变量、上行/下行度(上升/下降概率)与初始股价的一个函数,通过参数的调整,这个模型可以用来预测各种不同证券的价格。
连续随机变量
与离散随机变量不同,连续随机变量存在无限多个结果,而正因为有无限多个结果,又会导致任意单个结果的概率为0,所以研究单个结果的概率毫无意义,对于连续随机变量,我们往往会考虑某个区间内结果的概率,这里就需要使用上文提到的概率密度函数(P.D.F)与微积分,例如X介于a与b之间的概率可表示为:
概率密度函数有两个基本要求:
- 对于所有X来说,概率密度函数值大于等于0
- 在−∞~+∞的范围上,概率密度函数的积分为1
连续均匀分布与正态分布是最为常见的两种分布形式
连续均匀分布
假设a与b分别代表可能结果的最小与最大值,连续均匀分布的概率密度函数如下:
将其绘制成图表,可以看到其为一条水平的直线:
累积分布函数也可以通过计算矩形面积的方式得到:
图形为一条从原点发散的斜向上直线:
正态分布
正态分布是统计学中非常普遍且重要的一种分布,许多统计学方法与检验(金融分析)都是以数据满足正态分布为前提假设的,这些都得感谢中心极限法则(CLT,样本足够大的独立试验都满足正态分布)。在一些量化交易策略中,正态分布也为我们提供了许多便捷,例如许多配对交易策略,就是以证券对间的价差变化服从正态分布为基础的。
正态分布有两个参数,平均值(μ)与方差(σ2),X服从正态分布可以写为:
现代组合理论中,通常都假设证券收益服从正态分布,而且正态分布还具有一个很关键的特征,多个服从正态分布的随机变量的线性组合仍然服从正态分布,这就为证券组合及其后的分析提供了极大的便利。
正态分布的概率密度函数如下:
注:X定义的范围为−∞~+∞。如果μ=0并且σ=1,这时候的正态分布称为标准正态分布
我们将均值为1,方差分别为1、2的两个正态分布概率密度函数绘制出来,看看两者有什么区别
注:蓝色为标准正态分布,绿色为方差为2的正态分布
可以看到,方差越大,波峰就越低,也就意味这在均值附近的分布越少。
正态分布在金融中常常被用来对收益建模,而不是对股票价格建模,这是因为股票价格不会低于0,而正态分布则不存在此限制。
一旦知道了正态分布的均值(μ)与标准差(σ),就可以得到以下几条常用结论:
- 68%的观测值会落在μ±σ的区间内
- 95%的观测值会落在μ±2σ的区间内
- 99%的观测值会落在μ±3σ的区间内
这其实就是置信区间的概念。
使用中心极限法则(注:样本一定要足够大),我们可以将不同的随机变量标准化为标准正态分布变量,标准化的方式为:
注:其中μ为均值,σ为标准差
例如假定X为服从二项分布,X ~ B(n,p),其均值与方差为
我们对10000次二项分布试验的结果进行标准化,再讲标准化的结果绘制出来,看看会是一个什么图形
** 注:可以看出是一个正态分布的形状 **
分布拟合
接下来,我们尝试对股票的收益进行分布拟合,看看特斯拉2015年全年的每日收益率是否符合正态分布。在开始之前,必须要做的是检查收益数据是否符合正态分布的特征,这里需要使用J-B检验,如果最后得到的p值低于阈值,则表示不符合正态分布。
注:可以看到J-B检验的p值小于了阈值,所以可以认为收益率是不符合正态分布的
既然认为特斯拉2015年的收益率是不符合正态分布的,接下来我们假设其符合正态分布,计算其概率密度函数,并绘制在同一图表当中,来看看实际数据与理论上正态分布的差异。
图中可以明显看到理论曲线的波峰要比实际值低了不少,这也印证了上文非正态分布的结论,决定正态分布波峰高低的系数称为峰度,正态分布的峰度值为3,而特斯拉数据计算出的峰度值为5.2。对于价格与收益的建模,非常困难的一点就在于无法确定背后的真实分布。正态分布在金融中应用如此广泛在于许多的理论与框架都是基于正态分布假设的(例如毕苏期权定价模型就假设了股票价格是对数正态分布的),但现实世界中的数据很难满足正态分布的假设,在实际策略实现时,除非你有足够充分的理由,否则请不要假设数据是满足某些特定分布的。
总的来说,在进行实际的分布拟合时,我们脑中应该有几个预期的分布,针对这些分布,需要进行大量的校验来确定哪一个才是最佳的拟合,而且,一旦有新的信息可用,就必须对样本均值、方差进行更新,甚至需要重新选择模型进行拟合。
本文就到这里,感谢阅读,欢迎订阅:)