大师兄的数据分析学习笔记(五):探索性数据分析(四)

大师兄的数据分析学习笔记(四):探索性数据分析(三)
大师兄的数据分析学习笔记(六):探索性数据分析(五)

四、多因子与复合分析

  • 探索性数据分析,最重要的作用是吧数据的全貌进行展现,让数据分析者能根据数据取进行决策。
  • 每个属性的数据,除了自己本身所具有的的性质外,属性与属性之间,或者属性与已知成熟的规律之间也可能会有联系。
  • 多因子与复合分析,指的就是属性与属性之间常见的联系与分析方法。
1. 假设检验
  • 假设检验就是根据一定的假设条件,从样本推断总体或者推断样本与样本之间关系的一种方法。
  • 具体过程:

第一步:建立原假设H_0(包含等号),H_0的反命题为H_1,也叫备择假设。
第二步:选择检验统计量,检验统计量是根据数值的均值、方差等性质构造的一个转换函数,目的是让这个数据符合一个已知分布。
第三步: 根据显著水平(一般为0.05,\alpha),确定拒绝域,也就是说要求数据有95%的可能与某分布一致。
第四步: 计算p值或者样本统计值,作出判断。

>>>from astropy.modeling import models,fitting
>>>import numpy as np
>>>import matplotlib.pyplot as plt

>>>def func(x,miu,sigma):
>>>    return 1./np.sqrt(2*np.pi)/sigma*np.exp(-(x-miu)**2/2/sigma**2)

>>># 生成正态分布
>>>x = np.linspace(0, 1, 100)
>>>y = func(x, 0.5, 0.2)
>>>y += np.random.normal(0., 0.02, x.shape)
>>>plt.plot(x, y)
>>>plt.xlabel('x')
>>>plt.ylabel('y')
>>>plt.show()

>>># 使用astropy进行拟合
>>>g_init = models.Gaussian1D(amplitude=1., mean=0, stddev=1.)
>>>fit_g = fitting.LevMarLSQFitter()
>>>g = fit_g(g_init, x, y)
>>>print(g.mean.value, g.stddev.value)
0.4998641574199107 0.19898961723032316
2. 卡方检验
  • 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
  • 第一步:提出原假设:

H_0:总体X的分布函数为F(x).
如果总体分布为离散型,则假设具体为
H0:总体X的分布律为P{X=xi}=pi, i=1,2,...

  • 第二步:将总体X的取值范围分成k个互不相交的小区间A_1,A_2,A_3,…,A_k,如可取
    A_1=(a_0,a_1],A_2=(a_1,a_2],...,A_k=(a_k-1,a_k),其中a_0可取-∞a_k可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。
  • 第三步:把落入第i个小区间的A_i的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f_1+f_2+...+f_k等于样本容量n
  • 第四步:当H_0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i个小区间A_i的概率p_i,于是,np_i就是落入第i个小区间A_i的样本值的理论频数(理论值)。
  • 第五步:当H_f0为真时,n次试验中样本值落入第i个小区间A_i的频率f_i/n与概率p_i应很接近,当H_0不真时,则f_i/n与pi相差很大。基于这种思想,皮尔逊引进如下检验统计量X^2=\sum^k_{i=1}\frac{(f_i-np_i)^2}{np_i},在0假设成立的情况下服从自由度为k-1的卡方分布。
  • 案例:假设新冠重症、轻症与是否打疫苗的统计表如下:
- 已打疫苗 未打疫苗 合计
轻症 90(75) 60(75) 150
重症 10(25) 40(25) 50
合计 100 100 200
>>>import scipy.stats as ss

>>>res = ss.chi2_contingency([[90,60],[10,40]])
>>>print(f'stat:{res[0]}')
>>>print(f'p:{res[1]}')
>>>print(f'dof:{res[2]}')
>>>print(f'expected:{res[3]}')
stat:22.426666666666666
p:2.183216533714857e-06
dof:1
expected:[[75. 75.]
 [25. 25.]]
  • 卡方值为22,超过p值0.05对应的3.841,证明轻症和已打疫苗有关联。
3. 方差检验
  • 由于用到了F分布,所以方差检验也叫作F检验,用于两个及两个以上样本均数差别的显著性检验。
  • 方差检验的基本原理是认为不同处理组的均数间的差别基本来源有两个:

(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。

  • 组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。
  • 另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
  • MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体 。
  • 假设工厂有以下3组,共15人,年龄分布如下:
甲组 已租 丙组
36 28 30
50 44 27
30 29 42
33 36 45
41 23 45
>>>import scipy.stats as ss

>>>data1 = [36,50,30,33,41]
>>>data2 = [28,44,29,36,23]
>>>data3 = [30,27,42,45,45]
>>>res = ss.f_oneway(data1,data2,data3)
>>>print(f"statistic:{res[0]}")
>>>print(f"pvalue:{res[1]}")
statistic:0.8593981253083374
pvalue:0.44791070261692767
  • P值>0.05,所以可以接受原假设。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,784评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,745评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,702评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,229评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,245评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,376评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,798评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,471评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,655评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,485评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,535评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,235评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,793评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,863评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,096评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,654评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,233评论 2 341

推荐阅读更多精彩内容