短评
读书没有太多收获,反倒是整理笔记的过程收获不小,重新调整了读书笔记编写的流程和工具。
导图
摘抄
第1章 数据整理的基础知识
- 标注 (黄色)-第1章前言>位置172
总的来说,统计就是将收集到的数据(数值)进行整理并加以分析的学问。
- 标注(黄色)-除法的两个意义>位置227
将一个整体平均分配的除法,专业术语叫作“等分除”。
- 标注(黄色)-除法的两个意义>位置234
将整体分成数个等份的除法,专业术语叫作“包含除”。
- 标注(黄色)-除法的两个意义>位置238
除法的两个意义
(A)将a分成n等份,则每份有p个。【等分除】
(B)将a按照每份有n个等分,则可以分成p份(a有p份的n个)。【包含除】
- 标注(黄色)-比例>位置243
比例的定义 比例=比较量÷基准量
- 标注(黄色)-比例>位置252
相同单位的比例,即包含除的比例,其实是比较量(部分)在基准量(全体)中所占的比率。
- 标注(黄色)-比例>位置265
综上所述,不同单位的比例,即等分除概念中的比例,表示的是单位量的大小。
- 标注(黄色)-比例>位置266
相同单位的比例是包含除不同单位的比例是等分除
- 标注(黄色)-图表>位置288
图表的特点:
(1)柱状图:表示大小
(2)折线图:表示变化
(3)饼图:表示比例
(4)带状图:比较比例
- 标注(黄色)-图表>位置315
带状图通常用于根据年份等条件,比较同一项目的占比变化情况。
- 标注(黄色)-图表>位置318
带状图中占比的增加(减少)不代表其绝对数值增加(减少),这一点需要多加注意。
- 标注(黄色)-数据与变量>位置402
当一些变量(量化的变量)做加减运算有意义时,由这些变量组成的数据被称作“量化数据”。量化数据可以被细分为两个类别,分别为:骰子的数字、汽车的数量、人数等只能取跨越型数值的数据(离散型数据);身高、体重、时间等可以取连续数值的数据(连续型数据)。
- 标注(黄色)-代表值>位置484
众数:一组数据中出现次数最多的数值。
- 标注(黄色)-研究数据的离散性>位置509
四分位数的求法
(1)找出数据的最大值与最小值。
(2)找出数据的中位数→第二四分位数。
(3)求出中位数前半部分数据的中位数→第一四分位数。
(4)求出中位数后半部分数据的中位数→第三四分位数。
- 标注(黄色)-研究数据的离散性>位置515
研究数据整体的离散性时,最大值、最小值以及3个四分位数被称为“5大要数”。
第2章数据分析的基础知识
- 标注(黄色)-第2章前言>位置545
标准差”这一概念,即“数据相对于平均值的离散程度”。
- 标注(黄色)-方差>位置758
- 标注(黄色)-标准差>位置768
方差开根号后的值叫作标准差。
- 标注(黄色)-标准差>位置780
方差的简单计算公式
方差=平方的平均-平均的平方)
- 标注(黄色)-标准差>位置782
- 标注(黄色)-标准差>位置785
在“多峰性分布”(即有数个峰值)的数据中,难以考证方差与标准差。因为,在这种数据中,有很多数值与平均值相差较大,以平均数为基准的数值难以确切表明数据与平均值的关系。
第3章用于研究关联性的数学
- 标注(黄色)-一次函数>位置929
斜率为a且通过点 的式子为
- 标注(黄色)-图形的平移>位置963
二次函数 的图像
(1)形状与 相同。
(2)顶点为
- 标注(黄色)-图形的平移>位置966
- 标注(黄色)-配方法与二次函数的图像>位置996
二次函数的配方法
- 标注(黄色)-配方法与二次函数的图像>位置998
- 标注(黄色)-二次函数的最大值与最小值>位置1020
- 标注(黄色)-点位图>位置1192
- 标注(黄色)-相关系数>位置1221
协方差公式将x与y的协方差写作
- 标注(黄色)-相关系数>位置1224
相关系数的定义将x与y的相关系数写作r的话,则
注:标准差的公式如下
- 标注(黄色)-相关系数的理论背景>位置1275
被称作柯西不等式
第4章分析离散数据的数学
- 标注(黄色)-排列>位置1376
- 标注(黄色)-组合>位置1408
- 标注(黄色)-组合>位置1414
- 标注(黄色)-二项系数>位置1453
二项系数为 的展开式中, 的系数为 。
- 标注(黄色)-二项系数>位置1460
二项定理
- 标注(黄色)-重复试验>位置1605
重复试验假设,在某项重复试验中,事件A发生的概率为
此试验反复n次,事件A发生k次的概率为:
- 标注(黄色)-等差数列>位置1651
等差数列的和
- 标注(黄色)-等比数列>位置1682
等比数列的和
- 标注(黄色)-∑记号的基本性质>位置1726
对于 记号可以使用分配律。
- 标注(黄色)-平均值>位置1840
随机变数X的平均值(或期待值)
- 标注(黄色)-平均值>位置1847
随机变数是关于某个事件以一定概率而发生的变数,所以值并非确定。随机变数的平均值之所以被称为期待值,大家可以理解成:在真正研究随机变数时“平均的期望值”。
- 标注(黄色)-aX+b的平均值>位置1866
当随机变数X与Y之间存在以下关系时:
则以下关系成立:
- 标注(黄色)-aX+b的平均值>位置1880
随机变数X来说,其方差 V(X) 与标准差 S(X) 定义如下:
- 标注(黄色)-aX+b的平均值>位置1897
随机变数的方差计算公式
- 标注(黄色)-aX+b的方差与标准差>位置1911
a、b 为定数,则Y的方差 V(Y) 与标准差 S(Y) 如下所示:
- 标注(黄色)-随机变数的标准化>位置1922
随机变数的标准化
- 标注(黄色)-随机变数的标准化>位置1927
这就意味着:只要对平均值为1、标准差为0的随机变数的性质做详细研究,其结果同样可以用于其他随机变数。
- 备注-随机变数的标准化>位置1928
写反了吧
- 标注(黄色)-和的平均值>位置1955
- 标注(黄色)-积的平均值>位置1988
当随机变数X与Y相互独立时
- 标注(黄色)-和的方差>位置1995
随机变数X与Y在相互独立时,
- 标注(黄色)-二项分布>位置2023
随机变数X遵从二项分布 B(n,p) 时,X 的平均值与方差如下所示:
平均值:
方差:
标准差:
第5章分析连续数据的数学
- 标注(黄色)-欧拉常数e>位置2167
欧拉常数(自然对数的底)e 用以下极限来定义的定数e被称作欧拉常数或自然对数的底。
- 标注(黄色)-欧拉常数e>位置2183
注:欧拉公式
- 标注(黄色)-欧拉常数e>位置2186
这个式子表示了 e(欧拉常数)、i(虚数单位)、π(圆周率)、1(乘法单位元)、0(加法单位元)这些数学中非常重要的中心元素之间的关系。
- 标注(黄色)-连续型随机变数与概率密度函数>位置2326
概率密度函数的性质
- 标注(黄色)-连续型随机变数的平均值与方差>位置2336
连续型随机变数X的取值范围在 α≤X≤β,且概率密度函数为 f(x)时:
- 标注(黄色)-正态分布>位置2378
正态分布的概率密度函数可以借用自然对数的底 e,写成
- 标注(黄色)-正态分布>位置2396
正态分布的平均值与标准差当 X 是呈正态分布 的随机变数时:
平均值:
标准差:
- 标注(黄色)-正态分布>位置2401
标准正态分布当随机变数 X 呈正态分布时,假设随机变数 Z 满足
则随机变数 Z 呈 N(0,1) 的标准正态分布。将 μ=0,σ=1 带入,则呈标准正态分布的概率密度函数为:
- 标注(黄色)-正态分布表>位置2415
标准正态分布重要的性质随机变数 Z 呈标准正规分布 N(0,1) 时,
1.96 ≤ Z ≤ 1.96 的面积占全体面积的 95%。
- 标注(黄色)-正态分布表>位置2417
呈正态分布的随机变数式使用⑪式后,随时可以变换成标准正态分布的式子,所以标准正态分布的这个性质可以被广泛应用。
- 标注(黄色)-什么是推测统计>位置2421
推测统计分为两个重要模块,一是通过研究样本对母集团做出概率预测的“推算”;二是针对已知数据的差值,找出产生差值原因的“检验”。
- 标注(黄色)-什么是推测统计>位置2445
“μ 的 95% 置信区间是 α≤μ≤β ”是指:“在母集团中随机观测与这一次相同数量的数据,且用同样的方式重复确定置信区间的话,那么,在100次中大概有95次,μ 的值落在 a 以上 b 以下的范围内。”
- 标注(黄色)-什么是推测统计>位置2465
以这一标准进行的检验被称为“有意水准5%验证”。在已知母集团呈标准差为 σ 的正态分布时,建立“真正的平均值为 μ”这一假说,并进行“有意水准 5% 验证”后,如果针对被观测的数据 X 来说:
以上不等式成立的话,我们就说“接受原假设”。反之,不等式不成立时,就说“拒绝原假设”。