开始调整读书笔记工具链

《写给所有人的极简统计学》

短评

读书没有太多收获，反倒是整理笔记的过程收获不小，重新调整了读书笔记编写的流程和工具。

导图

摘抄

第1章数据整理的基础知识

标注 (黄色)-第1章前言>位置172

总的来说，统计就是将收集到的数据（数值）进行整理并加以分析的学问。

标注(黄色)-除法的两个意义>位置227

将一个整体平均分配的除法，专业术语叫作“等分除”。

标注(黄色)-除法的两个意义>位置234

将整体分成数个等份的除法，专业术语叫作“包含除”。

标注(黄色)-除法的两个意义>位置238

除法的两个意义 $a \div b = p$
（A）将a分成n等份，则每份有p个。【等分除】
（B）将a按照每份有n个等分，则可以分成p份（a有p份的n个）。【包含除】

标注(黄色)-比例>位置243

比例的定义比例=比较量÷基准量

标注(黄色)-比例>位置252

相同单位的比例，即包含除的比例，其实是比较量（部分）在基准量（全体）中所占的比率。

标注(黄色)-比例>位置265

综上所述，不同单位的比例，即等分除概念中的比例，表示的是单位量的大小。

标注(黄色)-比例>位置266

相同单位的比例是包含除不同单位的比例是等分除

标注(黄色)-图表>位置288

图表的特点：
（1）柱状图：表示大小
（2）折线图：表示变化
（3）饼图：表示比例
（4）带状图：比较比例

标注(黄色)-图表>位置315

带状图通常用于根据年份等条件，比较同一项目的占比变化情况。

标注(黄色)-图表>位置318

带状图中占比的增加（减少）不代表其绝对数值增加（减少），这一点需要多加注意。

标注(黄色)-数据与变量>位置402

当一些变量（量化的变量）做加减运算有意义时，由这些变量组成的数据被称作“量化数据”。量化数据可以被细分为两个类别，分别为：骰子的数字、汽车的数量、人数等只能取跨越型数值的数据（离散型数据）；身高、体重、时间等可以取连续数值的数据（连续型数据）。

标注(黄色)-代表值>位置484

众数：一组数据中出现次数最多的数值。

标注(黄色)-研究数据的离散性>位置509

四分位数的求法
（1）找出数据的最大值与最小值。
（2）找出数据的中位数→第二四分位数。
（3）求出中位数前半部分数据的中位数→第一四分位数。
（4）求出中位数后半部分数据的中位数→第三四分位数。

标注(黄色)-研究数据的离散性>位置515

研究数据整体的离散性时，最大值、最小值以及3个四分位数被称为“5大要数”。

第2章数据分析的基础知识

标注(黄色)-第2章前言>位置545

标准差”这一概念，即“数据相对于平均值的离散程度”。

标注(黄色)-方差>位置758

$V_x=\frac{1}{n}\sum_{i=1}^n(x_k-\overline{x})^2$

标注(黄色)-标准差>位置768

方差开根号后的值叫作标准差。

标注(黄色)-标准差>位置780

方差的简单计算公式
$V_x=\overline{x^2}-\overline{x}^2$
方差=平方的平均-平均的平方）

标注(黄色)-标准差>位置782

$S_x=\sqrt{V_x}=\sqrt{\overline{X^2}-\overline{x}^2}$

标注(黄色)-标准差>位置785

在“多峰性分布”（即有数个峰值）的数据中，难以考证方差与标准差。因为，在这种数据中，有很多数值与平均值相差较大，以平均数为基准的数值难以确切表明数据与平均值的关系。

第3章用于研究关联性的数学

标注(黄色)-一次函数>位置929

斜率为a且通过点 $(p,q)$ 的式子为 $y=a(x-p)+q$

标注(黄色)-图形的平移>位置963

二次函数 $y=a(x-p)^2+q$ 的图像
（1）形状与 $y=ax^2$ 相同。
（2）顶点为 $(p,q)$

标注(黄色)-图形的平移>位置966

二次函数的平移

标注(黄色)-配方法与二次函数的图像>位置996

二次函数的配方法
$y=ax^2+bx+c=a\left(x+\frac{b}{2a}\right)^2-\frac{b^2-4ac}{4a}$

标注(黄色)-配方法与二次函数的图像>位置998

二次函数

标注(黄色)-二次函数的最大值与最小值>位置1020

二次函数最大最小值

标注(黄色)-点位图>位置1192

相关关系

标注(黄色)-相关系数>位置1221

协方差公式将x与y的协方差写作
$C_{xy}=\frac{1}{n}\sum_{n=1}^{k}(x_k-\overline{x})(y_k-\overline{y})$

标注(黄色)-相关系数>位置1224

相关系数的定义将x与y的相关系数写作r的话，则
$r=\frac{C_{xy}}{S_x \cdot S_y}$
注：标准差的公式如下
$S_x=\sqrt{V_x}$
$S_y=\sqrt{V_y}$

标注(黄色)-相关系数的理论背景>位置1275

$\left(\sum_{n=1}^{k}X_nY_n\right)^2 \leq \sum_{n=1}^{k}X_n^2 \cdot \sum_{n=1}^{k}Y_n^2$
被称作柯西不等式

第4章分析离散数据的数学

标注(黄色)-排列>位置1376

$P_n^r=\frac{n!}{(n-r)!}$

标注(黄色)-组合>位置1408

$C_n^r=\frac{P_n^r}{r!}$

标注(黄色)-组合>位置1414

$C_n^r=C_n^{n-r}$

标注(黄色)-二项系数>位置1453

二项系数为 $(a+b)^n$ 的展开式中， $a^{n-k}b^k$ 的系数为 $C_n^k$ 。

标注(黄色)-二项系数>位置1460

二项定理
$(x+y)^n = \sum_{k=0}^n {n \choose k} x^{n - k} y^k$

标注(黄色)-重复试验>位置1605

重复试验假设，在某项重复试验中，事件A发生的概率为 $P(A)=p \quad (0 \leq p \leq 1)$
此试验反复n次，事件A发生k次的概率为：
$C_n^k p^k (1-p)^{n-k} \quad (0 \leq k \leq n)$

标注(黄色)-等差数列>位置1651

等差数列的和
$S_n=\frac{n(a_1+a_n)}{2}$

标注(黄色)-等比数列>位置1682

等比数列的和
$S_n = \begin{cases} \dfrac{a_1(1-r^n)}{1-r} & & (r \neq 1) \\ na_1 & & (r = 1) \end{cases}$

标注(黄色)-∑记号的基本性质>位置1726

对于 $\sum$ 记号可以使用分配律。

标注(黄色)-平均值>位置1840

随机变数X的平均值（或期待值）
$E(X)= \sum_{i=1}^n x_i p_i$

标注(黄色)-平均值>位置1847

随机变数是关于某个事件以一定概率而发生的变数，所以值并非确定。随机变数的平均值之所以被称为期待值，大家可以理解成：在真正研究随机变数时“平均的期望值”。

标注(黄色)-aX+b的平均值>位置1866

当随机变数X与Y之间存在以下关系时：
$Y=aX+b$
则以下关系成立：
$E(Y)=E(aX+b)=aE(X)+b$

标注(黄色)-aX+b的平均值>位置1880

随机变数X来说，其方差 V(X) 与标准差 S(X) 定义如下：
$V(X)=E\left[ \left( X - \overline{X} \right)^2 \right] = \sum_{i=1}^n \left( x_i - \overline{X}\right)^2 p_i$
$S(X) = \sqrt{V(X)}$

标注(黄色)-aX+b的平均值>位置1897

随机变数的方差计算公式
$V(X)=E(X^2)-[E(X)]^2$

标注(黄色)-aX+b的方差与标准差>位置1911

$Y=aX+b$ a、b 为定数，则Y的方差 V(Y) 与标准差 S(Y) 如下所示：
$V(Y)=a^2V(X)$
$S(Y)=aS(X)$

标注(黄色)-随机变数的标准化>位置1922

随机变数的标准化
$Z=\frac{X-E(X)}{S(X)}$

标注(黄色)-随机变数的标准化>位置1927

这就意味着：只要对平均值为1、标准差为0的随机变数的性质做详细研究，其结果同样可以用于其他随机变数。

备注-随机变数的标准化>位置1928
写反了吧

标注(黄色)-和的平均值>位置1955

$E(X+Y)=E(X)+E(Y)$

标注(黄色)-积的平均值>位置1988

当随机变数X与Y相互独立时
$E(X\cdot Y)=E(X) \cdot E(Y)$

标注(黄色)-和的方差>位置1995

随机变数X与Y在相互独立时，
$V(X+Y)=V(X)+V(Y)$

标注(黄色)-二项分布>位置2023

随机变数X遵从二项分布 B(n,p) 时，X 的平均值与方差如下所示：
平均值： $E(X)=np$
方差： $V(X)=np(1-p)$
标准差： $S(X)=\sqrt{np(1-p)}$

第5章分析连续数据的数学

标注(黄色)-欧拉常数e>位置2167

欧拉常数（自然对数的底）e 用以下极限来定义的定数e被称作欧拉常数或自然对数的底。
$\lim_{n\to\infty} \left( 1 + \frac{1}{n} \right)^n = e$

标注(黄色)-欧拉常数e>位置2183

注：欧拉公式 $e^{i\theta}=\cos\theta + i\sin\theta$

标注(黄色)-欧拉常数e>位置2186

$e^{i\pi}+1=0$
这个式子表示了 e（欧拉常数）、i（虚数单位）、π（圆周率）、1（乘法单位元）、0（加法单位元）这些数学中非常重要的中心元素之间的关系。

标注(黄色)-连续型随机变数与概率密度函数>位置2326

概率密度函数的性质
$f(x) \geq 0$
$\int_{-\infty}^\infty f(x)\mathrm{d}x=1$

标注(黄色)-连续型随机变数的平均值与方差>位置2336

连续型随机变数X的取值范围在 α≤X≤β，且概率密度函数为 f（x）时：
$平均值：E(X)=\int_\alpha^\beta xf(x)\mathrm{d}x$
$方差：V(X)=\int_\alpha^\beta (x-\mu)^2f(x)\mathrm{d}x \qquad [\mu=E(X)]$

标注(黄色)-正态分布>位置2378

正态分布的概率密度函数可以借用自然对数的底 e，写成
$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

标注(黄色)-正态分布>位置2396

正态分布的平均值与标准差当 X 是呈正态分布 $N(\mu,\sigma^2)$ 的随机变数时：
平均值： $E(X)=\mu$
标准差： $S(X)=\sigma$

标注(黄色)-正态分布>位置2401

标准正态分布当随机变数 X 呈正态分布时，假设随机变数 Z 满足
$Z=\frac{X-\mu}\sigma$
则随机变数 Z 呈 N(0，1) 的标准正态分布。将 μ=0，σ=1 带入，则呈标准正态分布的概率密度函数为：
$f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}2}$

标注(黄色)-正态分布表>位置2415

标准正态分布重要的性质随机变数 Z 呈标准正规分布 N(0，1) 时，
1.96 ≤ Z ≤ 1.96 的面积占全体面积的 95%。

标准正态分布

标注(黄色)-正态分布表>位置2417

呈正态分布的随机变数式使用⑪式后，随时可以变换成标准正态分布的式子，所以标准正态分布的这个性质可以被广泛应用。

标注(黄色)-什么是推测统计>位置2421

推测统计分为两个重要模块，一是通过研究样本对母集团做出概率预测的“推算”；二是针对已知数据的差值，找出产生差值原因的“检验”。

标注(黄色)-什么是推测统计>位置2445

“μ 的 95% 置信区间是 α≤μ≤β ”是指：“在母集团中随机观测与这一次相同数量的数据，且用同样的方式重复确定置信区间的话，那么，在100次中大概有95次，μ 的值落在 a 以上 b 以下的范围内。”

标注(黄色)-什么是推测统计>位置2465

以这一标准进行的检验被称为“有意水准5%验证”。在已知母集团呈标准差为 σ 的正态分布时，建立“真正的平均值为 μ”这一假说，并进行“有意水准 5% 验证”后，如果针对被观测的数据 X 来说：
$-1.96 \leq \frac{x-\mu}\sigma \leq 1.96$
以上不等式成立的话，我们就说“接受原假设”。反之，不等式不成立时，就说“拒绝原假设”。

最后编辑于：2020.03.28 12:07:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

开始调整读书笔记工具链

短评

导图

摘抄

第1章 数据整理的基础知识

第2章数据分析的基础知识

第3章用于研究关联性的数学

第4章分析离散数据的数学

第5章分析连续数据的数学

推荐阅读更多精彩内容

第1章数据整理的基础知识