这本书通过13个故事来讲述十三个数据分析的知识点,每个故事情节大同小异,一般是一家公司经营出现了问题,公司老板通过邮件告知数据分析师目前的问题是什么,有什么背景和条件,然后数据分析师进行数据分析输出建议。本书基本没有专业术语和概念,全书四五百页都用对话加插图的形式讲述,每章有问答和作业。如果不做书本中的那些作业,大概5到6个小时可以阅读完。
这本书主要有以下内容:
1.分解数据
数据分析的流程:确定问题,分解问题和数据(找出高效的比较因子),评估(核心是作出有效的比较),决策(作出自己明确的假设和结论);
统计模型决定于心智模型;
分析报告的组成:背景、数据解说、建议;
2.实验
比较法:最基本的原理;
观察研究法:精心选择分组,避免受到混杂因素的影响;
控制组:一组体现现状的处理对象,未经过任何新的处理;
历史控制法/同期控制法;
随机访谈:从对象池中随机选择对象是避免混杂因素的好办法;
3.最优化
将数据分组:无法控制因素\可控制因素;
转成目标函数、找出可行域、得出最大值;
Excel插件的使用:solver;
4.数据图形化
散点图:寻找因果关系;
优秀的图形有利于思考;
5.回归预测
散点图在于寻找变量中的因果关系;
相关性:两种变量的线性关系;
系数r:衡量相关性的强弱;
相关性取决于实际经验判断;
6.假设检验
证伪:剔除无法证实的假设;
满意法:选出一个最可信的假设;(太主观)
证据诊断性能够帮忙评估假设相对强度;
7.贝叶斯统计
条件概率:以一件事的发生为前提另一件事发生的概率;
基础概率:已经知道的概率;
贝叶斯规则,在计算概率时需要将基础概率考虑在内;
8.主观概率
主观概率数据化有利于直观比较概率的大小;
标准偏差,度量分析点和平均值的偏差;
贝叶斯规则可以修正主观概率偏差;
9.启发法
凭借人类的天性做分析(其实就是人的直觉~);
快省树,固定模式访谈;
10.直方图
显示数据点在数值范围内的分布情况;
正态分布\高斯分布,只要峰的数量超过一个就不是正太分布;
11.误差
外插法:用回归方程预测数据范围外的值;
内插法:对数据范围内的值进行预测;
机会误差:实际结果与预测结果之间的偏差;
均方根误差来描述回归线的分布;
12.关系数据库
表格之间都有量化关系;
关系数据库管理系统(RDBMS);
以上是这本书主要的内容,看完这本书之后有一个很深的感受,太浪费纸张了!(心疼买书的钱~~)将近五百页厚厚的一本书,里面讲述的内容少得可怜,而且有些内容真的很浅,只有浅出没有深入。讲一个求最大值居然用了五六十页,实际内容就讲了高中数学中很基础的一个知识点线性规划求最值(高考试卷中最多放在大题的第二题~)。一个直方图也讲了几十页,中间穿插了很多用处不大的对话和情节。还有,没读这本书之前看到评论说这本书构思跌宕起伏,行文妙趣横生,但是我在阅读的过程中真没有感受到~~
不过这本书对于完全没有统计学基础的同学还是有一定作用的,里面讲了一些数据统计分析的基本套路和思维方法,有利于统计分析意识的建立。
综上,体验不达预期,不推荐。