一、全书提纲
记录全书主要内容,整理全书大纲以及有用的内容。
全书提纲结构图
总结的有用的内容
1、数据分析就是处理所有的数据材料,从原始数据中找到客观规律进而总结出推动现实工作的指导方法,以数据解构分解复杂的问题和数据集进而总结出工作中的各种问题,以数据反馈工作。数据分析最重要的点就是在海量的数据中洞察规律。
2、数据分析的基本流程:确定问题-分解问题-评估问题-决策。根据目标确定问题,目标必须量化,假设必须谨慎。将问题分解为更小的组成部分, 划分为可管理、可解决的组成模块,细化问题。有效的比较是数据分析的核心,评估组块的关键就是比较。分析得出的结论、形成的报表一定要落实到制定决策,否则数据分析毫无用处。
3、做实验验证假设,通过ABTest、控制变量法、实验组和控制组进行比较,通过实证数据增强说服力,或通过观察数据变量做假设检验。假设检验的核心是证伪,观察数据变量要观察这些变量是正相关还是负相关。
4、数据图形化的根本在于正确比较以及目标决策,因此当数据庞杂时只关注目标相关的数据。数据分析越做越多,从不同的维度和不同的数据能得出无穷无尽的结论,但要始终牢记目标。
5、掌握统计学方法和数据分析工具,对数据分析极其重要,这些需要在实际过程中不断练习和熟悉。
每章内容记录摘抄
第一章 数据分析引言:分解数据
主要内容:数据分析的流程,统计模型与心智模型
1、数据分析的流程:
确定:了解问题。客户将帮助你确定问题。
分解:分解问题和数据,让他成为更小的组成部分。找出高效的比较因子。
评估:根据了解到的情况,作出各种结论。数据分析的核心是有效的比较。
决策:重新组合结论,作出决策建议。作出自己明确的假设和结论。
2、统计模型取决于心智模型。心智模型一定要指出不确定因素。
3、数据分析的根本在于密切关注需要了解的数据。
4、数据报告中应该让客户详细浏览你的思考过程。
第二章 实验:检验你的理论
主要内容:比较法、混杂因素、控制组
1、统计与分析的最基本原理之一就是比较法。数据只有通过相互比较才会有意义。比较越多,分析结果越正确。特别是对于观察研究。
2、观察研究法:被研究人自行决定自己属于哪个群体的一种研究方法。使用观察研究法时,应当假定其他因素会混杂你的结论。
3、当怀疑因果关系的走向时,请进行反方向思考,看看结果怎么样。如价值感的下降导致销量下降,换过来就是,销量下降导致价值感下降。
4、当涉及因果关系时,观察研究法并不是那么强大有力。
5、把所想到的事物之间的联系画出来。
6、混杂因素:研究对象的个人差异,他们不是试图比较的因素,最终会导致分析结果的敏感度变差。观察分析法充满混杂因素,通过拆分数据块来管理混杂因素。
7、数据分析的重点在于分析的结论有意义。
8、拆分数据块,管理混杂隐私。拆分的数据块要具有同质性。
9、观察数据本身无法预示未来。
10、好的实验总是有一个控制组(对照组)。
11、控制组:也称作对照组。一组体现现状的处理对象,未经过任何新的处理。
12、历史控制法,同期控制法(后者比较好)。
13、妥善报告可能令人沮丧的消息。
14、从对象池中随机选择对象是避免混杂因素的好办法。
第三章 最优化:寻找最大值
主要内容:最优化问题、Solver求解器
1、无法控制的因素,可以控制的因素。决策变量就是你能控制的因素,同时它受约束条件的限制。
2、任何最优化问题都有一些约束条件和一个目标函数。
3、创建模型时,务必要规定假设中的各种变量的相互关系。
4、用电子表格实现最优化,比如Excel里的Solver求解器。
第四章 数据图形化
主要内容:数据图形化、散点图、R语言、数据图形化
1、利用散点图进行探索性数据分析。
2、体现数据:用数据思考。
3、面对大量数据:记住目标,目光停留在和目标有关的数据上,无视其他。
4、数据图形化的根本在于正确比较。
5、好的数据图形:展示了数据,做了有效的比较,展示了多个变量。
6、散点图:发现因果关系。X自变量,Y因变量。
7、图形多元化:R软件。
8、Edward Tufte:数据图形化。
9、描述数据图形时,需要论述可相互换用的两种因果模型。
第五章 假设检验
主要内容:假设检验、证据的诊断性
1、观察数据变量的方法之一:看他们之间是正相关,还是负相关。
2、现实世界中的各种原因呈网络关系,而非线性关系。
3、假设检验的核心是证伪,证伪不是选出最合理的假设,而是剔除无法证实的假设。
4、满意法:选出看上去最可信的第一个假设。
5、进行假设检验时,要使用证伪法,回避满意法。证伪法可以对各种假设保持敏锐,防止掉入认知陷阱。
6、诊断性:证据所具有的一种功能,能够帮助评估所考虑的假设的相对似然性。如果证据具有诊断性,就能帮助对假设的排序。
第六章 贝叶斯统计
主要内容:条件概率、基础概率、贝叶斯规则
1、条件概率:以一件事的发生为前提的另一件事的发生概率。
2、基础概率:又叫事前概率。在根据试验结果分析之前,已经知道的概率。如果有基础概率,一定要考虑。
3、将概率转变为整数,然后进行思考,是避免犯错误的一个有效办法。
4、贝叶斯规则可以反复使用,注意每次使用时,要根据上一次的结果调整新的基础概率。
5、避免基础概率谬误的唯一方法就是对基础概率提高警惕,而且务必要将它整合到分析中去。
第七章 主观概率
主要内容:主观概率、标准偏差、贝叶斯规则
1、主观概率:用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率。特别适合在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。
2、主观概率是一种向别人精确地传达你的想法和信念的富有启示性的表达方法。
3、标准偏差:量度分析点与平均值的偏差。STDEV函数。
4、贝叶斯规则是修正主观概率的好办法。使用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率。
第八章 启发法
主要内容:启发法、快省树
1、启发法:(心理学)用一种更便于理解的属性代替一种难解的、令人困惑的属性。(计算机科学)一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。从直觉走向最优化的桥梁。选取一两个变量,然后根据这些变量对整个系统做出结论,这就是在使用启发法。
2、快省树:描述启发法的图形。
3、固定模式都具有启发性。
第九章 直方图
主要内容:直方图、铃形曲线
1、直方图:显示数据点在数值范围内的分布情况。
2、直方图不同区间之间的缺口即数据点之间的缺口。
3、铃形曲线:正态分布/高斯分布
4、只要峰的数目超过一个,就不能成为铃形。
第十章 回归:预测
主要内容:平均值图、散点图、相关性、相关系数
1、算法:为了完成某个计算而执行的任何过程。
2、只要两种变量成对出现并描述了数据中包含的人或事,就可以同时放在散点图中。
3、散点图的根本在于寻找变量之间的因果关系。
4、散点图和直方图的差别在于显示两种变量。
5、平均值图是一种散点图,显示出与X轴上的每个区间相对应的Y轴数值。
6、回归线是最准确地贯穿平均值图中的各个点的直线。
7、相关性:两种变量之间的线性关系。
8、回归线对于具有线性相关特点的数据很有用。
9、相关系数r:衡量相关性的强弱,范围为-1至1,0表示无相关性,1和-1表示两个变量完全相关。
10、相关性是否足够取决于实际的经验判断。任何软件都无法判别回归线是否有用。
第十一章 误差
主要内容:外插法、内插法、机会误差、均方根误差、回归分析的功能
1、外插法:用回归方程预测数据范围以外的数值。
2、内插法:对数据范围内的点进行预测。
3、如果使用外插法,要指定附加假设条件。
4、低劣的预测比不作预测更糟糕。
5、如果使用抽样数据,就要确保能代表整个数据集。
6、不合适的假设会使模型完全失效,甚至结果具有欺骗性。
7、机会误差:又叫残差。实际结果与预测结果之间的偏差。残差分析是优秀的统计模型的核心。
8、均方根误差描述的是回归线周围的分布情况,标准偏差描述的是平均值周围的分布情况。他们都是预测实际结果与典型预测结果之间可能有多大的差距。
9、线性回归一般用均方根误差公式描述误差,但是也有其他量度方法。
10、分割的根本目的是管理误差。
11、优秀的回归分析兼具解释功能和预测功能。
第十二章 关系数据库
主要内容:数据库、RDBMS
1、数据库就是一系列相互有特定关系的数据。
2、数据库要求表格之间的关系都是量化关系。
3、关系数据库管理系统(RDBMS)每一行都有一个ID,确保表格之间量化关系不被破坏,是最重要最有效的数据管理方法之一。
4、SQL是结构化查询语言,是一种关系数据库检索方法。
第十三章 整理数据
主要内容:整理数据、Excel分列功能、常用函数、正则表达式
1、数据分析和整理上的时间要多于数据分析的时间。
2、整理数据必须从复制原始数据开始,步骤如下:
1)保存原始数据副本。
2)设想数据集的最终外观。
3)区分混乱数据中重复出现的模式。
4)整理并重新构造。
3、Excel可以通过分隔符将数据分成多个列。(数据-分列)
4、常用函数:
Find:在单元格中的哪个位置查找搜索字符串
Left:取单元格左边的字符
Right:取单元格右边的字符
Trim:删除单元格中的空格
Len:求单元格的长度
Concatenate:取两个值,然后合并在一起
Value:以文本格式存储的数字的数值
Substitute:以指定的新文本替代单元格中不需要的文本
5、不要把较小的公式合并成一个大公式,而是拆成几个不同的单元格,再用一个最终的公式将所有单元格合并起来。
6、正则表达式:可以指定复杂的模式,以便匹配和替换文本字符串。是整理混乱数据的杀手锏。Excel并不适用正则表达式。
正则表达式包括三个部分:左括号,右括号和括号里面的所有内容。
7、如果出现数据重复,要判断是因为查询返回数据的方式,还是数据本身质量低劣。
附录
1、需要补充的知识:
1)统计知识
2)Excel技巧
3)Edward Tufte的图形原则:
体现出比较、对比、差异
体现出因果关系、机制、理由、系统结构
体现出多元数据,即体现出1个或2个变量
将文字、数字、图片、图形全面结合起来
充分描述证据
数据分析报告的成败在于报告内容的质量、相关性和整体性
4)数据透视表
5)R社区
6)非线性与多元回归
7)原假设-备择假设检验
8)随机性
9)Google Docs
10)专业技能
二、评论心得
对书中内容发表评论或自己总结的心得
全书整体评价
全书一共13章,涉及数据整理、数据分析、假设检验、回归分析、实验检验等数据分析的方法,以及Excel、R、DB等数据分析的工具。主要思路就是:利用Excel或OpenOffice组织数据,然后再用R进一步整理,通过散点图和直方图找出有意义的模式,借助启发式算法做出结论,通过实验和假定测试预见未来,再以清楚直观的图形展示分析结果。这本书优缺点一样明显,优点是简单,无论是语言、文字,还是排版都让人很轻松,内容诙谐幽默,看起来不枯燥;缺点就是内容较浅,入门书,但对于我这种数据分析小白来说,作为数据分析看的第一本书强度足够了。书里有很多没有用的东西,用不到实际工作中,但一些思路和方法是可以借鉴的,帮助很大,第1、5、8章是最重要的,可以重点看一下。
各部分单独评价
分析思路
什么是数据分析:
所谓数据分析是心智模型(直觉、数据的心智)在数据上的体现,人们的心智模型影响对数据的解释,大脑无法处理所有数据,当面对纷繁的数据的时候大脑会依赖心智模式做出选择。数据分析就是妥善分解问题,为数据套上适当的心智模型和统计模型,做出正确的判断,但不保证次次正确如何避免心智模式对数据分析的影响,下面是一些建议(用数据的心智去分析):
1)流程: 确定问题--分解问题--评估/分析问题(资源和数据约束情况可以多用启发法、假设法)--做出决策 ,循环迭代,直至获得最优解(这里要综合考虑资源、代价)
2)方法: 明确目标、基于对业务的理解和已知的信息作出假设(提速的关键)、使用反查表寻找自己思维盲区(这个需要积累或者同事的建议)、通过假设检验过程拉取更多数据
3)建议: 客户未必明确他们的需求(有时候客户的论点值得商榷)、分解数据的过程可能就是解决问题的过程
实证检验:
实证检验是一种观察研究法,面对复杂问题,通过对部分因素的控制,研究对象差异性。控制混杂因素: 拆分数据为同质性的小数据块。让数据说话,策略选择:应用不同策略到控制组、对照组,要保证组之间的相似性(消除混杂因素影响的好办法),从而证明策略效果的差异性。
假设检验:
假设检验作为一种数据分析中常用的非直觉方法(非线性思考),也叫证伪法。再次呼应开头时候讲的什么是数据分析,这里提到了解决问题的直觉法(往往只看到一个选项,不靠谱),以及信仰数据的假设法,目的是实现最优化的解决方案。在我们面对复杂问题或者数据比较少的问题时,假设法是一个开启分析的利器。通过假设我们构建问题的模型,列出所有的相关变量,并分析变量之间的相关关系(这里可以参考《系统思维》里面提到的系统循环图:调节回路、增强回路)。 通过变量之间的网状关系进行问题的模拟。针对假设我们要使用证伪法,而避免使用满意法,目的就是不放过每个可能的假设,否定性最小的假设往往就是我们的最优选择。证伪的过程可以使用逻辑树或者问题树的形式进行组织,充分利用手头资料进行“是或否”的回答。
启发法,从直觉到最优化:
任何数据分析都是有代价的,具体到模型(约束条件、决策变量)就是数据的获取往往是有代价的。启发法很好的解决了数据获取代价和收益平衡的问题,通过选取一两个变量,通过这些变量对整个系统/模型分析得出结论。启发法是从直觉走向最优化的桥梁,通常直觉分析中我们只看到一个选项,通过启发法我们可以看到多个选项,并可能获取最优答案(所有可选答案)。启发法在心理学(心理学定义-用一种便于理解的属性代替一种难以理解的属性)和计算机科学(一种解决问题的方法,可以得出正确答案,但不保证最优答案)中有广泛应用,在解决复杂或者模糊问题时可以大大提高我们处理的效率。
分析工具
最优化:
我们处理的最优化问题都可以转换为一个函数,有目标变量、控制变量,以及我们不可控的约束条件。第三章介绍了一个实现最优化的工具,Microsoft Excel Solver。
贝叶斯统计和概率:
主要介绍了概率、先验概率、后验概率等概念。
主观概率,信念数字化:
数据分析的过程中并非不可以使用直觉,但是需要以更严谨的方式融入数据分析过程。数字化的主观概率可以让我们对专家们之间的分歧有更确切的认知。专家信念转化为主观概率,汇总群体(这里群体是解决个体主观偏差的关键点)的主观概率并进行一些相关的偏差度量分析可以实现不错的效果。一旦有更确定的数据可以进行主观信念的修正,可以用上一章介绍的贝叶斯统计条件概率进行修正。
回归和预测:
数据分析的目的分类、预测是最常见两类,回归就是一个解决预测的常用方法。通常结合散点图观察数据的相关性,通过回归算法形成回归模型(通过数据训练算法得出参数)。
数据处理
误差的理解:
预测和现实结果之间难免有误差,通常在进行预测分析的时候我们需要指出误差范围。在应用回归模型进行预测的时候我们需要注意:回归模型有适用的数据范围,如果超出范围进行预测(外插法)往往失准;回归模型中存在残差,通常我们有均方根误差进行计量(残差的标准差);回归模型的合理分拆,有助于减少误差实现更准确的预测。
关系型数据库:
关系数据库是我们数据分析中常见的数据源,相关的表结构、SQL是应该掌握的。
整理数据:
数据分析过程中耗时最长的往往是数据整理、清洗。在数据整理的过程中,一定要明确目标(输出格式),基于目标进行原始数据和目标数据的映射匹配。
结果展现
图形化、可视化:
通常数据分析过程中数据探索、结果呈现都需要用到可视化的图形,比如散点图(多元图形)、折线图、柱图、气泡图(多元图形)等等。但是不要忘记分析的目标,庞大的数据都是为目标服务,而不是为了好看的可视化效果。实现可视化的工具既有Excel、Tableau也有R、Python等程序化工具。
直方图:
主要介绍了如何用Excel、R画直方图,直方图是一个很好的观察数据分布、差异、集中趋势等的工具。