文/泰阁志
1. 缘起
为了帮助大家和自己更好地学习数据分析,斗胆撰写《人人都能用数据》系列,会同步在本人的微信公众号/知乎专栏/头条号/简书(名称都是泰阁志)。这是第一篇,打算从统计学讲起。
之所以开始选择统计学,原因如下:
市面良莠不齐,有“术”无“法”:
目前不少数据分析教程讲的都是和数据相关的程序开发或所谓的数据驱动,然而,这些大都属于“术”的层面。首先,术业有专攻,每个领域的业务不尽相同,不同业务之间的分析流程差异较大;其次,不同的数据技能,其通用性难以保证,各有专长,而入门者一开始就在某项技能上深入,很难培养数据分析的大局观。正所谓一叶障目不见泰山。统计学是重中之重的方法论:
它和数据密不可分,却要高于数据本身。可以说,在大数据时代,统计学提纲挈领,引领着数据分析的方法论,属于“法”的层面。缺乏足够统计学训练的入门者,难以真正掌握数据分析的精髓。统计学是绝佳的逻辑思考武器:
比特币大神和著名投资人李笑来曾在新生大学社群说过:“在这个时代,不懂一点统计和概率论,简直就是文盲”。此言不虚,在这个数据爆炸的时代,我们的眼耳鼻舌身接收到的几乎都是量化的信息,不懂统计,你就少了一样看清世界真相的重要武器。
2. 统计学和数据分析的关系
说到统计学,我们先来看看它的维基百科定义:
统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科。
它是研究如何测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。统计广泛地应用在各门学科,从自然科学、社会科学到人文学科,甚至被用来工商业及政府的情报决策之上。
随着大数据(Big Data)时代来临,统计的面貌也逐渐改变,与信息、计算等领域密切结合,是数据科学(Data Science)中的重要主轴之一。
好了,统计学和数据分析的关系一目了然:
统计研究数据的特征,并从中抽取规律来做决策。
那么,统计学是如何从大量貌似杂乱无序的数据中寻找特征的呢?简单来说有两点:
用图形化呈现特征(可视化)
以某个数字来代表特征(该数即统计量)
从图形化出发,我们先学习一个常见且重要的统计图形:直方图。
3. 直方图(Histogram)
直方图,可以理解为由一系列高度不等的纵向条柱来表示数据分布特征的统计报告图,它是对原始数据进行压缩的结果。
它的生成步骤如下:
- 找出原始数据集的最大值和最小值
- 根据最大值和最小值将原始数据大致划分成若干组
- 确定各组的代表值,称为组值
- 确定每组值的数据个数,称为频数
- 计算每组频数的累计值,称为累计频数
- 在横轴上等间距放置组值
- 在纵轴上做出柱状图,高度为该组值对应分组的频数
以上步骤看起来可能比较抽象,我们大致了解即可。真正制作直方图时,不需要我们亲力亲为以上步骤,一般的程序和工具包都可以直接绘制直方图。
下面以常用语言Python和R为例来演示如何用程序生成直方图,当然,这也是数据可视化的入门范例。
以下为Python产生直方图的样例代码,运行环境为Mac终端的IPython:
以上Python代码生成的直方图效果如下:
以下为用R产生直方图的样例代码,运行环境为Mac版的RStudio:
以上R代码生成的直方图效果如下:
注:上图标题“breaks = 40”表示原始数据被分成40个数据组,该R代码来自谢益辉的《现代统计图形》
直方图对理解统计学至关重要,请大家仔细体会和通过代码学习。
题图作者:William Bout
图片授权基于:CC0协议