数据科学家、大数据、统计学

本文观点来自对《如何成为一位数据科学家——大数据时代的统计学思考》（Rachel Schutt, Cathy O'Neil）的阅读。

文中并没有给出数据科学家的定义，但是给出了其应具有的技能：统计学、线性代数、编程技能、数据预处理、数据再加工、数据建模、可视化和有效沟通。而该篇文章只对统计学进行了介绍。

一、统计推断

“数据就是现实世界运转留下来的痕迹。而这些痕迹会被如何展示出来，则取决于我们采用什么样的数据收集和样本采集方法”。作为数据科学家，其任务是将现实世界转化为抽象数据，然后从抽象数据中发现知识，再将该知识应用于现实世界。这个过程可能不是一次性的，更可能是迭代的。因为未必一次发现的知识就是完全正确的。可能还要将该知识在现实世界中再进行验证，然后根据验证结果再进行一轮现实世界——数据抽象——现实世界的过程。这一从现实世界到数据，再从数据到现实世界的流程就是统计推断的领域。这门学科关注从过程产生的数据中提取信息，包含流程、方法和理论。由于整个过程中人（数据科学家）的存在，因此这并不是像人们想的那样是客观的，而是明显主观的。例如可以选择不同的过程，以及通过不同的方式采集得到不同的数据。

二、总体和样本

这个比较好理解，总体就是全部的观察对象，样本就是总体中的选取的一个子集。但这涉及到如何选取这个子集，即采样方法的问题。如果采样方法存在偏差，那么通过对样本的研究得出的结论也是有偏差的。

这里，作者提到了大数据。即如果有能力对所有数据进行分析，还需要进行采样分析吗？作者也并没有直接回答这个问题，而是指出即使在谷歌，数据科学家和统计学家都在用到采样来处理大数据。而且是否采样也取决于个人想实际解决的问题。

我的理解是，大数据技术（Hadoop，Spark等）提供了更有力量的一个手段来帮助人们进行更全面的分析，但它也有相应的代价，包括人力成本、计算成本和时间成本。就像杀鸡是否要用牛刀一样，不同问题还是适合用不同的工具来解决。因此采样统计仍然是解决问题的一个可选手段。

三、偏差

这里举了个有趣的例子，微软研究院的Kate Crawford女士提到，如果对飓风桑迪前后对推特数据进行分析，会得到如下结论：人们在飓风来临前在购物，飓风过后在聚会。这里的购物可不是为了应对飓风而大采购。好像这个结论告诉大家飓风对人们没什么影响。但实际上，由于分析的样本就不对，结论自然不对。推特的重度用户是纽约人，他们的确是完全不受飓风影响的，但那些受飓风影响的人们却不怎么发推特。这就是采样导致的偏差的一个例子。

四、新的数据类型

由于互联网的快速发展，要分析的数据类型也从原来简单的数据（数字、分类变量和二进制变量）发展为更加丰富的数据类型，包括：

文字：电子邮件、微博、网站上的文章等；

记录：用户数据、带有时间戳的事件记录和JSON格式的日志文件；

地理位置信息数据；

网络：这里应该指的是例如朋友关联、人际关系等事物之间连接关系构成的网络或图；

多媒体信息：包括图片、音频和视频等。

这些新数据类型的出现使得数据科学家在选择数据时应更谨慎，并且需要研究不同类型的分析方法。

作者还给出了其对“大数据”的理解：大数据是大是相对的，20世纪70年代的大数据概念和现在的大数据概念是不一样的。当用一台机器无法处理时，就可以称为“大数据”。

另外，作者并不认同库克耶和迈尔-舍恩伯格的文章“The Rise of Big Data”中的观点：接受数据中存在杂乱噪声；重视结论，放弃探究产生结果的原因。他们提出这观点的原因是，认为总体就是全部，有了全部，就能够得出正确的结论。但本文作者认为总体并不等于全部。因为总体其实也取决于数据科学家的判断，一旦判断出错，认为是全体研究对象产生了这些数据，但实际上只是部分研究对象产生的，就会发生错误。正如同上述的通过推特用户研究飓风影响的例子。也正因为此，作者提出“数据是不客观的”。

五、建模

作为一名数据科学家，建模是不可避免的研究数据的手段。通过建模找出数据的规律，并采用模型表示这些规律，以及用于在现实世界中进行进一步验证。模型有很多表达方式，在不同的学科和领域有不同的形式，比如建筑学中用蓝图和三维立体模型，分子生物学中用连接氨基酸的三维图像表示蛋白质结构，数据科学家用函数来描述数据的规律。

那么等于一堆看起来杂乱无章的数据，应该怎么建模呢？应该怎么选择模型呢？作者认为模型的选择一半是艺术，一半是科学。无非还是需要依靠假设、从最简单模型起步、探索性分析、反复尝试以及模型复杂度（建模代价）与模型准确率之间的权衡等方式。接着作者对建模时用到的最基本的概率分布进行了介绍。这些就是概率书本上的一些经典概率分布，这里直接引用了原文中的图：

几种典型概率分布

另外，要避免建模过程中出现过拟合问题。所谓过拟合，也就是模型对于样本数据特别符合，但对于样本之外的数据却并不能准确描述。也就是说建立的模型失去了其普适性，往往是因为对于样本数据过于调优所致。

六、数据科学的工作流程

这里也直接引用原文中的图：

数据科学工作流程

该流程中的几个活动从字面上都比较能直观地理解其含义。但可以看到几个特点：

活动之间有迭代。从探索性数据分析可能会回到收集原始数据，再进行一次迭代。因为探索性分析就有可能出现分析错误，所以需要再次进行从头开始。

活动不是按照固定步骤进行。没有固定的流程，有些活动是可以跳过的。例如清理数据后，可以选择机器学习算法训练模型，然后再进行沟通、可视化和报告，也可以清理数据结束就进入到沟通、可视化和报告。还有就是机器学习之后可以进入到构建数据产品。其实这些活动往往取决于此次数据分析的目的，有时候可以跳过某些活动，有时候这些活动可以并行执行。

模型结果要反馈回现实世界。就是图中的虚线箭头。因为一次分析往往只是对采样样本进行研究得到模型，但是否能够适用于更广大的未采样样本，还需要进一步验证。另外，得到了数据模型，往往是需要依据该模型进行决策，调整系统，然后将调整的系统再次在现实世界中运行，看是否能够达到调整预期。例如，根据对网站用户行为的建模，调整了推荐系统的推荐策略，实施后是否真的提升了网站的产品销售量，就需要进一步验证研究了。

七、数据科学家在数据科学工作流程中的角色

这里也引用了原文中的图：

数据科学家的活动

其实，大家要注意，这张图只是举例这几个环节需要数据科学家做哪些活动，但并不是说数据科学家仅仅参与这几个环节，其实很容易想到他们肯定还要参与所有后续活动，如探索性数据分析、机器学习、沟通和构建数据产品等。

以上，就是基于原文对数据科学家的一个简单介绍。原文对几个观点的质疑还是比较中肯。例如对2008年《Wired》杂志主编Chris Anderson在杂志上发表的文章“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”中所认为的，数据即信息，有了数据就不需要哦行了，了解相关性就够了。并且说以海量数据为例，“谷歌根本没有使用模型”。显然上述说法明显是有问题的。还有就是对库克耶和迈尔-舍恩伯格提的“N=全部”观点的质疑。因此意见领袖由于不是该行业的专家，因此只是向广大群众介绍了相关概念和问题，但其说法并不一定准确。因此要对意见领袖的话保持自己一定的判断。

参考文献

1. 如何成为一位数据科学家——大数据时代的统计学思考， Rachel Schutt, Cathy O'Neil

最后编辑于：2017.12.04 07:21:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

数据科学家、大数据、统计学

推荐阅读更多精彩内容