什么是大数据?如何理解大数据的真正含义

**大数据 Big Data **

据说,词源出自Alvin Toffler,上世纪70年代的作品《第三次浪潮》。
逝者 | 阿尔文·托夫勒:如何化解未来的冲击

虽然大数据是一个泛泛的概念词,但是关于大数据,关于大数据处理分析的话题近来持续升温,现在基本成了新一轮工业革命级别的话题。

大数据是什么,作为数据采集团队 ,我们很长的时间里一直也在思考,什么是大数据,大数据的前景和价值在哪里。

这篇文章里,我会跟大家一起分享我的看法以及各种有趣的内容和资源,它们关于:

  1. 什么是大数据
  2. 大数据的实践
  3. 大数据的应用场景

硬广:我们团队的帮助你零门槛采集数据:
造数 - 最好用的云爬虫工具 进击的爬虫工具!

最近都在说裁员,如果想知道互联网裁员潮对就业薪资是不是真的产生了持久的负面影响,可以用我们的工具,帮你定时每天采集几次生成列表看一看。

(一)什么是大数据

先听听行家的说法:

大数据就是多,就是多。原来的设备存不下、算不动。 ————啪菠萝·毕加索

大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。 _______Schönberger

移步ted:Kenneth Cukier: Big data is better data

America's favorite pie is?Audience: Apple. Kenneth Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone's second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice.* You have more data. You can see something that you couldn't see when you only had smaller amounts of it.***

曾经人们以为最爱吃的派都是苹果派,不过当你有了更细致的数据,你会发现,苹果派受欢迎其实是一种妥协的结果:苹果派是每个人第二喜欢的口味。

拿到小尺寸派的数据以后你更发现,其实苹果派只能排到第四,第五位的样子了。
你有了更多数据,你就能看到之前你看不到的信息。

大数据最核心的价值是什么? - 商业 - 知乎 推荐@Han Hsiao这篇内容的结构十分清晰,对大数据的正面意义提出了非常清晰地探讨。
大数据听着很牛,实际上也很牛吗? - 人工智能 - 知乎 这里 @陈萌萌说的也特别好,怀疑她是不是真的是一个ai。
大数据最核心的价值是什么? - 商业 - 知乎,依然是这个问题, @刘飞的文章。

大数据是大数据的采集

大数据行业,本身是依托于数据源存在的服务性行业。

大数据最根本之处在于信息收集方式出现了重大变化与革新。大数据的出现与大量信息直接在网络呈现关系非常紧密。


微博、天猫、淘宝、微信等等都直接产生了大量包括定位、消息记录、消费记录、评价、阅读等等殊为庞大的信息,可以说互联网企业都自然的带有数据企业的标签。不过如果我们从数据的源头看的更仔细一些,还是会发现,其实很多数据依然是有巨大的采集与归类的需求。

Joel Selanikio:Transcript of "The big-data revolution in healthcare&quot

There's a concept that people talk about nowadays called "big data." And what they're talking about is all of the information that we're generating through our interaction with and over the Internet, everything from Facebook and Twitter to music downloads, movies, streaming, all this kind of stuff, the live streaming of TED. And the folks who work with big data, for them, they talk about that their biggest problem is we have so much information. The biggest problem is: how do we organize all that information?

现在人人都说大数据,但其实大家说的是 facebook,twitter,streaming 等等站点上每天产生的信息,做大数据的人呢,会觉得我们有的数据量实在太大了。(组织信息仍然是最难的问题)

I can tell you that, working in global health, that is not our biggest problem. Because for us, even though the light is better on the Internet, the data that would help us solve the problems we're trying to solve is not actually present on the Internet. So we don't know, for example, how many people right now are being affected by disasters or by conflict situations. We don't know for, really, basically, any of the clinicsin the developing world, which ones have medicines and which ones don't. We have no idea of what the supply chain is for those clinics. We don't know -- and this is really amazing to me -- we don't know how many children were born -- or how many children there are -- in Bolivia or Botswana or Bhutan. We don't know how many kids died last week in any of those countries. We don't know the needs of the elderly, the mentally ill. For all of these different critically important problems or critically important areas that we want to solve problems in, we basically know nothing at all.

许多有效的数据还完全不在网络上,要依靠原始的方法来收集。数据方面还有很多基本层面的问题在非常多的领域非常明显。

有哪些「神奇」的数据获取方式? - Liu Cao 的回答 - 知乎 看到这里推荐一个 @Liu Cao的回答。
严澜(lanceyan)的博客 - 技术分享 框架交流 大数据处理 架构搭建 机器人
强烈推荐:如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?其中 @Xiaoyu Ma

(二)大数据的实践

工具看这里:大数据分析一般用什么工具分析? - JavaScript - 知乎
最近看到个例子,说pokemon go 带给玩家运动量上的变化:

1、应用中的数据分析示例:


六个月以后,大部分pokemon go 的玩家的运动量逐渐和 non-player基本一致了。

看来确实是一个能用相当效果的游戏。

2、交通状况大数据分析示例:





Susan Etlinger: What do we do with all this big data?

Now, there's a group of data scientists out of the University of Illinois-Chicago, and they're called the Health Media Collaboratory, and they've been working with the Centers for Disease Control to better understand how people talk about quitting smoking, how they talk about electronic cigarettes, and what they can do collectively to help them quit. The interesting thing is, if you want to understand how people talk about smoking, first you have to understand what they mean when they say "smoking." And on Twitter, there are four main categories: number one, smoking cigarettes; number two, smoking marijuana;number *three, smoking ribs; and number four, smoking hot women.

这里非常有趣

(三)大数据的应用场景

先贴两个新闻观察:

京津冀大数据产业发展现状 | 报告 | 数据观 | 中国大数据产业观察_大数据门户
数据观 | 中国大数据产业观察_大数据门户

如今,在政策上,国家战略层面上,大数据受到的重视程度都越来越高。

应用场景上,现在分布在:

  • 供应链和渠道分析&优化
  • 定价分析与优化
  • 欺诈行为分析&检测
  • 设备管理
  • 社交媒体分析&客户分析

《大数据时代》一书作者维克托认为大数据时代有三大转变:
第一,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。
第二,研究数据如此之多,以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度,将带来更好的洞察力和更大的商业利益。
第三,不再热衷于寻找因果关系,而是事物之间的相关关系。例如,不去探究机票价格变动的原因,但是关注买机票的最佳时机。”大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,而大数据则使数据来源更加多样化,不仅包括企业内部数据,也包括企业外部数据,尤其是和消费者相关的数据

据野史记载,中亚古国花剌子模有一古怪的风俗,凡是给君王带来好消息的信使,就会得到提升,给君王带来坏消息的人则会被送去喂老虎。从前的人喜欢批评这位君王的天真品性,以为奖励带来好消息的人,就能鼓励好消息的到来,处死带来坏消息的人,就能根绝坏消息。
在今天这个信息爆炸的时代,我们不一定能让信使一定送来好消息,但你可以让我们的爬虫定时给你送来最有用最合你需求的信息。

硬广
造数 - 最好用的云爬虫工具

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容