这是一本大数据启蒙的书,作者用通俗的例子在给我们解释
大数据是什么样的?大数据能做什么?大数据怎样产生价值?
为了不很快就把书里的内容再还给作者,写下这份读后感,也相当于把书中的要点再次白话给各位了。
大数据是什么样的?
这里就必须提到结构化数据和非结构化数据的概念。
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。结构化数据不仅人容易理解,计算机也容易理解,是可以直接进行大数据分析和计算的。
而现实中更存在着形形色色的非结构化数据,这些数据不能直接被计算机识别分析,而需要从中提取出有用的可以量化的信息才能被分析使用。以下六种非结构化数据是作者认为最有挖掘价值的,文本,图片,音频,视频,时空序列,网络。
大数据能做什么?
以下每一个大数据能做的事情我都会用一个简短的例子说明。
功能1:统计特征解决问题
对微博等社交媒体上垃圾用户的甄别。将用户以下的特征,如关注度,粉丝数,互粉数,关注粉丝比,关注互粉比等等,进行统计分析,制定衡量条件找出垃圾用户或者种子用户。
功能2:找出关联价值
耳熟能详的就是“啤酒-尿布”的故事,没听说过的可以自行检索。大数据在啤酒尿布的故事中先得到了结论,根据这个结论我们在现实中也找到了合理的解释。下面的例子有异曲同工之妙。
一款超声波洁面产品在做大数据分析中得出结论,教师这个职业更加关注超声波洁面产品。如果你并不了解这个产品的特性而只是根据大数据的结论,你可能会很诧异。但是这个产品的负责人很快就想到了其中的原因,教师因为经常使用粉笔,所以需要一款便捷的清洁面部皮肤的设备。
大数据在寻找关联价值上的精妙之处在于,你不是专家,也可以得出专家一样的结论。
功能3:预测指导决策
相信这一点各位已经有了深刻的体会,每天你在拿起手机随意浏览的时候,你相关的大数据都在做着预测的工作。你的今日头条推送的全是你最近关注和相关的内容,你的淘宝首页不停的在给你推送着你曾经购买或者只是搜索了一下还没来得及购买的商品,就连现在的移动终端厂商也在利用你手机的使用习惯做一些定制化系统优化方案。
以上的三大功能在作者的书中定义为大数据1.0:分析。从中我们已经可以稍微体会到了大数据的强大魅力。下面我们赶紧看看大数据2.0会给我们带来什么更震撼的内容。
所有的2.0章节中都是围绕着外部数据的利用进行,大数据也真正的从你的数据,我的数据,融合成为了真正的你我大数据。
1.寻求外部数据帮助
先举一个大家可能都会有感受的例子,通过大学生的日常行为预测学生的考试成绩。具体数据略过直接上结论:
在寝室待的越久,成绩越差。
进图书馆次数越多,成绩越好。
打水越多,成绩越好。
吃早饭越多,洗澡越规律,成绩越好。
想想各位真实的大学生活,是不是这样的。上面这些看上去和学习无关的数据,是不是各个都戳中了你身边的舍友。以上这些外部数据还是发生在校园,我们也比较容易想出这些数据内在的关联。
想想如果更多的外部维度数据进入了大数据的分析,你被记录的一举一动,可能都会成为你的上司拿到的职业分析报告,警察手中的犯罪预警报告。
这时候突然感受到了大数据可以帮助我们探求社会发展的规律。
2.自身数据的外部价值
上面讲的通过引入外部数据的维度进行分析可以得出更多的关联结论。下面说我们单纯的自身数据,也可能得出外部结论。
如google科学家分析用户在搜索引擎上搜索特定的一些词语,预测流行性感冒的传播趋势,在这里例子中,大数据已经在做一些即使是专业人员都很难做的事情了。
3.机器学习
作者在此说明了大数据分析的重要工具,机器学习。也称之为数据外化最神奇的利器,他让大数据分析有了通用的方法,他让非专业人员也可以通过通用的方法得出专业结论。
机器学习三板斧:特征,模型,融合。
最后,作者并没有再次进行深入和细化大数据如何分析,而是跳转为以数据为商品,通过数据交易集成更加大量的数据,创建大数据的创业公司。
在此我觉得作者已经深刻的相信大数据的能力和大数据分析的通用性。而此刻只是感慨数据的不够丰富,特别是政府数据的不足。所以希望为大数据分析贡献充足的燃料,助力大数据行业的腾飞。
如果你还完全不了解大数据,推荐此书。