这本书的标题是大数据预测告诉你谁会点击、购买、死去或撒谎。读完这本书,总结起来,主要描述的就是从海量数据中提炼规律,形成模型,使计算机可以学习,也就是实现机器学习,然后用于各行各业不同的业务需求。
第三章:在大量的原始数据,如何得到有效 的信息?怎么才能让数据具有可预见性?现有的数据是否可以揭示人类的集体情感?我们在网上所体现的情绪如何影响经济的起落?这些问题的提出都很有意思。社交媒体越来越发达的今天,人们更乐于在网上表达自己的情感,包括各种正面的负面的,这些信息都是公开的可以调用的,于是神秘的科学家们,便将这些语义信息进行分词处理,得出民众的基本情绪,并与当时的经济社会发展进行了规律匹配,从而预测在哪些情况下,民众发出哪些声音的 时候经济会上涨,适合股市入手或离手。这很有意思,很像我研究生同门做的舆情分析对政府工作的指导性作用,同样是通过对大量微博数据的分析研究,得出民众对大众热点事件的态度和看法,分析政府行为对民众态度变化的影响,从而反推得出在社会热点事件发生后,政府应该采取何种态度和做法更有利于社会稳定和安抚群众的心情。
第四章:主要描述是美国大通银行通过回归决策树的方法,对该银行的客户进行进一步的挖掘,降低自身的投资风险。主要也是根据大量的原始数据,得出用户提前还贷的风险评估,给出很多条规则,从而在未来的商业营销中,更好的服务提前还贷风险小的客户,而不在提前还贷风险大的客户身上花费太多的力气,而事实也证明这种预测方法是可行的,对微观客户的预测从过往数据分析中得出的规则十分适用。但对经济危机的预测,运用这种微观的学习方法,显而易见就不大合适了。
第五章:提出了一个名词,众包。恰巧我上学的时候 ,一门学科前沿的课上就曾经将众包作为一个单独的主题讲过,我印象很深刻。众包,通俗而言,就是运用广大人民群众,体现在互联网上,就是广大网友的群体力量完成一件事,我当时做课程汇报的时候,所描述的众包案例是对于美国一个珍稀鸟类的监测网站发出的众包项目,广大的鸟类爱好者参与其中,通过几年的努力,找到了该类鸟的 栖息地,生活习性等。而在大数据预测领域,同样需要这种方法,众人拾柴火焰高,集体的力量很重要,尤其是在机器学习的算法完善上。
第六章:描述了人机大战。事实上,我们很小的时候就听说过围棋大师和计算机“深蓝”之间的世纪大战,那个时候的人工智能还只停留在围棋这一个领域。而现在的人工智能则已经进入到了百科全书的境界。不仅仅是棋谱的记忆,更是人类知识的大全。但光有储存也不行,还要有识别人类问问题的一百种方式的能力,这就要不断地挑战机器智能学习的程度。
第七章:上提模型对企业的真实效用 。上提模型,即通过对比各种方法的效果来预测对个人行为影响力的预测模型。其实也就是互联网网站中的A/B测试,即采取新方法和什么都不做的效果对比。这也是在上面的六章,我们学习了那么多预测的方式方法,如何应用到实践中来。落到实地了。
接下来要发生的事,就是未来……预测分析就是商业智能的发展方向。总之,未来的世界是预测的世界,我们将无时无刻不享受预测带来的巨大的生活便利。
第一本书在2017年1月1日读完。加油。