硬啃 :读完这100篇论文,你就能成大数据高手!
http://mp.weixin.qq.com/s?src=3×tamp=1480386554&ver=1&signature=-r8lH53x44tEKlPJ1Dmi1mDLtKAj-miVvtTacKN46zKfCxCNX742JjR7VbUXLMu3NHK0RWV7R7Cal2BK8MerOORNeCqel4nHdXQgShUFyF-tpQXihxx67Hu5CLIoSzz4m4kYEsoA8q2AQYsBjzcHtA==
架构的演进
减少数据生产者和消费者之间的处理延迟,一直是现代计算构架不断演进的主要动力。由此,诞生了实时和低延迟处理的计算构架,如Lambda和Kappa等,这类混合架构取长补短,架起传统的批处理层和交互式层之间连接的桥梁。
Lambda【3】 -该架构是经典的大数据处理范式,是由南森�马兹(Nathan Marz)提出的一个实时大数据处理框架。更多有关Lamda的信息,请读者访问Lambda官方网站。(注:文献【3】是由James Kinley在轻博客网站Tumblr发表的一篇博文:Lambda 架构:构架实时大数据系统的原则)。
Kappa【4】-该计算构架可视为Lambda的一个强有力替代者,Kappa将数据处理的上游移至流式层(注:文献【4】是一篇博客文章,作者是Jay Kreps是Linkedln的一名在线数据架构技术高管。Kreps认为,虽然Lambda构架的理念很有价值,但终究还是一个临时解决方案。他设计了一个替代架构Kappa,是基于他在Linkedin构建Kafka和Samza的经验设计而成)。
SummingBird【5】-这是一个参考模型,用来桥接在线处理模式和传统处理模式。Summingbird是由Twitter(推特)公司用Scala语言开发的、并开源的大规模数据处理框架,支持开发者以批处理模式(基于Hadoop)或流处理模式(基于Storm),或混合模式(即前两种模式的组合)以统一的方式执行代码。(注:文献【5】是Summingbird的主要设计者Oscar Boykin、Sam Ritchie等人于2014年发表于知名期刊PVLDB中论文,其中论文的二作Sam Ritchie大有来头,他是计算机科学界的传奇人物、C语言和Unix的设计者Dennis Ritchie的侄子)。
在你尚未深入了解下面的各个具体的框架层次之前,建议你认真阅读一下下面的几篇非常有价值的文献,它们帮为你“恶补”一下诸如NoSQL(非结构化)数据存储、数据仓库大规模计算及分布式系统等相关领域的背景知识: