DT时代,物联网的发展不断推动着市场推出新型的分析工具,尤其是开源数据分析工具。物联网发展的同时,带来了众多传感器及其他设备,这些设备在源源不断地生成数据流,因此,市场需要更多更全面的完善数据分析生态系统的新工具。今天就来跟随大圣众包威客平台看看3款勇敢逆袭传统数据分析工具的数据分析新星!
一、ApacheKafka
1.起源
最初由LinkedIn开发的ApacheKafka,在2011年年初开放了源代码。而LinkedIn当初开发Kafka的那些工程师,还成立了专注于Kafka的Confluent。
2.优点
ApacheKafka具有统一、高吞吐量、低延迟等优点,它提供了处理实时数据的功能。而上文提到的Confluent及其他组织,还开发了自定义工具,以便Kafka与数据流结合使用更为方便快捷。作为一种经过加固和测试的工具,ApacheKafka项目已凭借实时数据跟踪功能,成为一颗数据分析新星。
3.影响
得益于强大的功能,使得ApacheKafka在大数据产业的地位越来越重要,现在,许多企业组织都要求员工拥有ApacheKafka方面的知识。在实际应用中,一些知名的公司如思科、网飞、贝宝、优步、Spotify等,都在使用它。
二、ApacheDrill
1.起源
Dremel是来自Google的一种用来分析大数据信息的方法,它能够帮助Google实现海量数据集的分析处理,如抓取Web文档的分析、跟踪AndroidMarket上的应用程序数据信息、分析垃圾邮件,等等。而主角ApacheDrill,正是基于Dremel而实现的开源项目。
2.优点
ApacheDrill的核心模块是Drillbit服务。Drillbit服务模块包括远程访问子模块、SQL解析器、查询优化器、任务计划执行引擎、存储插件接口(DFS、HBase、Hive等的接口)、分布式缓存模块等几部分。因此,让ApacheDrill具有了适于实时的分析和快速的应用开发、适于半结构化/嵌套数据的分析、兼容现有的SQL环境和ApacheHive等特征。ApacheDrill之所以在流数据应用程序中如此出名,是因为它是一种分布式、无模式(schema-free)的SQL引擎。
另外,为什么说ApacheDrill敢于逆袭多个传统而闻名的数据分析工具,如Hadoop和ApacheSpark?因为,ApacheDrill是一个能够对大数据进行交互分析、开源的分布式系统,它能够运行在上千个节点的服务器集群上,并且能够在几秒内处理PB级或者万亿条的数据记录。总的来说,在面对大数据时,ApacheDrill能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。
3.影响
作为Apache的一个顶级项目,ApacheDrill与ApacheSpark一同应用于许多流数据场景。就在今年1月份召开的纽约ApacheDrill大会上,MapR的系统工程师就展示了在用于涉及数据包捕获、近实时查询及搜索的一种使用场合下,ApacheDrill和ApacheSpark是如何协同的。ApacheDrill项目在大数据领域带来了重大的影响,以至于MapR等公司甚至把它纳入到其Hadoop的发行版中。
三、Grappa
1.起源
Grappa——起源于一群基于克雷(Cray)系统运行大数据任务有丰富经验的工程师的构想。这群工程师希望有一款可与Cray系统现成商用硬件的实现分析功能一较高下的硬件,于是,Grappa开源项目华丽诞生了。
2.优点
可以在大众化集群上扩展数据密集型应用程序的Grappa,提供了一种新型的抽象机制,比经典的分布式共享内存(DSM)系统更胜一筹。Grappa还采用了BSD许可证,让其在GitHub上可以免费获取。只要在应用程序的README文件中,遵照通俗易懂的快速启动说明构建Grappa应用程序,就可以在集群上运行,可以获得Grappa的源代码,这样,你就可以亲身感受这款开源项目的魅力了。
3.影响
进入大数据时代,众多企业组织正致力研究从数据流提取宝贵信息的新方法。在这些数据流里面,包含了许多在处理集群上生成的数据,及处理商用硬件上生成的数据。这样一来,成本合理的、以数据为中心的方法便受到了重视,这也是Grappa开始被广泛使用的原因之一。
流数据分析工具,可以用来帮助新型药物的发现,甚至分析TB级的复杂的外太空无线电信号流等等,于人类,于社会,都在贡献着它独特而又强大的功能。
原文地址:http://www.dashengzb.cn/articles/a-272.html
(更多大数据与商业智能领域干货、或电子书,可添加个人微信号(dashenghuaer))