[list]Apache数据流项目Kafka/Storm/Samza/Beam/Spark/Flume/NiFi

Apache数据流项目：一个都不少｜「云头条」 http://mp.weixin.qq.com/s?src=3&timestamp=1480572229&ver=1&signature=z5tskWVYLQ5zeoVG6ormP0yrjSDSY7RnTfqIpt3JinbmQ-uUGEqDjrjsu0Q3-prqDsFXW80h-OZSFEgzh2ZmVmPDDeOw7BjxFd*dWanBRLI92RoeOETv32iLzVKdS1Ni4H8DnbThlSmimMZkQxNQj3FWYvlE1pfKbrqF0u0n84o=

Apache Kafka、Apache Storm、Apache Spark、Apache Samza、Apache Beam

生产、使用、处理和分析数据的速度正在以令人难以置信的步伐迅速增加。社交媒体、物联网、广告技术和游戏等垂直领域都在竭力处理大得出奇的数据集。这些行业需要近实时处理和分析数据。像Apache Hadoop这些大数据类型的传统框架不是很适合这些使用场合。

因而，过去几年已经启动了多个开源项目，以处理数据流。它们都旨在处理来自不止一个数据源的源源不断的记录。从Kafka到Beam，有十多个Apache项目，它们处于不同的发展阶段。

当前的Apache数据流项目高度重叠，针对类似的使用场景。用户常常一头雾水，不知该选择哪种合适的开源架构，以实施实时数据流处理解决方案。本文试图帮助客户理清让人眼花缭乱的Apache数据流项目，为此列出了每个项目的主要差异化优势。我们将讨论以下开源项目针对的使用场合和主要场景：Apache Kafka、Apache Storm、Apache Spark、Apache Samza、Apache Beam及相关项目。

Apache Flume

Apache Flume是历史最悠久的Apache项目之一，它旨在收集和聚合庞大数据集（比如Web服务器日志），并将它们转移到中心位置。它属于数据收集和单事件处理系列的数据流处理解决方案。Flume基于代理驱动型架构，客户端生成的事件直接流式传输到Apache Hive、HBase或其他数据存储区。

Flume的配置包括：来源、通道和接收器（sink）。来源可以是任何东西：从系统日志（Syslog）、Twitter数据流到Avro端点，不一而足。通道定义了数据流如何传输到目的地。有效的选项包括：内存、Java数据库连接（JDBC）、Kafka、文件及其他。接收器则定义了数据流传输到哪个目的地。Flume支持许多接收器，比如Hadoop分布式文件系统（HDFS）、Hive、HBase、ElasticSearch、Kafka及其他。

Flume

Apache Flume很适合客户端基础设施支持安装代理的场景。最流行的使用场合就是，将来自多个来源的日志流式传输到中央持久性数据存储区，供进一步处理分析。

典型的使用场合：流式传输来自能够运行Java虚拟机（JVM）的多个来源的日志。

相关网址：http://flink.apache.org

Apache Beam

Apache Beam是Apache软件基金会越来越多的数据流项目中最新增添的成员。这个项目的名称表明了设计：结合了批处理（Batch）模式和数据流（Stream）处理模式。它基于一种统一模式，用于定义和执行数据并行处理管道（pipeline），这些管理随带一套针对特定语言的SDK用于构建管道，以及针对特定运行时环境的Runner用于执行管道。

谷歌以及Data Artisans、Cloudera和贝宝将其大数据服务的SDK：Cloud Dataflow捐赠给Apache软件基金会，后来它成为了Apache Beam的基础。它由谷歌的众多内部项目演变而来，比如MapReduce、FlumeJava和Millwheel。Beam中的Pipeline Runners概念可将数据处理管道转变成与多个分布式处理后端兼容的API。管道是一连串在数据集上运行的进程。每个Beam程序都会有面向后端的runner，这取决于管道在哪里执行。该平台目前支持的runner包括：谷歌Cloud Dataflow、Apache Flink和Apache Spark。正在开发支持Storm和MapReduce等其他runner的功能。

Beam

Beam可以解决什么问题？当MapReduce作业从Hadoop迁移到Spark或Flink，就需要大量的重构。Dataflow试图成为代码和执行运行时环境之间的一个抽象层。代码用Dataflow SDK实施后，会在多个后端上运行，比如Flink和Spark。Beam支持Java和Python，与其他语言绑定的机制在开发中。它旨在将多种语言、框架和SDK整合到一个统一的编程模型。

典型的使用场合：依赖多种框架（包括Flink和Spark）的应用程序。

相关网址：http://beam.incubator.apache.org

Apache Ignite

Apache Ignite是建立在分布式内存计算平台上的一个内存层。它经过了优化，以便实时处理庞大数据集。内存架构让它的运行速度比基于磁盘或基于闪存的传统技术要快得多。

该项目最初是由GridGain Systems开发的，后来它在2014年捐赠给了Apache软件基金会。2015年9月份，Ignite从孵化器项目升级为顶级项目。

虽然Spark和Ignite都依赖分布式内存处理架构，但两者之间还是存在细微的差别。Spark主要是为交互式分析和机器学习等应用设计的，而Ignite旨在提供编程实时分析、机器对机器通信和高性能事务处理。

Ignite有可能成为事务处理系统的优选解决方案，比如股票交易、欺诈检测、实时建模和分析。无论是在商用硬件上运行的横向扩展架构，还是在高端工作站和服务器上的纵向扩展，Ignite同样可以轻松应对。

Ignite

Ignite数据流功能让用户能够以可扩展、容错的方式，处理持续不断的数据流。数据注入Ignite的速度可以非常快，在一个中等规模的集群上每秒轻松超过100万个事件。

典型的使用场合：高度依赖编程实时分析、机器对机器通信和高性能事务处理的应用。

相关网址：https://ignite.apache.org

云头条编译｜未经授权谢绝转载

欢迎加入交流，群主微信：aclood

最后编辑于：2017.12.04 21:13:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,088评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,715评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,361评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,099评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,987评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,063评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,486评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,175评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,440评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,518评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,305评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,190评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,550评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,152评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,451评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,637评论 2赞 335

[list]Apache数据流项目Kafka/Storm/Samza/Beam/Spark/Flume/NiFi

推荐阅读更多精彩内容