MiNiFi初探

Apache NiFi是由NSA(美国国家安全局)开源并贡献给的Apache社区的易于使用且功能强大的数据处理和分发系统,可以帮助用户建立和管理复杂的数据流,NiFi在近几年大数据项目的数据接入层得到了广泛应用。在物联网(IoT)场景下,系统中有大量的设备(例如传感器,路由器,零售终端等)需要进行数据的采集和上报,如果采用中央NiFi集群,就需要处理大量设备的连接问题,加大了NiFi的压力。于是,旨在直接在数据产生的源头收集和处理数据的子项目MiNiFi就应运而生了。

本文将简要探讨MiNiFi的原理,部署与配置,如何运行数据流以及与NiFi的集成。

说句题外话,MiNiFi应该怎么读?根据MiNiFi项目的FAQs(堪称史上最简短的FAQs~ ),MiNiFi应该读作min-uh-fahy



原理

MiNiFi作为NiFi的子项目,是对NiFi数据流管理核心原则的扩展,聚焦于如何从数据产生的源头收集数据;MiNiFi解决了数据在产生源头和消费者之间相互传递和管理的困难,可以作为数字信号的“第一或最后一英里”,通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信。MiNiFi设计的具体目标包括:

- 更小的体积和更低的资源消耗

- 集中管理Agents

- 可以生成数据世系(Data Provenance)

- 可以和NiFi集成

因为数据采集的初段是分布式且通常涉及大量的终端设备(例如物联网),MiNiFi具备NiFi的除了前端页面和部分管理命令行之外的所有核心能力,可以创建和部署数据流,使大量设备的统一管理成为可能。

- MiNiFi的配置由声明式的配置文件(YAML)驱动,可以通过主流的自动化管理工具辅助进行配置下发来管理大量的MiNiFi实例

- MiNiFi Agents通过点对点协议(例如HTTP/HTTPs)来将收集的数据传送到中央的NiFi集群中

- MiNiFi聚焦于对NiFi的精简,所以NiFi并没有包含NiFi支持的全部Processor,Java Agents可以通过添加NiFi既有的NAR包来扩展processor种类,满足用户在设计和部署自己的数据流时对数据源的多样化需求

- MiNiFi与NiFi之间可以实现双向通信(Bi-directional Communication),双向通信使得处理流程的动态更新能通过数据流的重新设计和重新部署来实现,并且将从数据中获得的洞察转化为可以应用的新的数据流设计


下载与部署

MiNiFi要能够被部署到边缘(edge)设备上,则其安装包必须比NiFi小很多(NiFi的安装包超过900MB!)。MiNiFi的安装包小于60MB,具体大小取决于不同的版本,MiNiFi提供了Java和C++两个版本:

- Java版本为可以运行大部分的NiFi processors,但是体积也更大(约59MB)同时需要消耗额外的系统资源(默认24MB的max JVM heapsize);如果用户希望最大程度的集成NiFi在处理数据上的能力,Java 版本是最好的选择;(本文中我们以Java Agent为例进行测试)

- C++版本更加轻量化(只需要大约3MB),消耗更少的系统资源(大约5MB的内存),但是只具备NiFi processors的有限的子集;如果用户只是获取数据然后把数据传给下游系统(例如中央的NiFi集群)处理并且比较在乎系统资源的占用,那么C++版本比较合适。

用户可以从MiNiFi项目主页下载MiNiFi的安装包,每个版本的MiNiFi安装包都包括以下三个部分:

- MiNiFi:即MiNiFi安装包,包含了MiNiFi的所有核心功能,部署和执行用户设计的数据流

- MiNiFi Toolki Binaries :一个用来将NiFi的数据流模版转化为MiNiFi的配置文件的工具包

- MiNiFi Command and Control Server Binaries:即MiNiFi C2,用于辅助用户管理和控制MiNiFi实例中的数据流

MiNiFi,MiNiFi Toolket和MiNiFi C2都供了tar.gz,zip和源码包三种不同的形式,用户可以根据自己的需要进行选择。部署MiNiFi需要预先在服务器或者设备上安装系统级别的依赖,其中Java版本预装JVM,C++版本则需要leveldb,libxml等依赖库,具体如下:

安装好依赖以后,用户只需要将从项目主页将所需的安装包下载并解压到目标环境的任意目录(如home目录)中,就可以开始启动MiNiFi去执行用户设计数据流了。

MiNiFi安装包解压后如下:

其中,bin/目录下是MiNiFi的管理命令,conf/目录下是MiNiFi的数据流配置文件(其中config.yml定义了MiNiFi上执行的数据流),lib/目录下是MiNiFi核心的jar包和nar包,启动之后还会生成一个记录日志的logs/目录。


设计与部署数据流

在使用MiNiFi之前,首先需要检查NiFi的配置($NIFI_HOME/conf/nifi.properties),需要确保NiFi实例已经配置了nifi.remote.input.socket.port(默认是未指定的),否则NiFi收不到MiNiFi上传的数据。具体配置项如下:

# Site to Site properties

nifi.remote.input.host=

nifi.remote.input.secure=false

nifi.remote.input.socket.port=1206

nifi.remote.input.http.enabled=true

nifi.remote.input.http.transaction.ttl=30 sec

如果没有指定,则按上述配置修改$NIFI_HOME/conf/nifi.properties,然后重启NiFi实例即可。

由于MiNiFi本身并没有提供类似NiFi的用于设计数据流的前端页面,所以用户可以用NiFi的前端页面设计数据流,然后生成NiFi数据流模版(template),再将模版文件加载到MiNiFi所在环境中,具体步骤如下:

- 在NiFi中设计数据流

我们可以设计一个简单的数据流用于监控MiNiFi所在服务器上的一个文本文件(在home下面创建一个用于测试的文本文件,文件里内容为“test minifi”),将文件的内容发送给NiFi实例,然后NiFi实例再把文本内容写入Kafka集群的topic里。实现整个数据流,需要MiNiFi和NiFi配合完成:

在MiNiFi侧,数据流由一个TailFile类型的processor和一个Remote Processor Group组成,TailFile类型的processor用于监控并采集指定文件的内容,Remote Processor Group用于将采集的数据发送到远端的NiFi实例:

MiNiFi与NiFi采用HTTP协议相互通信,Remote Processor Group需要配置NiFi实例的URL和协议类型,具体配置如下:

在NiFi侧,数据流需要一个Input Port和一个PublishKafka类型的processor,Input Port用来接收发送自MiNiFi的数据,PublishKafka类型的processor用于将收到的数据写入Kafka的指定topic中:

- 在NiFi中,将所设计的MiNiFi侧的数据流创建为模版并下载为XML格式的模版文件,再将模版文件拷贝到MiNiFi所在的环境中

- 利用MiNiFi ToolKit将数据流模版文件转换为MiNiFi的配置文件(即$MINIFI_HOME/conf/config.yml,旧的config.yml可以删除或直接替换),转换命令如下

./bin/config.sh transform /path/to/template.xml $MINIFI_HOME/conf/config.yml

- 修改生成的config.yml,在config.yml最后的Input Ports Section里添加NiFi实例的host和port(即NiFi实例配置的nifi.remote.input.socket.port)属性,配置示例如下:

- 启动MiNiFi执行数据流

./minifi.sh start

- MiNiFi启动后,可以在$MINIFI_HOME/logs/minifi-app.log中查看MiNiFi的运行日志。如果没有问题的话,很快就可以在Kafka的指定topic中看到输出的文本内容:

此外,我们也可以在NiFi的界面的各个processor看到数据的流入,例如查看PublishKafka processor的Data provenance:

至此,MiNiFi中的数据流运行成功,整个数据流会一直监控指定文件的内容,将文件内容通过MiNiFi和NiFi接力传送到Kafka集群中。

如果要对MiNiFi上运行的数据流进行修改,可以通过重复上面的步骤,即:通过NiFi修改数据流的设计 -> 生成模版文件 -> 将模版文件转换为config.yml -> 替换旧的config.yml -> 重启MiNiFi。


后续计划

通过对MiNiFi短暂的研究和测试,笔者认为MiNiFi会在未来的数据接入-尤其是物联网场景下的大量设备和数据的接入中发挥很大的价值,因为MiNiFi的出现使得很多数据采集和预处理工作可以前置到边缘设备(如网关,自动汽车,零售终端等)中完成,大大减轻了NiFi集群的压力。 本文只是初步的测试,关于MiNiFi还有很多问题值得研究,例如:如何在嵌入式设备中实际测试MiNiFi的资源消耗和性能,如何扩展MiNiFi的processor,如何实现从NiFi到MiNiFi的数据流配置文件自动下发等。

期待日后结合实际场景进一步探索MiNiFi~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,494评论 18 139
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,678评论 6 342
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,493评论 18 399
  • 一. Java基础部分.................................................
    wy_sure阅读 3,774评论 0 11
  • 最近听到了一些朋友创业的消息,有好有坏,有些感触。我引用来自知乎的一个比较好的关于创业的帖子,以供大家观赏: 创业...
    ivanStronger阅读 418评论 0 1