随着近几年新能源发电行业的迅猛发展,新能源大数据中心平台建设也悄然兴起。越来越多的新能源企业投入人力、物力和财力着手建设自己的大数据中心,旨在提升生产管理水平和发电经济效益。大数据中心建设首先要解决的问题是大量数据的采集,数据采集的过程是从场站侧数据源到大数据中心的存储,在这个采集过程中,要保证数据采集的可靠性、安全性、可扩展性等等。本文提出基于Flue、Kafka技术实现新能源大数据中心数据采集,系统架构图如下所示:
场站侧支持光伏电站和风电场不同类型数据源采集,采用Flume技术实现,Flume采集的数据经Source、Memory Channel、Kafka Sink推送到大数据中心Kafka消息队列缓存。同时,采集数据经Source、JDBC Channel、HBase Sink在本地数据库中也存储一份。另外,为了满足数据补采要求,场站侧提供RESTful服务从本地数据库中读取历史数据,提供大数据中心补采数据使用。Flume的Sink在将Channel数据成功发送之后,才将Channel中缓存的数据清除,极大的提高了数据采集的可靠性。Flume系统结构设计,如下图所示:
采集数据从场站侧传输到大数据中心Kafka消息队列过程中,采用对称加密对数据进行加密,以提升数据安全性,数据传输内容统一采用JSON格式,内容包括测点编号、测点类型、测点值、时间戳。测点编号统一规划,保证其在整个大数据中心数据库中的唯一性。
另外,在大数据中心侧的Kafka消息队列中,为每一个场站指定1到n个主题,Kafka自动分配若干分区,以供采集数据缓存消息使用。当系统或网络出现异常时,大数据中心与场站侧数据采集出现中断,对于中断的数据,可以通过大数据中心提供的数据补采机制,远程调用场站侧提供的RESTful服务,从场站侧将缺失数据补采至大数据中心。Kafka中缓存的数据或补采获取的数据,将最终存储在数据中心数据库中。如下图所示:
在场站侧扩建或新建场站需要采集数据时,仅需要增加相应的Flume采集进程,在不中断原有数据采集进程的情况下,即可完成系统升级和扩展,系统灵活可扩展。
结束语:基于Flume、Kafka技术实现的新能源大数据中心数据采集系统技术架构,可靠性和安全性高,系统故障恢复能力强,且容易扩展和升级。