简介 最近有个项目要对接ZF的数据,数据库为Oracle,由于采用OGG的方式同步费用很高,于是想到采用FlinkCDC的方式进行同步。 Install Oracle 本例采...
简介 最近有个项目要对接ZF的数据,数据库为Oracle,由于采用OGG的方式同步费用很高,于是想到采用FlinkCDC的方式进行同步。 Install Oracle 本例采...
前言 前面讲到flink实时计算用户画像的功能,flink需要调用python写的算法库,之前的两种方案都存在各种各样的问题,最后决定采用pyflink来开发。 一门新技术的...
前言 上一篇介绍了Java采用Jython调用python程序的方式,但是问题是目前只支持python2.x,如果需要调用python3.x目前是无法做到的,所以想到另外一种...
前言 Jython(原 JPython),是一个用 Java 语言写的 Python 解释器。由于python语法简洁,写起来快,而且目前有很多现成的算法库,所以别的语言也想...
简介 在业务开发过程中,mysql应该是最常用的数据库了。不同业务部门会有自己的mysql集群,为了解决数据孤岛问题,我们必须对数据进行同步整合,为了提高数据同步的时效性,我...
简介 很多业务场景对数据的安全性要求很高,所以会采用私有云部署应用,但是开发和运营需要在公有云操作,所以很多企业都采用公有云+私有云的架构模式,本例对这种混合云的调度问题进行...
前言 最近公司启动了一个规划2年的项目,是做一个数据平台。主要包括数据同步(实时/离线)、mapping(实时/离线)、数仓(实时/离线)、源数据管理、数据血缘、调度、BI等...
前言 最近在做一个用户画像的项目,我主要负责数据模块,架构大概是: 首先从各业务库和数仓接入数据,经过mapping处理后统一存储在hudi中,以database、table...
点点心愿点点星,
独坐山岗待月明。
婵娟千里同相望,
山川万仞阻归程。
红霞一抹寻去处,
星光万点觅芳踪。
嫦娥寂寞广寒冷,
仙凡相思一般同。
简介 面对复杂的业务场景,企业可能会选用不同的数据库,这给业务之间数据交互,数据分析等带来一定的困扰,对此,数据同步起到很重要的作用,目前业内成熟的数据同步组件很多,支持实时...
这个春天,雪一场接一场的下,纷纷扬扬,像淘气的孩子,爬到屋顶、车顶,再到草坪上打个滚,给它们披上洁白的外袍。园中的樱桃树李子树,恹恹的,有些无精打采;转角处那株银杏,孤零零地...
简介 Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。Spark Streami...
前言 最近项目架构做了大的调整,很多数据表都要重新生产,新数据上线需要与旧数据做下校验,领导让我做个简单的工具来对比数据。 校验逻辑 首先定义表的对比指标,然后计算出两表的指...