最近了解了一些其他公司的数据架构体系,感觉大体上都差不多,根据公司的具体场景也绘制了一个比较通用的数据平台架构,算是mark下吧。
开始之前 Kafka源码环境依赖Gradle、Scala和Zookeeper,所以需要提前将这些依赖安装好,由于这三个依赖的安装相对比较简单,所...
词云 做过数据分析的应该对词云这个概念不会陌生,词云以云图的方式将词(一般指tag)的频率信息很好的呈现出来。下面是来自百度百科的定义。 “词云...
接触Java有段时间了,基本的原理和使用大概清楚了,想通过阅读源码来进一步提升Java能力,听说Doug Lea的java.util.concu...
前言 上一篇我们通过一个简单的例子了解了基于XML配置文件的方式初始化Mybatis的过程,毫不夸张的说,MyBatis初始化的过程,就是创建 ...
前言 最近项目中使用到了Mybatis持久层框架,由于从来没有深入的了解过基于Java语言实现的持久层框架,于是有点心血来潮,所以就有了这篇长文...
之前介绍过Apache Spark的基本概念以及环境准备,本篇以分类算法为入口,主要熟悉下Spark的Python API,重点不在算法,而是A...
Apache Spark 简介 Apache Spark 是什么 Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行...
每一个使用Git进行管理的项目,在其根目录下都会存在一个名为 .git 的目录,其内容如下图,接下来主要介绍下目录中的HEAD、index、ob...