1. 背景 Hadoop体系虽然在目前应用非常广泛,但架构繁琐、运维复杂度过高、版本升级困难,且由于部门原因,数据中台需求排期较长,我们急需探索...
HTAP是近些年来比较火的一个概念,下面就聊聊其前世今生及技术特点。 1. 数据应用类别 根据数据的使用特征,可简单做如下划分。在选择技术平台之...
DataX介绍: DataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hiv...
官网 | GitHub 目录1 概述1.1 背景1.2 特点2 系统架构2.1 名词解释2.2 架构3 部署3.1 后端部署3....
解决spark streaming长时间运行日志不断增长问题一、spark streaming log 日志二、spark streaming ...
我正在尝试利用 spark分区。我想做点什么 data.write.partitionBy("key").parquet("/location"...
作者简介 蔡岳毅,携程酒店大数据高级研发经理,负责酒店数据智能平台研发,大数据技术创新工作。喜欢探索研究大数据的开源技术框架。 一、背景 1)携...
一、基础知识 Clickhouse优缺点及性能情况优点: 1,为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理; 2,数据压缩空间...
GeoMesa 是由locationtech开源的一套地理大数据处理工具套件。其可在分布式计算系统上进行大规模的地理空间查询和分析。使用GeoM...
文集作者