1.Spark的应用执行机制 用户提交一个Application到Spark集群执行的基础流程如下图所示: (1)Driver进程启动,构建Spark Application...
1.Spark的应用执行机制 用户提交一个Application到Spark集群执行的基础流程如下图所示: (1)Driver进程启动,构建Spark Application...
以列式数据存储格式parquet介绍两者区别。 三个概念: 存储格式,是数据的二进制组织表示形式,如parquet 数据对象转换器,其任务是在外部对象模型和Parquet的内...
roaring bitmap存储格式规范 通用格式 说明: 有一个初始化“ cookie头”,它使我们能够识别出位流是一个roaring bitmap,并收集了一些少量的信息...
引言 阿里内推面试的时候被考了一道编程题:10亿个范围为1~2048的整数,将其去重并计算数字数目。我看到这个题目就想起来了《编程珠玑》第一章讲的叫做BitMap的数据结构,...
说道Calcite你可能有些陌生, 但提及Hive、Kylin、Apache Drill、Flink等一定不会陌生,这些都是在我们日常工作中经常用到的,如上这些都是基于C...
calcite这块还挺难理解的,网上的资料也比较少,👍
红宝书
Druid系统安装与配置基础环境 Java8或更高版本 Linux、Mac OSX或者其它类Unix操作系统,目前不支持Windows操系统 8GB内存(内存越高越高) 2核虚拟CPU 外部依赖 深...
Druid committer
Druid系统安装与配置基础环境 Java8或更高版本 Linux、Mac OSX或者其它类Unix操作系统,目前不支持Windows操系统 8GB内存(内存越高越高) 2核虚拟CPU 外部依赖 深...
一、了解关系代数 关系代数是一种过程化查询语言。它包括一个运算的集合,这些运算以一个或两个关系为输入,产生一个新的关系作为结果。关系代数是关系型数据库操作的理论基础,关系代数...
Java应用程序因某种因素,加载不到正确的类而导致其行为跟预期不一致。 具体来说可分为两种情况:1)应用程序依赖的同一个Jar包出现了多个不同版本,并选择了错误的版本而导致J...
Antlr简介 ANTLR 语言识别的一个工具 (ANother Tool for Language Recognition ) 是一种语言工具,它提供了一个框架,可以通过包...
背景 Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的...
人的一生或许轰轰烈烈,或许庸庸碌碌, 但是很少有人真正静下来问自己, 我的人生足够圆满吗? 今天我给大家推荐一款成长工具——生命之花。说到生命之花,我们要先提一下舒伯的理论体...
说道netty的线程模型,我们第一反应就是经典的Reactor线程模型,下面我们就来一起探讨一下三种经典的Reactor线程模型: 这里我们需要理解的一点是Reactor线程...
1-概述 该篇论文主题是广告系统中针对广告收入异常波动根本原因分析; 提出的Adtributor算法主要是基于指标期望值和实际值的分布,计算其js散度,找到影响指标最大的维度...