预备知识 先介绍在Spark SQL中两个非常重要的数据结构:Tree和Rule。 SparkSql的第一件事就是把SQLText解析成语法树,这棵树包含了很多节点对象,节点...

预备知识 先介绍在Spark SQL中两个非常重要的数据结构:Tree和Rule。 SparkSql的第一件事就是把SQLText解析成语法树,这棵树包含了很多节点对象,节点...
sparkContext是spark程序的入口,可以创建RDD、accumulators和broadcast sparkContext的初始化只需要一个sparkConf,s...
文/麦大人 01 自从去年写作以来,陆陆续续的也认识了一些同行。其中有一位叫枫姐的,我蛮佩服她。 她是一个四岁孩子的妈妈,写作已经两年多,白天基本操持家务照顾孩子。只有到了夜...
当使用multiple Executor的时候,有一些场景需要指定Executor来执行任务,例如任务迁移的时候,需要将任务分配到新加入的Executor来观察其能够稳定运行...
Hbase Scan 流程分析 公司在集群在从0.94.6升到0.98.6-cdh5.2.0后, 原来执行的hbase scan 任务出现很多问题. 表现在: setBatc...
Hadoop HA 配置完成后, 确实NameNode的稳定性得到了保障,不过,问题接踵而来,那就是NameNode压力过大。随着数据的越来越多,NameNode的压力越来越...
在早期Hadoop1只有一个NameNode,还有一个secondary NameNode,secondary NameNode 作为冷备份,在NameNode fail的时...
当你对HBase的 表做 了snapshot后,此时该表的元数据以及相关的link文件都存储在snapshot中,之后,当你删除该表的数据,详情见HBase数据的删除和更新,...
当删除HBase中的数据,HBase会删除存储在HDFS上的数据,而Hadoop的Sequence File是一个顺序读写,批量处理的系统。那HBase怎么就能够查询到该记录...