虾米在海飘 - 简书

发简信

虾米在海飘

38
关注
30
粉丝
20
文章
13484

字数
55

收获喜欢
3

总资产

IP属地：江苏

BIGUFO

[Spark SQL] 主要执行流程
预备知识先介绍在Spark SQL中两个非常重要的数据结构：Tree和Rule。 SparkSql的第一件事就是把SQLText解析成语法树，这棵树包含了很多节点对象，节点...

3423 0 8
简陋的小屋

SparkContext组件之SparkConf
sparkContext是spark程序的入口，可以创建RDD、accumulators和broadcast sparkContext的初始化只需要一个sparkConf，s...

1561 0 3
麦大人

自律的人生，到底有多赚？
文/麦大人 01 自从去年写作以来，陆陆续续的也认识了一些同行。其中有一位叫枫姐的，我蛮佩服她。她是一个四岁孩子的妈妈，写作已经两年多，白天基本操持家务照顾孩子。只有到了夜...

55027 263 2253 5
虾米在海飘

Azkaban 指定executor执行任务
当使用multiple Executor的时候，有一些场景需要指定Executor来执行任务，例如任务迁移的时候，需要将任务分配到新加入的Executor来观察其能够稳定运行...

10188 15 8 1
foreveryl

Hbase Scan 主要流程分析.md
Hbase Scan 流程分析公司在集群在从0.94.6升到0.98.6-cdh5.2.0后, 原来执行的hbase scan 任务出现很多问题. 表现在: setBatc...

5120 0 5
虾米在海飘

Hadoop进行HA 配置后再配置Federation
Hadoop HA 配置完成后，确实NameNode的稳定性得到了保障，不过，问题接踵而来，那就是NameNode压力过大。随着数据的越来越多，NameNode的压力越来越...

1411 0 3
虾米在海飘

Hadoop HA 配置
在早期Hadoop1只有一个NameNode，还有一个secondary NameNode，secondary NameNode 作为冷备份，在NameNode fail的时...

1211 0 3
虾米在海飘

HBase major compact 对snapshot 的影响
当你对HBase的表做了snapshot后，此时该表的元数据以及相关的link文件都存储在snapshot中，之后，当你删除该表的数据，详情见HBase数据的删除和更新，...

2574 0 2
虾米在海飘

HBase数据的删除和更新
当删除HBase中的数据，HBase会删除存储在HDFS上的数据，而Hadoop的Sequence File是一个顺序读写，批量处理的系统。那HBase怎么就能够查询到该记录...

10795 0 7