1. 控制reduce端缓冲大小以避免OOM 在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉...
Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的...
常规性能调优 1. 最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现...
Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employ...
1. Eureka的自我保护 默认情况下,如果EurekaServer在一定时间内(默认90秒)没有接收到某个微服务实例的心跳,Eureka S...
HBase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来...
HDFS架构 NameNode: 就是Master,它就是一个主管,管理者(1)管理hdfs的名称空间(2)配置副本策略(3)管理数据块(Blo...
Kafka是一个分布式,基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 基础架构 为了方便扩展,并提高吞吐量,一个topic分为多...
RocketMQ是一个开源的分布式消息中间件。 集群架构与角色 Producer先去NameServer请求,NameServer分配一个Bro...