小癫僧 - 简书

小癫僧

IP属地：北京

天池Python学习小组（1）
一 print() 函数 print(*objects, sep=' ', end='\n', file=sys.stdout, flush=F...

246 0 0
spark 面试题（1）
1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spa...

1405 0 1

spark 面试题（2）
33.选择题二、选择题 1. Spark 的四大组件下面哪个不是 (D ) A.Spark Streaming B. Mlib C Grap...

3943 0 1
如何关闭 sparkstreaming 任务
因为Spark Streaming流程序比较特殊，所以不能直接执行kill -9 这种暴力方式停掉，如果使用这种方式停程序，那么就有可能丢失数据...

2308 0 0
Spark使用parquet文件存储格式能带来哪些好处
1.Spark使用parquet文件存储格式能带来哪些好处？ 1) 如果说HDFS 是大数据时代分布式文件系统首选标准，那么parquet则是整...

2506 0 0
Hive 处理数据倾斜
在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的 Counters...

732 0 1
Hive 如何使用mapjoin
MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Red...

27508 0 5