整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet文件存储格式能带来哪些好处? 如果说HDFS 是大数据时代分...

IP属地:安徽
整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet文件存储格式能带来哪些好处? 如果说HDFS 是大数据时代分...
Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大、数据解析开销大。 对应的hive API为:org.apache.hadoo...
网上流传这这样的50道练习题,以下是我的解法,仅供各位联系和参考 数据表介绍 --1.学生表Student(SId,Sname,Sage,Ssex)--SId 学生编号,Sn...
通过Scala对HDFS的一些操作,包括创建目录,删除目录,上传文件,文件读取,删除文件,Append文件等等; 测试代码如下:
RDD依赖关系与stage划分 Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。 1. 窄...
Spark的DAG(Directed Acyclic Graph)的生成实际上是Stage的划分,而Stage的划分依据是RDD的依赖关系。在程序提交后,Spark先将所有的...
数据倾斜分为两大类:聚合倾斜和join倾斜,针对不同的倾斜类型采用不同解决方案 数据倾斜解决方案上分为:缓解数据倾斜和彻底解决数据倾斜 1.数据倾斜表现形势 导致数据倾斜的算...