flume安装比较简单,直接解压就好。 注意点:1,flume必须持有hadoop相关的包才能将数据输出到hdfs, 将如下包上传到flume/lib下涉及到的包如下, 以h...

flume安装比较简单,直接解压就好。 注意点:1,flume必须持有hadoop相关的包才能将数据输出到hdfs, 将如下包上传到flume/lib下涉及到的包如下, 以h...
2021年是我转行的第四年,非常感谢我的第一家公司大牛科技和我的领导阿政,给了我在这个行业继续发展的机会。 今年是新的开始,也学学大佬们,记录些博客。 1.减肥计划,让肚子不...
整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet文件存储格式能带来哪些好处? 如果说HDFS 是大数据时代分...
Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大、数据解析开销大。 对应的hive API为:org.apache.hadoo...
感谢大佬,决定认认真真的跟着操作一遍。
数仓--Hive-面试之Hive手写SQL案例既然是手写代码,那么就需要会手写,手写这个是重点 1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤,及其关键字 假设student.tx...
网上流传这这样的50道练习题,以下是我的解法,仅供各位联系和参考 数据表介绍 --1.学生表Student(SId,Sname,Sage,Ssex)--SId 学生编号,Sn...
通过Scala对HDFS的一些操作,包括创建目录,删除目录,上传文件,文件读取,删除文件,Append文件等等; 测试代码如下:
RDD依赖关系与stage划分 Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。 1. 窄...
Spark的DAG(Directed Acyclic Graph)的生成实际上是Stage的划分,而Stage的划分依据是RDD的依赖关系。在程序提交后,Spark先将所有的...
数据倾斜分为两大类:聚合倾斜和join倾斜,针对不同的倾斜类型采用不同解决方案 数据倾斜解决方案上分为:缓解数据倾斜和彻底解决数据倾斜 1.数据倾斜表现形势 导致数据倾斜的算...
作为开发人员而言,必需的除开对编码的激情也要有自身的一整套小技巧,另外必不可少的也是平常学习的网站。下列个人搜集的Java 开发者必不可少的网址,这些网址都可以提供信息内容、...
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点:...
spark-submit参数设置说明,即提交EMR集群的Spark作业资源调优,详见该链接:spark-submit 参数设置说明 和该链接:Spark On YARN内存和...
Java的三大平台 Java语言特点 变量:用于存储程序在计算过程中用到数据 强制转换 Java中的运算符 +=的特殊情况 比较运算符 逻辑运算符 短路问题 字符串拼接 三元...