Spark中RDD的高效与DAG(有向无环图)有很大的关系,在DAG调度中需要对计算的过程划分Stage,划分的依据就是RDD之间的依赖关系。RDD之间的依赖关系分为两种,宽...
用户编写的spark程序打包成jar后提交到yarn执行时,经常会遇到jar包中明显存在某个类,但任务提交到yarn运行时却找不到类或方法(java.lang.NoSuchM...
最近新接触scala代码的编写、编译,使用mvn编译项目时经常碰到“ExecuteException: Process exited with an error: 1 (Ex...
Janusgraph是一个分布式图数据库,继承自titan。Janusgraph的批量导入(bulkload)默认使用spark的local模式运行,不支持yarn-clus...
背景 公司一直用spark1.5.2, 最近将其升级至spark2.1.1。本文的总结升级过程需要改动的地方。涉及了spark普通项目和spark streaming项目,项...
在初始化数据库连接、hbase连接时,我们通常希望复用连接,而不是每次使用时都new 一个实例。也就是说一个hbase表名对应一个hbase client连接, 或者一个数据...
在工作中遇到部门间数据合作,需跨不同版本集群拷贝数据,从hadoop 2.6.0-cdh5.7.0 拷贝数据到hadoop 2.7.1, 记录所碰到的问题及解决方案。 dis...
问题 在初用spark streaming 1.5.2 自带的low level 连接kafka例子(JavaDirectKafkaWordCount)时,出现如下错误: j...
起因 写这篇博客的起因我在跑一个spark job时,有时能跑通,有时跑不通。程序的需求是对比两个hbase表。程序逻辑很简单,分别从两个hbase表读取全量数据,然后以co...