240 发简信
IP属地:北京
  • 120
    HDFS Trash功能详解

    【前言】对于线上生产环境的HDFS,开启回收站功能是必不可少的。该功能类似于linux系统的回收站设计,HDFS会为每个用户创建一个专属的回收站目录(/user/${user...

  • 博主日均30万作业都是spark任务吗,这样spark event log日志文件会很多吧,spark history server页面加载这些文件用时会很长吧,这怎么解决? 只能调JVM参数吗?

    【Spark】HistoryServer 进程运行日志无限增长问题解决

    Spark-HistoryServer在运行过程中会打印自身进程的日志,这里是指打印在${SPARK_HOME}/logs目录下,名称为spark-spark-org.apa...

  • 请教一下,为何MR的JVM配置会影响到yarn NM的服务状态呢

    无法创建线程导致的nodemanager频繁挂掉

    hadoop集群在执行一个MapReduce任务时,其中一个节点的nodemanager频繁挂掉,以下是日志中纪录的报错内容: 报错内容显而易见,是因为jvm没有多余的内存来...

  • ceph分布式存储-PG和PGP的区别

    一、前言 首先来一段英文关于PG和PGP区别的解释: 以上是来自邮件列表的 Karan Singh 的PG和PGP的相关解释,他也是 Learning Ceph 和 Ceph...

  • 120
    数据湖详解

    什么是数据湖? 维基上对它的解释:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构...

  • Ranger知识地图

    自己总结的Ranger的学习路线和知识点,提供给感兴趣的同学入门参考之用。 Ranger入门路线 1.准备能够上网的电脑,Eclisp开发环境,Linux服务器等;2.掌握H...

  • 120
    Ranger架构剖析

    Ranger介绍 2016年,Hadoop迎来了自己十周岁生日。过去的十年,Hadoop雄霸武林盟主之位,号令天下,引领大数据技术生态不断发展壮大,一时间百家争鸣,百花齐放。...