240 投稿
收录了8篇文章 · 3人关注
  • Resize,w 360,h 240
    怎样高效使用spark?

    [toc] 背景知识: Spark与Hadoop差异 Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了...

  • Resize,w 360,h 240
    通俗理解YARN运行原理

    导语:工作中常常和Spark on YARN, Hadoop on YARN打交道,经常在各种日志中摸爬滚打,为提升效率,总结一下YARN的知识...

  • Resize,w 360,h 240
    Spark 2.x+IntelliJ IDEA 2017.3开发环境搭建和开发示例

    【原创】Helenykwang 于2018-01-13 18:10:18编写 不用maven,不用sbt,只需三个库 一、环境说明 集群:Spa...

  • Spark通信--client、master、worker间的通信

    转载自 http://www.wangsenfeng.com/articles/2016/10/26/1477467509513.html Cl...

  • Resize,w 360,h 240
    Hadoop2.0 NameNode HA和Federation简明理解

    引子 为什么需要 NameNode HA 和 Federation ? 1. 规避NameNode单点故障,secondary namenode...

  • Resize,w 360,h 240
    MapReduce理解

    引子 为什么需要MapReduce? 因为MapReduce可以“分而治之”,将计算大数据的复杂任务分解成若干简单小任务。“简单”的意思是:计算...

  • Resize,w 360,h 240
    HDFS理解

    引子 为什么需要HDFS? 因为一个物理计算机的存储已经hold不住我们庞大的数据集。 HDFS的特点是什么? HDFS以流式数据访问模式来存储...

  • hadoop学习路线

    hadoop是一个分布式系统基础架构,主要功能有存储+计算,分别由hdfs和map-reduce模块实现。 hadoop有单机部署、伪分布式部署...

专题公告

描述hadoop基础架构&应用实践