240 投稿
收录了13篇文章 · 2人关注
  • Resize,w 360,h 240
    HDFS 配置本地客户端

    之前,一直通过Linux命令操作HDFS。接下来,在本地配置HDFS客户端,通过编写代码操作HDFS。 环境: mbp2018 hadoop-2...

  • 使用IO流操作HDFS

    除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作,其实API的底层也是使用IO...

  • Resize,w 360,h 240
    HDFS

    HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件,其实,它是分布式的...

  • Resize,w 360,h 240
    MapReduce

    MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要用于分析数据。 优缺点 优点易于编...

  • MapReduce —— WordCount案例

    WordCount:统计一个或多个文件内每个单词的出现次数。 一般情况下,一个MapReduce程序主要包含三个部分:Map、Reduce和Dr...

  • MapReduce序列化

    序列化就是把内存中的对象转换成字节序列以便于存储到磁盘(持久化)和网络传输。反序列化就是将字节序列或者是持久化的数据转换成内存中的对象。 内存中...

  • Resize,w 360,h 240
    MapReduce框架原理

    最全的MapReduce框架原理,方便以后复习。知识点来自尚硅谷的课程学习。课程链接 一、InputFormat数据输入 1. 切片与MapTa...

  • Resize,w 360,h 240
    集群时间同步

    步骤 1. 检查ntp(网络时间协议)是否安装。 ps -e | grep ntp如果出现一下内容表明一斤安装: 如果什么都没有,可以使用 进行...

  • 配置日志聚集

    所谓日志聚集,就是指应用运行完以后,将程序的运行日志信息上传到HDFS系统上。日志聚集可以方便的查看程序的运行详情,方便开发调试。 开启日志聚集...

  • Resize,w 360,h 240
    VMware搭建完全分布式Hadoop集群

    实际开发中,使用的就是完全分布式环境。所谓完全分布式就是在整个集群中有真实的主机(3台以上),用于完成各种任务。但是个人在学习时,购买多个机器显...

专题公告

记录自己的学习路程,方便以后查看和学习