之前,一直通过Linux命令操作HDFS。接下来,在本地配置HDFS客户端,通过编写代码操作HDFS。 环境: mbp2018 hadoop-2...
之前,一直通过Linux命令操作HDFS。接下来,在本地配置HDFS客户端,通过编写代码操作HDFS。 环境: mbp2018 hadoop-2...
除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作,其实API的底层也是使用IO...
HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件,其实,它是分布式的...
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要用于分析数据。 优缺点 优点易于编...
WordCount:统计一个或多个文件内每个单词的出现次数。 一般情况下,一个MapReduce程序主要包含三个部分:Map、Reduce和Dr...
序列化就是把内存中的对象转换成字节序列以便于存储到磁盘(持久化)和网络传输。反序列化就是将字节序列或者是持久化的数据转换成内存中的对象。 内存中...
最全的MapReduce框架原理,方便以后复习。知识点来自尚硅谷的课程学习。课程链接 一、InputFormat数据输入 1. 切片与MapTa...
步骤 1. 检查ntp(网络时间协议)是否安装。 ps -e | grep ntp如果出现一下内容表明一斤安装: 如果什么都没有,可以使用 进行...
所谓日志聚集,就是指应用运行完以后,将程序的运行日志信息上传到HDFS系统上。日志聚集可以方便的查看程序的运行详情,方便开发调试。 开启日志聚集...
实际开发中,使用的就是完全分布式环境。所谓完全分布式就是在整个集群中有真实的主机(3台以上),用于完成各种任务。但是个人在学习时,购买多个机器显...
专题公告
记录自己的学习路程,方便以后查看和学习