240 发简信
IP属地:浙江
  • Shuffle的执行阶段流程

    1).Collect阶段:将MapTask的结果输出到默认大小为100M的环形缓冲区,保存的是key/value序列化数据,Partition分...

  • 大数据面试题以及答案整理(一)

    hadoop的shuffle过程 一、Map端的shuffle Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS...

  • 日志清洗案例

    1.简单解析版 需求:去除日志中字段长度小于等于11的日志。 输入数据 实现代码: 编写LogMapper package com.itstar...

  • Resize,w 360,h 240
    HDFS环境准备

    1.配置Maven 2.修改本地仓库位置 3.配置镜像地址 4.pom文件配置 <dependencies><dependency> ...

  • 大数据学习之MapReduce

    1.MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapr...

  • HFDS命令行操作

    二、HFDS命令行操作 1)基本语法 bin/hadoop fs具体命令 2)参数大全 bin/hadoop fs [-appendToFile...

  • Resize,w 360,h 240
    HDFS文件系统

    一HDFS概念 1.1概念 HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录...

  • 大数据技术之Hadoop

    1、Hadoop的优势 1)高可靠性 因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新...

  • Resize,w 360,h 240
    HDFS读流程

    1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。 2)挑选一台datanode(...

个人介绍
一心想成为正真意义上的程序员,做一名有责任感的程序员