在远方的你等我

IP属地：浙江

Shuffle的执行阶段流程
1).Collect阶段：将MapTask的结果输出到默认大小为100M的环形缓冲区，保存的是key/value序列化数据，Partition分...

0.1 1509 0 1
大数据面试题以及答案整理（一）
hadoop的shuffle过程一、Map端的shuffle Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS...

1828 0 0

日志清洗案例
1.简单解析版需求:去除日志中字段长度小于等于11的日志。输入数据实现代码: 编写LogMapper package com.itstar...

0.3 361 0 1
HDFS环境准备
1.配置Maven 2.修改本地仓库位置 3.配置镜像地址 4.pom文件配置 <dependencies><dependency> ...

0.3 316 0 1
大数据学习之MapReduce
1.MapReduce定义 Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapr...

0.3 564 0 2
HFDS命令行操作
二、HFDS命令行操作 1）基本语法 bin/hadoop fs具体命令 2）参数大全 bin/hadoop fs [-appendToFile...

0.2 642 0 1
HDFS文件系统
一HDFS概念 1.1概念 HDFS，它是一个文件系统，全称：Hadoop Distributed File System，用于存储文件通过目录...

0.2 707 0 1

大数据技术之Hadoop
1、Hadoop的优势 1)高可靠性因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新...

0.6 548 0 1
HDFS读流程
1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件块所在的datanode地址。 2）挑选一台datanode（...

0.5 170 0 1