1.二叉树节点结构 用递归和非递归两种方式实现二叉树的先序、中序、后序遍历 如果直观的打印一颗二叉树 如何完成二叉树的宽度优先遍历(常见题目:求一颗二叉树的宽度)
1.二叉树节点结构 用递归和非递归两种方式实现二叉树的先序、中序、后序遍历 如果直观的打印一颗二叉树 如何完成二叉树的宽度优先遍历(常见题目:求一颗二叉树的宽度)
1. 哈希表简单介绍 1)哈希表在使用层面上可以理解为一种集合结构 2)如果只有key,没有伴随数据value,可以使用HashSet结构 3)如果既有key,又有伴随数据v...
3.1 从数据操作的类型划分:读锁、写锁 对于数据库中并发事务的 读-读 情况并不会引起什么问题。对于 写-写 、 读-写 或者 写-读 这些情况可能会引起一些问题,需要使用...
2.3 读-写或写-读情况 读-写 或 写-读 ,即一个事务进行读取操作,另一个进行改动操作 。这种情况下可能发生 脏读 、 不可重复读 、 幻读 的问题。 各个数据库厂商对...
事务的隔离性由锁(LOCK)来实现。 1. 概述 锁是计算机协调多个进程或线程并发访问某一资源的机制。在程序开发中会存在多线程同步的问题,当多个线程并发访问某个数据的时候,尤...
## Java对象头(64位虚拟机) - 整个对象头一共有128位,Mark Word有64位,Klass Word有64位,但是Klass Word因为指针压缩的原因被压缩...
2.1 Hive安装地址 1)Hive官网地址 https://hive.apache.org/[https://hive.apache.org/] 2)文档查看地址 htt...
1.1 什么是Hive 1) Hive简介 2) Hive本质:将HQL转化成MapReduce程序 [图片上传失败...(image-94c4b5-164010173020...
概述 1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘储存空间 压缩的缺点:增加CPU开销 2)压缩的原则 (1)运算密集型的job,少用压缩 (2)IO密集型的j...
ETL "ETL"是英文Extract_transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)到目...
Reduce Join Map端的主要工作:为来自不同表或文件的kv对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分或新加的标志作为value,最后进行输出...
OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。 默认输出格式...
MapTask工作机制 MapTask共分为五个阶段,分别为:Read阶段、Map阶段、Collect阶段、溢写阶段、Merge阶段。 1)Read阶段:MapTask通过I...
Shuffle机制 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。 Partition分区 如何按照条件输出到不同文件(分区)中,MapReduce...
注意: 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体过程详解如下: 1)准备一个文件,例如ss.txt大小为20...
切片与MapTask并行度决定机制 1)问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTa...
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 管理集群资...
概述 1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘储存空间 压缩的缺点:增加CPU开销 2)压缩的原则 (1)运算密集型的job,少用压缩 (2)IO密集型的J...
InputFormat数据输入 切片与MapTask并行度决定机制 1)问题引出 2)MapTask并行度决定机制 一个Job的Map阶段并行度由客户端提交job时的切片数决...
序列化概述 什么是序列化 为什么要序列化 为什么不用Java序列化 hadoop序列化优势 结构紧凑,存储空间少 传输快速 互操作性,支持多语言使用 自定义Bean对象实现序...