hadoop文件格式和压缩算法

关键词: 文件格式压缩效率文件可分片

需要考虑的因素

文件格式对存储空间利用率, 程序性能都有很大的影响. 具体表现在:

文件和压缩算法的组合是否支持可分片, MapReduce在读取数据的时候需要并行, 这就要求压缩后的文件可以分片读取.

在考虑如何压缩那些将由MapReduce处理的数据时，考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件，其大小为1GB，HDFS的块大小为64MB，所以该文件将被存储为16块，将此文件用作输入的MapReduce作业会创建1个输人分片（split，也称为“分块”。对于block，我们统一称为“块”。）每个分片都被作为一个独立map任务的输入单独进行处理。

io读取性能, 读取相同信息量的信息, 压缩后的文件不仅占用的存储空间低, 而且还会提高磁盘io的读取效率. 提高程序的运行速度
CPU资源也是启用何种压缩算法不得不考虑的因素, 一般来说压缩效率越高的算法对io效率和存储利用率的提升越有促进作用, 但另一方面也会更高的消耗CPU资源. 所以我们需要在这中间寻求一个平衡点.
共通性, 文件格式是否支持多种语言, 服务的读取. 比如Hadoop主要的序列化格式为Writables, 但是Writables只支持Java, 所以后面衍生出了Avro, Thrift等格式. 还如OrcFile是对Hive设计的一种列式存储格式, 但是他不支持Impala, 数据的共用性受到了制约.
错误处理能力, 有的文件的某一部分坏掉之后会影响整个表, 有的只会影响其后的数据, 有的只会影响坏掉数据块本身(Avro).
读取和载入效率, RCFile的载入速度慢, 但是查询相应速度快, 相对更适合数据仓库一次插入多次读取的特性.

文件格式

hadoop存储上没有既定的标准文件格式和压缩算法, 它和标准文件系统相同, 可以存储各种各样类型的文件, 也支持多种压缩算法. 使用什么格式和压缩算法的主动权在使用者手里. 我们可以根据具体需求来权衡使用哪种组合.

标准文件格式

标准文件格式可以分为文本文件(如 CSV, XML, JSON 等)和二进制文件(图像, 视频等).

文本数据格式

txt, csv等纯文本格式是很常见的, 比如日志的存储和分析. 一般来说, 在大多数场景中, 使用容器格式(如SequenceFile, Avro)都会带来很多好处. 后面会介绍容器格式. 文本数据有一些不可避免的缺点:

存储空间利用率低
会有额外的序列化反序列化开销: 比如1234存储在文件中是字符串的形式, 转入程序中又是数字型的话读取和写入都会有额外的不必要的性能开销, 数量大的话性能影响就会更加显著.

结构化文本格式

我们常见的json, xml格式就属于此类, 他们很难分片, 且没有hadoop内置提供的InputFormat. 使用他们的时候, 一般用第三方的提供的InputFormat, 或者是将数据转化成Avro格式的数据再进行处理.

二进制数据

虽然Hadoop中存储的大多都是文本, 但是我们也可以存储图像等二进制文件. 对于大多数应用场景来说使用SequenceFile等容器格式都是很适用的.

Hadoop文件类型

为了配合MapReduce, 开发一些专门格式. 基于文件的SequenceFile, 序列化的Avro和列式存储的RCFile和Parquet. 上面的这些虽然各有不同, 但是有些重要的特性是共有的, 这对MapReduce任务来说至关重要. 这些文件都支持通用的压缩算法, 也支持分片.

基于文件的SequenceFile

以二进制键值对的形式存储数据, 支持三种记录存储方式.

无压缩, io效率较差. 相比压缩, 不压缩的情况下没有什么优势.
记录级压缩, 对每条记录都压缩. 这种压缩效率比较一般.
块级压缩, 这里的块不同于hdfs中的块的概念. 这种方式会将达到指定块大小的二进制数据压缩为一个块. 相对记录级压缩, 块级压缩拥有更高的压缩效率. 一般来说使用SequenceFile都会使用块级压缩.
但是SequenceFile只支持Java, SequenceFile一般用来作为小文件的容器使用, 防止小文件占用过多的NameNode内存空间来存储其在DataNode位置的元数据.

序列化存储格式

序列化指的是数据格式转化为字节流的过程, 主要用于远程传输或存储. hadoop采用的序列化格式主要是Writables. 但是它只能支持Java语言, 所以后来就出现了Thrift, Avro等格式.

Thrift

Facebook开发的框架, 用于实现跨语言提供服务和接口, 满足跨平台通信. 但是Thrift不支持分片, 且缺少MapReduce的原生支持.

Avro

Avro是一个语言无关的数据序列化的系统, 它的出现主要是为了解决Writables缺少跨语言移植的缺陷. Avro将模式存储在文件头中, 所以每个文件都是自描述的, 而且Avro还支持模式演进(schema evolution), 也就是说, 读取文件的模式不需要与写入文件的模式严格匹配, 当有新需求时, 可以在模式中加入新的字段.

Avro支持分片, 即使是进行Gzip压缩之后.
支持跨语言的支持

列级存储

https://www.iteblog.com/archives/1014.html

逻辑表, 行式存储和列式存储.png

ORCFile

ORCFile 可以理解为 Optimized RCFile, 就是RCFile的优化版. 尤其是弥补了查询和存储效率方面的缺陷. 它同样不喜欢小文件. 特性如下:

支持所有的hive类型, 包括复合类型: structs, lists, maps 和 unions.
支持分片
可以仅返回查询的列, 减少io消耗, 提升性能.
可以与Zlib, LZO和Snappy结合进一步压缩.
不支持其他的查询引擎, 比如impala.
内件索引: 其存储了

压缩

Snappy

Google开发的一种压缩编解码器, 用于实现高速压缩, 适当兼顾压缩率, 平衡了压缩速率和文件大小. 但是有一点, Snappy是不支持分片的, 所以它需要和容器格式相互联合使用(如SequenceFile和Avro).

LZO

压缩率和速度与Snappy相近, 由于许可协议的原因, LZO不能打包进hadoop中进行分发, 需要单独安装. Snappy可以与Hadoop打包分发. 它可以支持分割, 但是要求建立索引.

Gzip

压缩速率非常好, 平均可以达到Snappy的2.5倍. 但是相应的, 写入相对较Snappy慢了一倍. Gzip同样也是不支持分片的, 所以应该与容器格式联合使用. Gzip更适合将数据进行归档.

bzip2

压缩性能比Gzip还要高9%, 但是要消耗更多的读取, 写入性能. 一般来说bzip2要比Gzip慢十倍. 所以bzip2应该不是hadoop集群上理想的编解码格式, 除非需求以为了减少空间占用为主. 比如将数据进行归档, 但是使用的时候也要考虑资源的消耗. 另外的, bzip2是支持数据分割的.

几种压缩算法的简单对比

压缩方式	压缩效率	压缩速度	是否可分割
Gzip	中高	中	否
bzip2	高	慢	是
Snappy	低	快	否
LZO	低	快	是(但是要求建立索引)
Zlib	低	快	是

Hive数据格式和压缩

textfile, sequencefile, rcfile, orc

Snappy与Zlib的对比

Execution Time in Sec.png

Disk Usage Comparison:

Disk Usage Comparison.png

Hive列式存储ORC和行式存储Text

如果经常会对存储的数据进行少量列的聚合查询, 那么使用列式存储会降低在查询时所需的磁盘空间, 减少I/O消耗, 更快的得到查询结果. 这篇文章里面测试的是列式存储格式ORC相对行式存储Text, 在大量列中查询聚合少量列的情况下的性能提升情况.

原始测试数据为2200万条页面点击记录.
每行有40列
数据文件没有压缩
使用ORC格式时, 减少了52%的空间.

image.png
减少了97%的I/O消耗

image.png

image.png
提升了21%的查询时间

image.png
聚合结果如下:

image.png
相对基于Text文件的大量文件的聚合查询, 使用ORC文件格式并不总是总是显著的减少内存和CPU的消耗. 事实上, 使用ORC文件可能会引起更多的内存占用, 你可以通过使用压缩(例如Zlib或Snappy)来优化, 然而, 压缩和解压缩会增加CPU的使用时间.

配置

#影响非托管表的建表语句:
hive.default.fileformat=[textfile, sequencefile, rcfile, orc]
#影响托管表的建表语句, 如果不填则继承hive.default.fileformat的值.
hive.default.fileformat.managed=[textfile, sequencefile, rcfile, orc]

以ORC文件为例

格式可以指定到表级/分区级, 你可以通过形如下面的HiveQL语句指定ORCFile格式:

CREATE TABLE ... STORED AS ORC
ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT ORC
SET hive.default.fileformat=Orc

参考:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
《hadoop应用架构》
ORC with Zlib vs ORC with No Compression[大的数据更适合使用压缩]
Performance Comparison b/w ORC SNAPPY and ZLib in hive/ORC files
Hive & Parquet
ORC Creation Best Practices
https://orc.apache.org/docs/indexes.html

最后编辑于：2020.03.26 12:01:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,670评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,928评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,926评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,238评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,112评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,138评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,545评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,232评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,496评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,596评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,369评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,226评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,600评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,906评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,185评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,516评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,721评论 2赞 335