关于Hive数据仓库的那些事儿(一)模式设计 - bitcarmanlee的博客 - 博客频道 - CSDN.NET
http://blog.csdn.net/bitcarmanlee/article/details/53401824
本文原作者李程,北京市种子管理站站长,人称李站长,友盟数据平台Hive数据仓库扛把子工程师
关于Hive数据仓库的那些事儿(二)数据存储结构U盟友盟Data Geek论坛【友盟+】开发者社区 http://bbs.umeng.com/thread-12402-1-1.html
OLAP更倾向于访问百万、千万甚至上亿条记录。传统的行式存储(Row-oriented Storage)使得我们需要花费时间加载每一行,而真正需要的数据可能仅是每行中的几个数据列而已。如果存储结构基于列(Column-based),那么单列查询就只需要加载硬盘中的最小列块,这种方式在磁盘IO上是比较高效的。正是如此,我们可以说OLAP促成了列式存储(Columnar Storage)的出现。
关于Hive数据仓库的那些事儿(三)Hive架构U盟友盟Data Geek论坛【友盟+】开发者社区 http://bbs.umeng.com/thread-12812-1-1.html