Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。在攒库中,Hive也不负众望,得到了非常高的票数。为此,CSDN知识库特邀社区专家蒋守壮(博客: http://blog.csdn.net/jiangshouzhuang
)绘制了Hive技术图谱,帮助广大开发者更加系统、全面的学习Hive技术。
我要成为Hive专家团一员,筛选优质内容>>猛戳这里: http://lib.csdn.net/experts/invite
点击下载Hive高清技能图谱
Hive知识库精华内容一瞥*****基于Hadoop的数据仓库Hive基础知识*
本文从Hive概述、Hive系统架构、Hive工作原理、Hive HA基本原理、Impala五大方面详细讲解了Hive,对于每个准备学习和使用Hive的开发者,都应该读一读。
在探索数据存储和供给的基本机制之前,开发者需要考虑存储何种信息,如何存储它,以及打算存储多长时间。本文就Hadoop和Hive如何存储及获取数据进行了全面分析。
Hive最强大的地方是可以将SQL语句最终转化为MapReduce作业进行处理。但是,对于超级长的Hive SQL语句,开发者想要分析哪个子段所花费的查询时间,就很难了。本文围绕该问题出发,自定义Hive SQL Job分析工具,提高Hive查询性能。
建立HBase的集群和HDInsight在Hadoop中使用Hive来查询它们
本文将教你如何使用Hive Hadoop的HBase的表创建和查询HDInsight。
Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。本文分享了不少Hive优化技巧,值得一读。
本文主要围绕以下六方面进行详细说明:1)Hive五种数据导入方式有哪些?2)导入表命令中有无LOCAL关键字的区别?3)使用OVERWRITE或INTO关键字的作用及区别?4)INPATH路径的限制?5)什么是动态分区插入?6)动态分区插入需要做哪些设置?
充分的利用机器的性能,更快的完成MapReduce程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的MapReduce程序。
本文详细讲解了Hive如何将SQL编译为MapReduce,主要分为哪六个阶段,以及Hive SQL编译过程的设计,非常干货的一篇文章。
本文使用Hive对三种不同的文件存储格式——Text、ORC和Parquet进行了对比测试,通过这三种文件存储格式的测试对比,ORC文件存储格式无论是在空间存储、导数据速度还是查询速度上表现的都较好一些,并且ORC可以一定程度上支持ACID操作。
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。