Hive的优化策略大致分为:配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数据倾斜解决方案。回答的时候需要,需要准确的说出具体的配置参数...
一、 hadoop 离线部分 1. hadoop HA 集群都要启动哪些进程,他们的作用是什么 Namenode:(1) 维护文件系统的目录树,管理文件系统的 namespa...
GC之前 说明:该文中的GC算法讲解不仅仅局限于某种具体开发语言。 mutator mutator 是 Edsger Dijkstra 、 琢磨出来的词,有“改变某物”的意思...
上篇文章 Mysql 到 Hbase 数据如何实时同步,强大的 Streamsets 告诉你 我们说到了如何使用 Streamsets 来进行 mysql 到 hbase 的...
hive大数据倾斜总结 - 小草君技术专栏 - 博客频道 - CSDN.NET http://blog.csdn.net/ldds_520/article/details/...
3.4 Spark通信机制 前面介绍过,Spark的部署模式可以分为local、standalone、Mesos、YARN等。 本节以Spark部署在standalone模式...
其实知果索因也是不错的学习和复习的方法。带着问题去思考和学习动力更大。 大数据面试-01-大数据工程师面试题 - CSDN博客 大数据面试-02-大数据工程师面试题 - CS...
Avro总结(RPC/序列化) Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。 它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言...