1.hive sql >> 五星
在大多数的工作中,主要用的语言就是sql,说难不难,只要做的多了,基本就可以融会贯通,当然也要了解 hive ,清楚常运用到的优化方法。
推荐书籍:《hive权威指南》
技能点:
-1.常用的sql 查询语句,select where sum group order常用sql语句,row_number()over等窗口函数使用,map,struct等类型使用。
-2.hive优化,map join ,常用参数设置,数据倾斜处理,执行计划解析等
-3.表设置,内部表、外部表、临时表使用,表存储与文件压缩方式,列式存储的好处,parquet 与orc的使用
-4.了解hive metastore元数据,分区信息表,表信息表等
2.数仓理论知识 >>五星
理论是实践的根本,懂得前人的方法才能使得实践起来的心用手。
推荐书籍:《数据仓库工具箱-维度建模权威指南》,《大数据之路-阿里巴巴大数据实践》
技能点:
-1.星型模型与雪花模型
-2.数据分层,维度与事实
-3.inmon与Kimball模型
-4.数仓规范
-5.拉链表(缓慢变化维)
3. Hadoop (hdfs ,map reduce,yarn) >>五星
为了了解你的sql到底是怎么执行,怎么存储的,一个sql语句变成了怎样的mr任务,怎么调整你的sql语句才会更快,这块的知识也比较重要的。
推荐书籍:《hadoop权威指南》,《hadoop技术内幕》,《大数据日知录》
技能点:
-1.熟悉mr执行过程,split,map,partition,shuffle,reduce..特别的是shuffle过程是面试中常常问到的,最好可以写个简易mr程序进行调试一下。
-2.了解hdfs 架构,namenode,datanode结构,熟练使用hdfs操作命令
-3.了解yarn 工作原理,ha的实现的等
4.spark、storm、flink >>四星
对于现在用spark sql比较多,所以spark 的工作原理也是有必要了解的,同时在实时数据上面,spark streaming 、storm、flink是互联网公司都在用的,目前都在向flink迁移,flink是支持sql,支持窗口的,所以前景很光明,作为一个离线数仓工作者就不赘述了。
5.数据抽取 >>四星
-1.了解日志采集、埋点
-2.抽取数据工具,sqoop,datax等
6.平台技术 >>3星
-1.调度平台,数据工作者必用的平台,开源的有azkaban、DolphinScheduler(中国人开发的)等。
-2.可视化平台,superset、redash等开源的报表展示平台。
-3.元数据平台,数据表查询,血缘关系,口径查询,资源使用,数据热度,答疑社区等,一般都自研。
-4.数据质量,监控数据保证数据准确性,预测数据监控,开源有grfflin等。
-5.智能化数据分析平台,通过勾勾选选,跑出产品运营想要的数据。