大数据学习路线

磨拳擦掌！

说数据是一个企业最核心的东西之一，我想大家应该都能基本认同吧，毕竟连XXX都说过，这是一个数据为王的时代，谁掌握了数据谁就掌握未来！

image

怪不得个个都磨拳擦掌，都嚷嚷着想搞大数据。

注：本文已收录于Github开源项目：github.com/hansonwang99/JavaCollection ，里面有各大方向编程的详细自学路线、面试题和面经、编程资料及系列技术文章等，资源持续更新中

大数据开发基础

学习编程语言往往是我们开启学习之路的第一大步。大数据领域的很多框架都是基于Java语言开发的，而且各种框架也都提供了Java API来提供使用和操作接口，所以Java语言的学习逃不掉。除此之外Scala在必要时也可以学一下，在大数据开发领域里用得还是挺多的。Scala语言的表达能力很强，代码信噪比很高，而且很多大数据框架也都提供了Scala语言的开发接口，况且Scala也可以运行于Java平台（JVM），并且兼容Java程序，所以也可以和大数据相关系统进行很好的集成。

除此之外，老生常谈的数据结构和算法、计算机网络、操作系统、数据库、设计模式也是程序员必备的通用计算机基础，不光是搞大数据的需要具备，搞后端开发的也是掌握这些基础，而且这些东西在求职面试时也是必备的，这部分应该大量花时间给坐实。

最后还要提一下对Linux操作系统的要求，当然我们这里主要还是着眼于Linux系统使用的角度。因为大数据系统的开发、部署基本都是基于Linux环境进行的。掌握常用的命令、配置、网络和系统管理、基本的Shell编程等等，对学习都大有裨益。

image

基本开发工具

大数据领域的常见开发工具和软件和后端开发基本差不多，比如：选一个常见的Linux操作系统，一套好用的SSH工具和FTP/SFTP工具，一个称手的集成开发环境，以及主流的源码控制工具和构建工具等等。

image

接下来就进入到大数据开发的具体流程，分几大块捋一遍，首先就是数据采集。

数据采集

既然大数据系统是处理海量数据的，那么第一个问题，这个海量数据到底是什么类型？从哪里来呢？

可以说，输入大数据系统的数据类型种类繁多，形式结构也有所不同，有传统的结构化数据，也有XML、Json等这类的半结构化数据，甚至还有文档、音视频这类非结构化数据。

image

数据的来源更是五花八门，有直接来自后端已有数据库的数据，有来自后端日志系统的数据，有来自第三方服务的各种数据，甚至还有从网上爬取的各种数据。

image

找到了数据源，接下来的数据采集和数据传输工作就很重要了。

我们就以后台最常见的日志数据为例，由于现在的服务系统采用集群部署方式的很多，那分布式集群上海量日志数据的采集和传输就是一个大问题。Flume是一个较常使用的分布式数据采集和聚合框架，最典型的应用就是日志数据的收集。它可以定制各类数据发送方并聚合数据，同时提供对数据的简单处理，并写到各种数据接受方，完成数据传输。

与此同时，还有一个叫做Logstash的开源数据收集引擎可能大家也听过，也比较常用的。

当然还有一种场景也是数据采集这一步通常需要考虑的，那就是在不同的存储系统（或数据库）之间进行数据的迁移（如：导入/导出）。比如我们经常需要在传统关系型数据库（如MySQL）和大数据系统的数据仓库（如Hive）之间进行数据迁移（交换），这时候一个叫Sqoop的数据采集和传输工具就非常常用了。除此之外，淘宝开源的DataX也是同类型工具。

image

数据存储

数据采集完成，接下来需要对其进行存储，这也是非常清晰的思路和流程。

说到数据存储，我们首先想到的当然是数据库存储。包括MySQL、Sql Server等等这种最常见的关系型数据库，以及Redis、MongoDB、HBase等这类非关系型数据库。

image

我们这里将ElasticSearch单独提出来聊，因为虽然它某一程度上也可以视为数据库，但是它更主要的身份还是一个优秀的全文搜索引擎。它的出现，解决了一部分传统关系型数据库和NoSQL非关系型数据库所没有办法高效完成的一些工作，比如高效的全文检索，结构化检索，甚至是数据分析，所以现在用的公司也越来越多。

image

除了传统的数据库，在大数据领域，应用非常广泛的存储技术还包括分布式文件系统和分布式数据库。说到分布式文件系统，大名鼎鼎的HDFS就是一个使用非常广泛的大数据分布式文件系统，它既是基本的数据存储平台，也是大数据系统基础平台设施；而后者的代表性技术HBase则是一个构建在HDFS之上的分布式数据库，适合海量数据的存储。

image

在大数据领域，除了分布式文件系统和分布式数据库，还有一个经常听到的就是以Hive为代表的数据仓库。我们可以将数据仓库理解为一个逻辑上的概念，其底层往往是基于文件系统打造的。还以Hive为例，它的出现主要就是可以让开发人员能够通过SQL的方式来方便地操作和处理HDFS上的数据，适用于离线批量数据的处理，上手友好，使用门槛降低。

image

所以将这部分内容做一个阶段性总结，可以如下所示：

image

数据处理

数据有着落了，接下来干啥？当然是充分挖掘数据所蕴含的价值，更直白一些说就是对其进行各种查询、分析和计算，这样才能为数据赋能，产生价值。

最早期的MapReduce就是Hadoop提供的分布式计算框架，可以用来统计和分析HDFS上的海量数据，适合于速度不敏感的离线批处理；后来出现的内存计算框架Spark则更加适合做迭代运算，因此也备受青睐。在一些不需要实时计算的场景，这些框架应用得十分广泛，但是在一些离线数据分析无法满足需求的场景下，比如金融风控、实时推荐等，这时候在线计算或者说流式计算就变得十分有必要了，这也成了现如今诸如Storm、Flink等一大批优秀的实时计算框架的主阵地，尤其是Flink，这几年的火热程度不用多说，基于它构建的处理引擎也鳞次栉比。

image

数据价值和应用

大数据系统最终的任务还是得服务于业务，为生产创造出实际价值。这种价值应用场景包括但不限于提供各种统计报表，商品推荐，数据可视化展现，商业分析，辅助决策等等。

image

大数据周边技术

聊到这里，应该说上面的内容已经基本将一个大数据引擎的主流程走完了，然而实际的大数据系统还需要诸多周边技术的支持，因此还衍生了很多附加框架和技术。

由于单机性能的局限和瓶颈，所以大数据系统的很多框架组件都是集群部署的，这时候针对集群系统的部署、管理以及监控工具就不可或缺了，比如使用广泛的Ambari和Cloudera Manager等。

有了集群之后，集群平台上各种资源的管理以及各种任务的调度就成了一个复杂且棘手的问题，这时候资源管理框架YARN，任务工作流调度框架Azkaban和Oozie等就有了用武之地。

同时为了保证分布式集群的高可用，像ZooKeeper这种分布式协调服务框架简直帮了大忙，像Master选举、集群管理、分布式协调通知等任务统统不在话下。

最后，还必须要提的一个大名鼎鼎的中间件框架，那就是Kafka。它不仅仅是一个高吞吐量的消息系统，有了它之后，系统解耦、峰值压力缓冲、高效流处理等等都使得它成为后端开发和大数据开发人员眼里那个最靓的崽。

image

做个总结

最后我们也将上述所有内容的完整版思维导图给贴在这里，由于这个图是在是太大了，实在不太好弄。

image

几个要讨论的话题

大数据开发和后端开发关系大吗？

应该说很多技术点和框架都是有交集的。比如通用编程基础部分完全一致，再者常用的像Redis、Zookeeper、Kafka、Elasticsearch等等这些主流得不能再主流的框架，在以前咱们梳理Java后端路线时也都有，所以二者的交集很大，甚至很多做大数据的，以前就是从后端转过来的，非常自然，因为很多技术都相通甚至完全一样。

这么多框架都得学吗？

大数据领域框架这么多，睡不着觉的可以大致数一数，仅刚才那个脑图里面所提及的最起码就有三四十个，是每个都需要学习吗？我们在梳理时，同类型的主流框架都列举了不止一个。一般来说，我们只要学明白其中一个，上手同类型其他技术就都不难了，举一反三很重要。另外我们尽量学主流经典的框架，一般就没啥问题，比如分布式文件系统HDFS很经典用得很多，流处理里面Flink现在火得一腿，自学对应部分时就可以考虑学一下。

具体框架（技术）到底怎么学？

最后还是得落实到具体某一个技术（框架）到底怎么学的问题。我觉得学习思路倒也清晰，首先第一步，搞清楚这个框架是干什么的，解决了什么问题和痛点，同类“竞品”还有哪些，这一步在上面的详细思维导图里，我们已经帮你完成了；第二大步，把这个技术（框架）用起来，获得成就感很重要，那具体又怎么用呢，思路也很明了，首先是把对应环境安装部署好，跑起来，然后基于准备好的环境做实验，跑Demo，自己写东西拿上去跑，由简单到复杂，慢慢上手直至熟练，该过程中肯定会踩坑，所以做好记录、输出、笔记，写下自己的踩坑过程和解决思路非常重要，步步为营；最后一大步才是针对里面的关键机制深入研究其原理，学到就是赚到，所以总体也就这三大步。

后记

本期硬核，创作不易，不想被白瞟，也希望能三连支持一波。

image

最后也要特别鸣谢菊花云带佬，我的学长云哥对于本次路线梳理提供的指导和帮助，我愿称之为KTV里的周胖伦，大数据界的扛把子。

注：本文已收录于Github开源项目：github.com/hansonwang99/JavaCollection ，里面有各大方向编程的详细自学路线、面试题和面经、编程资料及系列技术文章等，资源持续更新中

下篇见。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,784评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,745评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,702评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,229评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,245评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,376评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,798评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,471评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,655评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,485评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,535评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,235评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,793评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,863评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,096评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,654评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,233评论 2赞 341

大数据学习路线

磨拳擦掌！

大数据开发基础

基本开发工具

数据采集

数据存储

数据处理

数据价值和应用

大数据周边技术

做个总结

几个要讨论的话题

大数据开发和后端开发关系大吗？

这么多框架都得学吗？

具体框架（技术）到底怎么学？

后记

推荐阅读更多精彩内容