简单之极，搭建属于自己的Data Mining环境（Spark版本）

前言：工欲善其事，必先利其器。倘若不懂得构建一套大数据挖掘环境，何来谈Data Mining！何来领悟“Data Mining Engineer”中的工程二字！也仅仅是在做数据分析相关的事罢了！

...

插曲：封笔约138天，一方面是由于换了方向，跳到了互金行业，有调整期。一方面是途中体验了下在线直播，尝尝鲜。但的确难忍想写点文字的瘾，说出来连自个都不信，反正我今天要解瘾了，不过也是为了拉个票。

说明：这篇文章，我给101分。除非某些读者压根没想踏进大数据领域，再或者仅仅是做一些运营上的数据分析，这样的话，直接点下链接，帮我投个票就去玩儿吧，投票地址，选择3号。相反，倘若是致力于在大数据领域做数据挖掘工程师，服务于线上数据产品的有志青年。咋们太有猿粪了。此文来自于笔者在实践项目开发中的记录，真心希望日后成为所有进入大数据领域挖掘工程师们的良心参考资料。（多的这一分，还是情怀），下面是它的一些说明：
- 它是部署在Windows环境，在项目的实践开发过程中，你将通过它去完成与集群的交互，测试和发布；
- 你可以部署成使用MapReduce框架，而本文主要优先采用Spark版本；
- 于你而言，它更多意义在于提高你在个人主机上进行业务场景建模的效率，方便你对算法模型进行测试和优化，以及打包、提交任务。
- 于我而言，网络上各种鱼龙混杂的资料，一方面是内容误导新人，更缺乏资源整合，一方面仅仅是搬运工，缺乏实践项目中的开发经验，有头无尾。这更是这篇文章的初衷。

铺垫：数据挖掘工程师是一个公司编制为数不多的岗位（你也许懂~）。对于新人，如果它是你的目标，你需要真正理解“挖掘”和“工程”的关联性和重要性，缺一不可；也希望你能区分它与分析师的差异性；更期待你能够知晓这个岗位在数据产品里的角色性，因为这些对于你如何去成为一位数据挖掘工程师来说，很重要！

说完上面这些杂七杂八的伏笔，下文我将深入仔细去引导你，如何去搭建属于自己Spark版本的Data Mining环境，以及某些环节在实践项目中开发的必要性。

第一步： Java安装和配置（1.7或者1.8）

理由：这是必须要去部署的环境，不解释。不过注意区分版本、以及个人主机是32位还是64位；
下载：本文提供1.8版本的下载，其中32位下载，64位下载；
安装配置：
- 1.【安装】：点击软件进行安装，按照引导步骤，并指定安装目录（个人喜爱），本文选择默认安装路径；
- 2.【配置】：配置环境变量JAVA_HOME和路径PATH，选择我的电脑>系统属性>高级系统设置>环境变量；
  
  jdk安装路径

环境变量设置

a.新建JAVA_HOME，为C:\Program Files\Java\jdk1.8.0_20。
b.新建CLASSPATH，为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”
c.编辑Path，添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”

考虑到有不少读者非软件专业，因此这里没有一笔带过基本的软件安装。最终安装成功的显示如下所示：

成功安装java的显示

第二步： IDE安装和配置（Eclipse或者Spring Tool Suite）

理由：编写工程代码的集成环境，也就是你写代码的地儿。注意IDE区分版本、以及个人主机是32位还是64位；
下载：本文提供最新STS版本的下载，其中32位下载，64位下载。也可以使用Eclipse或SBT；
安装配置：
- 1.将安装包下载放在选定目录，进行解压就可以了，并创建桌面快捷方式，方便以后使用；

STS解压后应用程序

在后期使用IDE时，考虑到个人有代码洁癖，因此，我都推荐先设置好这几点：a.字体大小和类型，b.缩进方式，c.代码行数序号；

第三步： IDE插件的加载

理由：编写MapReduce/Spark工程需要的插件，注意区分hadoop版本。
下载：本文提供hadoop2.6.0版本的插件，其中下载地址
安装配置：
- 1.将Jar包放在STS目录，位置于\sts-bundle\sts-3.8.1.RELEASE\dropins下；

第四步： Maven的安装配置

理由：开发实践数据挖掘项目，更多采用Maven进行项目管理。
下载：本文提供两个版本的下载，其中3.3.3下载，3.3.9下载
安装配置：
- 1.将安装包解压放在指定目录，设置全局变量M2_HOME和添加路径PATH；

MAVEN的全局变量和路径设置

Maven安装成功的显示

第五步： hadoop包的下载配置

理由：代码执行过程中依赖hadoop的环境，需要单独配置hadoop的执行路径。
下载：本文提供2.6.0版本的下载，其中下载地址
安装配置：
- 1.将安装包解压放在指定目录，设置全局变量HADOOP_HOME和添加路径PATH；

配置hadoop的全局变量和路径

第六步： hadoop插件的加载配置

理由：代码执行过程中依赖hadoop的JAR插件，需要单独编译或者下载，放置在上述hadoop解压包的bin目录下。
下载：本文提供2.6.0版本的插件下载，其中32位，64位
安装配置：
- 1.将安装包解压放在指定目录，将hadoop.dll和winutils.exe放在hadoop的bin目录下就可以了；

将hadoop插件放置于bin目录下

第七步： spark包的下载配置

理由：代码执行过程中依赖spark的配置环境，需要下载包放置在指定目录，并设置全局变量和路径。
下载：本文提供spark-1.6.2-bin-hadoop2.6版本的插件下载，其中下载地址
安装配置：
- 1.将安装包解压放在指定目录，设置全局变量SPARK_HOME和添加路径PATH；

配置Spark的全局变量和路径

通过上述的安装，可以通过下面的显示来验证是否成功

Spark配置成功的显示

第八步： scala环境的安装配置

理由：代码执行过程中依赖scala的配置环境，需要安装scala环境，并设置全局变量和路径。
下载：本文提供三个版本的安装包下载，其中2.10.1，2.10.4，2.11.0
安装配置：
- 1.将安装包安装在指定目录，设置全局变量SCALA_HOME和添加路径PATH，最终安装成功显示如下；

scala成功安装的显示图

第九步： scala ide集成插件的加载配置

理由：IDE集成环境执行过程中依赖scala插件的相关JAR包，需要单独下载相应版本的scala ide，并将features和plugins目录下的文件都复制到上述STS集成环境下。
下载：本文提供两个版本的包下载，其中32位，64位。
安装配置：
- 1.将下载包解压，复制features和plugins目录下的文件到\sts-bundle\sts-3.8.1.RELEASE\ 下的同命名文件目录中去；

scala ide集成插件复制到sts指定目录

至此，通过以上9个步骤的下载、安装和配置，一个基于Windows的标配大数据挖掘环境就已经搭建好了。上面这些版本和链接都会在以后日子进行更新迭代，有部署过程中遇到问题的小伙伴，也可以积极将问题和截图发到评论里，一起进行解决。

下面的内容，本文就利用上述所有步骤部署的大数据挖掘环境做一个实践项目开发的流程，后期文章中会更深入引导数据产品中的数据挖掘工程开发。让真正想踏入大数据圈子做数据挖掘的小伙伴们，能够清楚自己目前应该做的事，以及公司级别实践应用的场景。不脱节、不迷茫、不盲目！

Step1：创建MAVEN工程

创建Maven工程中的步骤一

创建Maven工程中的步骤二

Step2：创建工程中的对象

创建Maven工程中的对象

创建成功显示图

Step3：配置好pom.xml文件，下载相关Spark依赖包

修改pom.xml文件，添加工程依赖包坐标

Step4：写一个朴素贝叶斯模型里涉及先验概率计算的逻辑，后期深入的开发等着以后的文章吧！

代码逻辑，让大家看看模样

总结：工欲善其事，必先利其器！这句话里面有两层的逻辑，一方面，你在要踏入大数据挖掘领域的同时，应该要学会部署一套上述这样的环境，因为它对于你的模型工程开发、集群任务提交、数据产品项目开发、甚至是以后的模型优化重构，都是至关重要！一方面，我希望真正想学习大数据挖掘的小伙伴们，要走一个正确的方向，真正理解大数据生态圈的特点，要致力于为数据产品提供源源不断的大数据挖掘体系而奋斗，因为这事，不仅仅是玩玩而已！（上述下载的版本和链接都会在以后的时间进行更新维护）

附录：本文属于《以什么姿势进入数据挖掘会少走弯路》系列章节，首发于infoQ，链接地址。目前为第四篇，以往的链接地址为《以什么姿势进入DataMining会少走弯路？》、《一种新思想去解决大矩阵相乘》、《你知道DataMining缺乏模块化思维的后果？》

注：其他商业平台转载需联系infoQ进行授权，杜绝私自转载！

=======================================
最后一句，希望各位看官都能够点击投票链接，选择3号，为我投一个票，十分感谢，感情也能够细水长流撒！

选中这个

输入验证码，提交就OK了

最后编辑于：2017.12.04 00:38:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

简单之极，搭建属于自己的Data Mining环境（Spark版本）

第一步 ： Java安装和配置（1.7或者1.8）

第二步 ： IDE安装和配置（Eclipse或者Spring Tool Suite）

第三步 ： IDE插件的加载

第四步 ： Maven的安装配置

第五步 ： hadoop包的下载配置

第六步 ： hadoop插件的加载配置

第七步 ： spark包的下载配置

第八步 ： scala环境的安装配置

第九步 ： scala ide集成插件的加载配置

推荐阅读更多精彩内容