大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。

这群人在国外被叫做数据科学家(Data

Scientist),这个头衔最早由D.J.Pati和Jeff

Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人。而数据科学家这个职位目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。

不过在国内,大数据的应用才刚刚萌芽,人才市场还不那么成熟,“你很难期望有一个全才来完成整个链条上的所有环节。更多公司会根据自己已有的资源和短板,招聘能和现有团队互补的人才。”领英(LinkedIn)中国商务分析及战略总监王昱尧对《第一财经周刊》说。

于是每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。

我们身处一个“技术爆炸”“共享、开源”的时代,先进技术的更新迭代速率超过了历史上任何一个时期,而且这些技术也不再闭塞,人人都可以接触并学习。终身学习已经是我们每个人不得不面对的问题,这一点在大数据/人工智能领域体现的尤为明显:层出不穷的新技术,一方面为我们带来了便利,但同时也使我们面临难以高效学习和选择的窘境。因此,在这样的时代背景下学习大数据知识,需要有相适应的逻辑和方法。

本文试图帮助各位读者用好各类“共享、开源”的学习工具以及学习渠道,躲过各类新手容易误入的“深坑”,以最小时间成本和经济成本,优质地完成目标技术的学习和掌握。

本文首先分析了时代背景,继而对目前大数据领域的人才梯队进行了划分,最后给出了大数据/人工智能人才从菜鸟到高手的进阶指南。

在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:532加上二1八最后147,即可免费领取一整套系统的大数据学习教程

一、背景铺垫

“技术爆炸”以及“共享开源”是这个时代最有特色的标签,笔者认为二者是互为因果且紧密联系的,首先在“技术爆炸”的时代,对于走在技术发展最前沿的研究团队来说,“技术变现”的最好手段就是“共享开源”。反观互联网、移动互联发展成熟之前,信息是十分闭塞的,某项技术创新一旦出现就需要第一时间注册专利,技术需要靠政府来保护,而技术变现的唯一途径就是出卖专利或者组织生产形成产品。

现如今互联网及移动互联已经发展的十分成熟,新的信息会以极低的成本在极短的时间内传遍世界的每个角落,所以处在技术前沿的研究团队仅需要在第一时间将自己的工作成果上传到“arxiv”或者“github”之类中立的共享、开源网站,便会立即得到全球舆论的共同保护,这样的力度要远远强于某个国家的专利保护。

随后,只要新技术确有应用价值或者学术价值,那么各类资本巨头、科技大鳄以及相关的各类组织便会排着队上门送出丰厚的offer,对于前沿团队来说,技术变现的时间点要远远早于技术产品化的时间点

其次,因为“技术爆炸”总有新的技术等待着前沿团队去研究发现,所以前沿团队保持领先的最好方法不是捂着现有成果不放,而是尽快“共享开源”实现变现,然后投入到新的研究工作中。

最后,“共享开源”也在很大程度上促进了“技术爆炸”,无论任何技术、科技的长足发展都需要一个庞大人才体系来支撑,反观历史上的各个时期,分享知识、培养人才的渠道主要是“学校”,这一渠道不但形式单一而且往往具备相当的门槛,会将相当一部分“有志青年”挡在门外。


而在如今这个时代,知识传播最快速的渠道是互联网,由于“共享开源”,世界上最优质的教育资源以及最先进的学术、技术理念忽然间没有了任何门槛,面向全部个体无差别开放,结果就是只要某一技术、科技领域有了很大的突破并具备广阔的应用前景(如大数据、人工智能),那么相应的人才梯队会在短时间内自动补齐跟上。

站在大数据学术前沿的研究团队只需要一往无前地开拓疆域,其后的人才梯队随即会自动开展“新技术论证”“技术产品化”等“保障”工作,保障这一技术领域及相关行业的健康发展,来进一步促进资源向金字塔尖的前沿团队汇聚,支撑其开拓工作。

大数据(巨量数据集合)是现代社会非常时髦的一个名词。是数据科学的一个高阶状态。数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。

国内,大数据的应用处于萌芽状态,人才市场还不太成熟,每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为"大数据工程师"。

对于一些大公司来说,拥有硕博学历的人是比较好的选择,不过阿里巴巴集团研究员薛贵荣强调,学历并不是最主要的因素,能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。想了解更多编程方面的分享请关注薇信工宗号:程序员大牛,里面也有分享这方面的文章和干货资料。

找对好基友,连滚带爬往前走

现在已经不是一个单打独斗,凭着跌落断崖后找到一本秘籍闭关几年就能横扫天下的时代了,无论是像Hinton(推翻了BP算法的BP算法之父)这样的泰斗,还是像何凯明(发best paper像一般人发paper一样容易的神奇学霸)这样的新秀,都处在各自非常靠谱的团队中与小伙伴们共同探索。好基友不需要多,有一两个真正靠谱的就已经足够,至于队友的重要性后文会慢慢阐释。

菜鸟筑基这部分最后要给出的建议就是,千万不要在这个阶段停留太久,不要等“准备好了”再去着手实践,因为这里的“准备好了”往往包含菜鸟的不自信,不去进一步提升自己是永远准备不“好”的。一般情况下,想做“计算机视觉”或者“自然语言处理”等偏AI方向的同学在完成吴恩达的《深度学习》课程后,想做“数据挖掘”的同学在完成吴恩达的《机器学习》课程后,就可以选择相应的实践项目准备进入下一阶段了。


那么我们该选择什么实践手段呢?最佳的情况是有大神带队做真实项目,但是这样的机会往往可遇而不可求,在此不展开讨论。普罗大众型的办法是参加一个大数据比赛项目,现在国内的“阿里天池”以及国外的“Kaggle”都是开放式的大数据比赛平台,平台上会有各种组织发布的各类真实项目供大家实践、比赛。读到这里各位心里可能还存有很大的疑问:“就算学会了基本课程,在没有人带的情况下能上手实践吗?”,下文将陆续回答如何“连滚带爬”的进行实践。

初入江湖

 找到一个最高的baseline

这里的“baseline”可以理解为前人已经做出成果,当自己恰好需要去做相同工作时的参照。对于上文提到的情况,如果有大神带队进行实践的话,那么带队大神此前的实践经验就成为了全体小队成员的“baseline”。那对于没有“大神”资源的广大读者是否有更通用的解决办法呢?答案是肯定的。如果读者目前对于一类问题无从下手,例如刚刚学完“深度学习”的课程,但是不知道如何去做“自然语言处理”类的项目,最好的办法是利用好国内的“万方”以及“知网”这样的论文查询平台,去查询相关领域国内普通高校的学位论文,这样的论文绝大部分都是中文并且会在论文中介绍大量的基础背景知识,正好满足了我们的需求。

有那么一句成功学的佳句是“每天叫醒我的不是闹钟而是梦想”,这句话听起来很励志,但对于90%的人来说就是胡扯,我们回首望去发现每天叫醒我们的往往是“上班迟到后被扣的工资”或者是“晚到实验室后老板的杀气”,这就是现实,听起来很残酷但是我们完全可以利用好它。具体到我们的升级以及项目推进中,能让我们不断向前的最大动力往往是“在DDL前无法完成任务后小伙伴们的鄙视”以及“完成quick win后带来的成就感”

做好这一点除了上一小节提到的要合理划分任务之外,最重要的就是有一个靠谱的teamleader不断的进行推进(push),每到既定节点后雷打不动的推进。最后要啰嗦一句,根据马斯洛需求层次理论,梦想应该属于模型顶层的“自我实现需求”,如果一个人可以被“梦想”叫醒,那么这个人的其他需求应该已经被很好的满足了,所以我在这里真诚的祝福大家终有一天可以在早晨被自己的“梦想”叫醒。

如何成为大数据工程师

由于目前大数据人才匮乏,对于公司来说,很难招聘到合适的人才—既要有高学历,同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。

今年8月,阿里巴巴举办了一个大数据竞赛,把天猫平台上的数据拿出来,去除敏感问题后,放到云计算平台上交予7000多支队伍进行比赛,比赛分为内部赛和外部赛。“通过这个方式来激励内部员工,同时也发现外部人才,让各行业的大数据工程师涌现出来。”

颜莉萍建议,目前长期从事数据库管理、挖掘、编程工作的人,包括传统的量化分析师、Hadoop方面的工程师,以及任何在工作中需要通过数据来进行判断决策的管理者,比如某些领域的运营经理等,都可以尝试该职位,而各个领域的达人只要学会运用数据,也可以成为大数据工程师。

薪酬待遇

作为IT类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察,国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。颜莉萍表示,“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。”在美国,大数据工程师平均每年薪酬高达17.5万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。

职业发展路径

由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展,成为重要数据战略人才。”颜莉萍说。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。

另外,大数据初学者有什么不懂的可以关注微信公众号:程序员大牛和转发——我刚整理了一份大数据2018最新的0基础入门和进阶教程,无私分享

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,364评论 25 707
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,891评论 2 89
  • 上班已有一年半 恰巧又到中秋节 放假三天无月饼 真的有点不想说 不过爱人在身边 一切都是眼中云 一起都是耳边风 中...
    布老头和他的家人们阅读 201评论 0 0
  • 1、总在说教 不是你不优秀 而是想让你更优秀 当你成长时 你或许从来未看到 她转过脸嘴角的微笑 但是 这是真的 2...
    爱上文化阅读 183评论 0 1
  • 最后一次见到他,用尽了毕生我所有勇气,却是用来听他和她的温暖爱情。 当接到他电话的时候,我不敢相信自己...
    凉温阅读 579评论 0 0