大数据技术火热而且火爆,学习大数据的课程和资料也泛滥如潮,而大数据研发环境又不是随便就可以搭建起来的,如何有一个自己随时可用的大数据修炼道场呢?
网上有很多hadoop单机版的搭建教程,但大多是基础组件,如果想窥探Hadoop 的整个生态系统,并建立一个人的大数据环境,从而修炼大数据的各种技术,我觉得非 HDP 的Sandbox 莫属了。
HDP 的Sandbox 是一个基于虚拟机的单节点hadoop集群,相当于一个伪分布式环境,学习和使用都非常的轻松便捷。虚拟机既支持VMware也支持VirtualBox,完全可以在windows和mac 上无缝执行,需要注意的是需要64位的主机多核cpu并支持虚拟化。
以virtualbox为例,三步,只需三步,就可以搭建自己修炼大数据技术的环境了。
1)先去下载安装virtualbox,https://www.virtualbox.org/wiki/Downloads,选好自己的所需的版本,下载安装。
2)下载HDP sandbox,http://hortonworks.com/products/hortonworks-sandbox/#install,选择virtual box 版本即可,文件较大,接近9个G,要有耐心。
3)启动Virtualbox,倒入HDP sandbox镜像,import 完成后如下图:
忽略那个我自己的ubantu镜像,启动HDP sandbox 即可。 从Ambri开始,就可以逐渐走进Hadoop 的ecosystem 了。
如果只是想马上实践大数据平台计算的应用,可以直接利用云服务。
AWS 的大数据云服务:https://aws.amazon.com/cn/elasticmapreduce/ 这是EMR,当时实时流处理也很强。
阿里云的大数据云服务:https://www.aliyun.com/product/emapreduce 只可惜还在公测,没了ali 的名头
青云的大数据云服务: https://www.qingcloud.com/products/big_data_platform 后起之秀,也不错,只是HBase 还没有商用。
其他的云PaaS 大数据计算 没有过多尝试,不敢妄言了。