《大数据架构详解:从数据获取到深度学习》

《大数据架构详解:从数据获取到深度学习》--互动出版网 - china-pub网上书店 - 博客频道 - CSDN.NET
http://blog.csdn.net/chinapub_2009/article/details/52868998


为什么写《大数据架构详解》这本书
http://mp.weixin.qq.com/s?src=3&timestamp=1480585617&ver=1&signature=iJ6vTezRrB-tSnSMPpEX0tFeSzwJSeFO-UXPJaiQHuHksgHnsWTCCcFg-OwtRQ4pROIxrEQ0YfmS7UudUYSurwe0uIdZOKRbco3o05j18ksfU7lFnaWnUkplBebixrNdbcwhWorKFv8iSeFlUP4QlUBgl-MpIe3gaqG866rss=

花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书《大数据架构详解:从数据获取到深度学习》。整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了。

回想这我500天,我常问自己两个问题:

1)我问自己为什么选择去写一本大数据技术的书,是什么让自己坚持?
我感觉可能更多的原因是实践大数据架构和技术这么多年,对技术的理解到一定的程度,心中有许多话不吐不快,因此需要找一个地方完整的表达。

2)那大数据从业者或者有志向搞大数据的同学和读者需要一本书?
往往大家误以为大数据是门单点技术,其实大数据技术是一个技术族,大家需要一本完整介绍大数据的技术的书。

有了这两个问题的答案,这本书的创意和主题思想也就有了。所以我要写一本从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识点书。

书里面主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界最新产品,以及学术界最新的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。

(最后打个广告,如果大家对这个本书感兴趣,大家可以到京东,淘宝,当当,亚马逊,互动出版社等都可以预定,京东有现货https://item.jd.com/10826699444.html,谢谢支持!)

本书的目录如下,大家看看有没有你感兴趣的内容:

第一部分 大数据的本质
第1章 大数据是什么 2
1.1 大数据导论 2
1.1.1 大数据简史 2
1.1.2 大数据现状 3
1.1.3 大数据与BI 3
1.2 企业数据资产 4
1.3 大数据挑战 5
1.3.1 成本挑战 6
1.3.2 实时性挑战 6
1.3.3 安全挑战 6
1.4 小结 6
第2章 运营商大数据架构 7
2.1 架构驱动的因素 7
2.2 大数据平台架构 7
2.3 平台发展趋势 8
2.4 小结 8
第3章 运营商大数据业务 9
3.1 运营商常见的大数据业务 9
3.1.1 SQM(运维质量管理) 9
3.1.2 CSE(客户体验提升) 9
3.1.3 MSS(市场运维支撑) 10
3.1.4 DMP(数据管理平台) 10
3.2 小结 11
第二部分 大数据技术
第4章 数据获取 14
4.1 数据分类 14
4.2 数据获取组件 14
4.3 探针 15
4.3.1 探针原理 15
4.3.2 探针的关键能力 16
4.4 网页采集 26
4.4.1 网络爬虫 26
4.4.2 简单爬虫Python代码示例 32
4.5 日志收集 33
4.5.1 Flume 33
4.5.2 其他日志收集组件 47
4.6 数据分发中间件 47
4.6.1 数据分发中间件的作用 47
4.6.2 Kafka架构和原理 47
4.7 小结 82
第5章 流处理 83
5.1 算子 83
5.2 流的概念 83
5.3 流的应用场景 84
5.3.1 金融领域 84
5.3.2 电信领域 85
5.4 业界两种典型的流引擎 85
5.4.1 Storm 85
5.4.2 Spark Streaming 89
5.4.3 融合框架 102
5.5 CEP 108
5.5.1 CEP是什么 108
5.5.2 CEP的架构 109
5.5.3 Esper 110
5.6 实时结合机器学习 110
5.6.1 Eagle的特点 111
5.6.2 Eagle概览 111
5.7 小结 116
第6章 交互式分析 117
6.1 交互式分析的概念 117
6.2 MPP DB技术 118
6.2.1 MPP的概念 118
6.2.2 典型的MPP数据库 121
6.2.3 MPP DB调优实战 131
6.2.4 MPP DB适用场景 162
6.3 SQL on Hadoop 163
6.3.1 Hive 163
6.3.2 Phoenix 165
6.3.3 Impala 166
6.4 大数据仓库 167
6.4.1 数据仓库的概念 167
6.4.2 OLTP/OLAP对比 168
6.4.3 大数据场景下的同与不同 168
6.4.4 查询引擎 169
6.4.5 存储引擎 170
6.5 小结 171
第7章 批处理技术 172
7.1 批处理技术的概念 172
7.2 MPP DB技术 172
7.3 MapReduce编程框架 173
7.3.1 MapReduce起源 173
7.3.2 MapReduce原理 173
7.3.3 Shuffle 174
7.3.4 性能差的主要原因 177
7.4 Spark架构和原理 177
7.4.1 Spark的起源和特点 177
7.4.2 Spark的核心概念 178
7.5 BSP框架 217
7.5.1 什么是BSP模型 217
7.5.2 并行模型介绍 218
7.5.3 BSP模型基本原理 220
7.5.4 BSP模型的特点 222
7.5.5 BSP模型的评价 222
7.5.6 BSP与MapReduce对比 222
7.5.7 BSP模型的实现 223
7.5.8 Apache Hama简介 223
7.6 批处理关键技术 227
7.6.1 CodeGen 227
7.6.2 CPU亲和技术 228
7.7 小结 229
第8章 机器学习和数据挖掘 230
8.1 机器学习和数据挖掘的联系与区别 230
8.2 典型的数据挖掘和机器学习过程 231
8.3 机器学习概览 232
8.3.1 学习方式 232
8.3.2 算法类似性 233
8.4 机器学习&数据挖掘应用案例 235
8.4.1 尿布和啤酒的故事 235
8.4.2 决策树用于电信领域故障快速定位 236
8.4.3 图像识别领域 236
8.4.4 自然语言识别 238
8.5 交互式分析 239
8.6 深度学习 240
8.6.1 深度学习概述 240
8.6.2 机器学习的背景 241
8.6.3 人脑视觉机理 242
8.6.4 关于特征 244
8.6.5 需要有多少个特征 245
8.6.6 深度学习的基本思想 246
8.6.7 浅层学习和深度学习 246
8.6.8 深度学习与神经网络 247
8.6.9 深度学习的训练过程 248
8.6.10 深度学习的框架 248
8.6.11 深度学习与GPU 255
8.6.12 深度学习小结与展望 256
8.7 小结 257
第9章 资源管理 258
9.1 资源管理的基本概念 258
9.1.1 资源调度的目标和价值 258
9.1.2 资源调度的使用限制及难点 258
9.2 Hadoop领域的资源调度框架 259
9.2.1 YARN 259
9.2.2 Borg 260
9.2.3 Omega 262
9.2.4 本节小结 263
9.3 资源分配算法 263
9.3.1 算法的作用 263
9.3.2 几种调度算法分析 263
9.4 数据中心统一资源调度 271
9.4.1 Mesos+Marathon架构和原理 271
9.4.2 Mesos+Marathon小结 283
9.5 多租户技术 284
9.5.1 多租户概念 284
9.5.2 多租户方案 284
9.6 基于应用描述的智能调度 287
9.7 Apache Mesos架构和原理 288
9.7.1 Apache Mesos背景 288
9.7.2 Apache Mesos总体架构 288
9.7.3 Apache Mesos工作原理 290
9.7.4 Apache Mesos关键技术 295
9.7.5 Mesos与YARN比较 304
9.8 小结 305
第10章 存储是基础 306
10.1 分久必合,合久必分 306
10.2 存储硬件的发展 306
10.2.1 机械硬盘的工作原理 306
10.2.2 SSD的原理 307
10.2.3 3DXPoint 309
10.2.4 硬件发展小结 309
10.3 存储关键指标 309
10.4 RAID技术 309
10.5 存储接口 310
10.5.1 文件接口 311
10.5.2 裸设备 311
10.5.3 对象接口 312
10.5.4 块接口 316
10.5.5 融合是趋势 328
10.6 存储加速技术 328
10.6.1 数据组织技术 328
10.6.2 缓存技术 335
10.7 小结 336
第11章 大数据云化 337
11.1 云计算定义 337
11.2 应用上云 337
11.2.1 Cloud Native概念 338
11.2.2 微服务架构 338
11.2.3 Docker配合微服务架构 342
11.2.4 应用上云小结 348
11.3 大数据上云 348
11.3.1 大数据云服务的两种模式 348
11.3.2 集群模式AWSEMR 349
11.3.3 服务模式Azure Data Lake Analytics 352
11.4 小结 354
第三部分 大数据文化
第12章 大数据技术开发文化 356
12.1 开源文化 356
12.2 DevOps理念 356
12.2.1 Development和Operations的组合 357
12.2.2 对应用程序发布的影响 357
12.2.3 遇到的问题 358
12.2.4 协调人 358
12.2.5 成功的关键 359
12.3 速度远比你想的重要 359
12.4 小结 361

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,723评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,080评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,604评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,440评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,431评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,499评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,893评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,541评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,751评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,547评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,619评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,320评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,890评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,896评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,137评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,796评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,335评论 2 342

推荐阅读更多精彩内容