最近在看《Hadoop徹底入門 第2版》这本书,看到了第四章,觉得作者写书的条理,逻辑非常清晰,所以作为读书笔记把里面的内容试着回忆写下来。
P.S.书的链接如下:
第一章里写的Hadoop和RDBMS的适用场景,我觉得把Hadoop的适用场景比较清晰地描绘出来了,试着边回忆边记录于下:
一、处理数据量
Hadoop:TB~PB量级
传统RDBMS:GB~TB量级
二、数据类型
Hadoop:结构化数据&非结构化数据
传统RDBMS:结构化数据
三、访问类型与频度
Hadoop:一次性写入,之后以读为主,基本不更新。针对顺序读取进行性能优化(Block Size大)
传统RDBMS:可读可写(Block Size小)
四、扩展性
Hadoop:用普通IA Server即可横向扩展。扩展至上千台服务器都没问题
传统RDBMS:考虑到扩展后管理及同步的处理复杂性,一般在10台以内进行扩展
五、响应时间
Hadoop:响应时间长,适用于批处理,不适用于实时处理
传统RDBMS:响应时间短,即可用于实时处理,也可用于批处理
另外在搜Amazon上的书的时候,发现用于企业级大数据架构的新产品Datalake的书似乎快出来了,于2017/9/25预计发售。