浅谈大数据原理(一) 场景和挑战

上一篇书评向大家推荐了 Desinging Data-Intensive Applications 这本书。由这本书启发,我也想整理一下自己在大数据这一块的知识体系。首先,我们要理解数据系统面对的场景和挑战,我们才能更好的理解其设计动机和原理。本文主要总结这些场景和挑战,会提到一些目前的相应技术,但不会展开讲。后续系列文章会渐渐深入分析这些技术。本文的目的是描绘一个概括性的逻辑性的框架。
基本数据存取
  我们从最简单的场景开始,对于一个数据系统,最基本的需求就是数据的存取,在某个时间点,把数据存起来,下一个时间点再把数据取出来[1]。
  似乎一个简单的append only 文件就可以满足这个需求,每次存数据就是写文件,取数据就从文件读。然而这样的话,查找一个特定数据就需要全局扫描,效率低下。这里引出了第一个挑战:存取效率。一方面,我们有hash索引、Btree、LSM树等技术来提高查找效率。另一方面,我们针对数据访问模式(OLAP),改变数据存储方式(列式存储),提高读取效率。
  有的数据存取操作之间是绑定的,应用会希望绑定的操作要么全部成功,要么都不成功,也就是原子性。当多个客户端同时访问数据时,应用希望这些访问就像是顺序发生的(Serializability),所有并发可能引起的问题都应该避免掉,也就是隔离性。Transaction主要就是为了应对这两个挑战。[2]
大规模数据存取
  当数据量和访问规模大到一定程度,为了突破单机的性能瓶颈,我们会希望不同的用户可以通过不同的节点访问数据,提高吞吐量,同时部分节点故障不影响系统服务,提高可用性。因此,我们会做Replication,把同一份数据保存到多个不同的节点。我们会做Partitioning,把数据集按照一定策略划分成一个个分区,每个节点负责一个或几个分区。
  当我们做了Replication,一份数据有多个副本,理想情况下,我们希望不同客户端对数据的访问不要出现不一致,仍然就像只有一个副本一样(Linearizability/strong consistency)。而当从单机数据系统扩展到集群之后,我们会面临分布式系统无法避免的三个问题。机器不可靠,单个节点故障的几率不高,但是大规模集群中有节点故障概率就很高;网络不可靠,通过网络传输的数据可能会延迟,也可能会丢失;时间不可靠,机器时钟的误差会累积,而通过网络同步时间,网络又有延迟,所以全局时间无法一致。为此,我们抽象出了共识问题(Consensus),提出了各种算法(Paxos、Raft)来解决这个问题。因为解决了这个问题,Linearizability就好实现了。
  保证Linearizability有时候会损失可用性(CAP)。因此,我们会根据具体情况,适当降低一致性要求,提供各种不同的一致性保证,即最终一致性。
数据生态
  同一份数据我们可以有不同的用途。例如在一个电商系统中,商品、订单、支付、物流等数据,支撑着整个业务流程,随着业务进行更新(OLTP)。同时,公司的决策层需要判断电商行业的发展趋势,例如需要查看不同年龄段消费者购买不同品类商品所占比例随年份变化的情况。要满足这类数据需求(OLAP),需要对业务数据进行连接、过滤、聚合等计算操作。为了提高查询效率,我们不会每次OLAP查询都重新从业务数据库计算。而是事先把这些数据预处理,按照星型模型或雪花模型单独存在一个数据库中。
  现在,我们除了业务数据库,还增加了一个数据冗余的OLAP数据仓库。一般数据仓库中的数据每天凌晨用很多较大的批处理任务更新。对于批处理作业我们优先考虑的是吞吐量。批处理作业处理的数据量大,时间长,我们希望其有较好的容错性,不能由于某些局部错误导致整个作业重跑。这些批处理任务一般是MR或Spark任务,它们用不同的方法提供容错性,Spark效率更高。Hive和SparkSQL使我们可以用简单的SQL语句创建这些任务。即使我们有了数据仓库,对于多数OLAP查询的结果仍然要进行计算才能得到,对于这种即时查询,查询速度更加重要,presto和kylin从不同的角度优化这类查询的效率。
  数据仓库的数据每天更新一次,意味着我们的OLAP查询无法反映实时的数据。为了对实时的数据进行计算,我们需要不同于批处理的计算模式,也就是流式计算。对于流式计算,数据随着时间不停的产生,没有边界。相对于固定输入的批处理,这带来一些新的挑战。首先,要对数据的传输进行负载均衡路由和限流,防止计算模块处理不过来。其次,数据可能会延迟,且没有边界,join之类的计算需要考虑的情况更多了。最后,输入数据不是固定的,容错也不像批处理一样重试即可。另外,我们还要考虑流式计算与批处理如何统一起来。
  除了OLAP应用,我们可能还会有其它的数据应用,如推荐系统、搜索服务等。这些都相应的有更合适的数据模型和存储,而其中部分数据也可能来源于业务数据库。一个完整的数据系统,除了原始的数据库,还有各种衍生的不同模型的冗余数据库。因此,要保证这整个数据系统的正确稳定运行,不仅要提供单个数据库的可靠性和容错性,还要考虑数据流动的整个生命周期可能出现的各种问题。

[1] 这里的数据指的是结构化的数据,由数据单元(可以是一条记录、一个事件)组成,每个数据单元至少可划分成key和value。如果是毫无结构化的数据存储,那单纯就是文件系统做的事了。
[2] Transaction除了原子性和隔离性,还有一致性和持久性两个特性。其中一致性其实是针对应用来说的,且相对来说,前两个特性的实现比较有挑战性。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • 于我而言七月是一座小镇的名字越过那棵苍老尽头的古树求一场下过的雨再度零落 这个时节自我选择了一天被剥离成为我的属地...
    2020号阅读 711评论 70 62
  • “天气好热啊,这都秋天了,还那么热” “是啊,比夏天还热” “那我们还是不要生二胎了”,最近这段时间不管做什么总能...
    燕纪事阅读 223评论 3 0
  • 古人云:清明时节雨纷纷,路上行人欲断魂。果真如此,今天下起了蒙蒙细雨,这蒙蒙细雨给我们带来了忧愁和悲伤。 ...
    冯正铠阅读 356评论 1 3
  • 我今天大清早的就踩到地雷了!!! 有个零零后的小孩和我说,他不想读书了,想在家全职写作。 收到这个消息的时候,我感...
    柚七七阅读 527评论 5 7