Big Graph Analytics Platforms(科普文章)

前期知识准备

一、分布式架构

  1. 组件:四层。从上到下为:计算层——>Communication layer——>分布式文件存储——>本地磁盘
    A. 计算层: 从存储中加载图数据并执行实际的计算,是和用户交互的一层,这一层其实也就是指程序员编写的程序。
    B. Communication layer:雷同API,向计算层提供简洁的接口
    C. 分布式文件存储:存储着图数据和分析的结果。
  2. 图分割:利用顶点ID来划分。可基于id(v)的哈希值、范围,或者子图进行分割。
  3. 同步与异步:同步执行具有确定性,易于分析和调试,并且避免了竞争状况以及锁定/解锁成本;异步执行允许那些缓慢收敛(或快速收敛)的顶点运行更多轮次,从而更高效。
Vertex-centric 模型(Pregel-like)

一、 Computation and Programming Model

  1. 哈希分配,每个顶点维护其邻接表、顶点值和活动标志。
  2. 超级步中,每个顶点只给自己的邻接点发送消息。
    (一个典型的Pregel计算过程如下:读取输入,初始化该图,当图被初始化好后,运行一系列的supersteps,每一次superstep都在全局的角度上独立运行,直到整个计算结束,输出结果。)
  3. 基于消息传递(另一种是 共享内存)

二、Optimizations in Communication Mechanism(通信机制的优化)

  1. Pregel+: (1) 在高度数顶点的所有邻居工作站中,建立其状态镜像,以减少消息传递;
         (2)将每个worker的所有请求合并为一个r请求,而r只响应每个请求的工作者而不是每个请求顶点。
  2. GPS
  3. MOCgraph:采取message online computing (MOC) 模型,直接接受数据而不经过buffer

三、Load balance(负载均衡)
————超级步中发送消息的顶点叫做工作窗口,又叫wind

  1. Vertex migration(顶点迁移):在计算中把顶点从高工作量的工作站迁往轻量工作站,但难以获取wind,且哈希值难改,工作量大
     (1)Lookup Table存储Hash map。
     (2)GPS记录每个顶点的地理位置,但不推荐使用。
  2. Dynamic Concurrency Control(动态并发控制):PAGE系统测量消息产生速度、本地和远程消息各自的处理速度,从而动态地调整处理本地消息和远程消息的线程数。

四、Out-of-core Execution(核外执行)

GraphD:工作站与消息传输并行地存储磁盘驻留数据(例如,边缘和消息),则在网络通信的时间内可同时实现磁盘流传输。

减少内存占用,降低各类成本消耗。 只需要O(|V|)的内存

  1. Distributed Semi-Streaming Model(DSS):每个工作站在主存中只存储其顶点的信息,邻接表存储在本地磁盘文件中,表示为SE(上角标)。在对每个顶点v调用compurt()函数时,需要从SE中读其邻接顶点及其度数。

为了只读活跃顶点的邻接列表,从SE中只发送顶点的存储位置,看其与内存中活跃顶点是否一致,否则就填充新的

  1. Message Streams(消息流):每个工作站Wi都持有|W|条发出的消息流S1~S|w|。若Wi中的顶点欲发消息给Wj中的顶点,则将消息附在Wi的消息流Sj中。
     为并行执行,Si被分成了多个文件:
    (1). 若Si写的文件尺寸已达阈值,则新建文件;
    (2). 发送线程(sending thread持续探索所有消息流,一旦发现有没发送的Si则执行消息融合并发送。
     GraphD中消息流先存储在本地,再由发送线程加载,因为消息生成速度远快于发送速度。若全存在内存等待发送,可能导致计算死机。
     !!!外存的join、group by操作是没有必要的。

五、Fault Tolerance(容错机制)

checkpoint:检查点

  1. ChandyLamport snapshot:为异步消息传递系统设计的不协调的检查点协议
  2. Recovery by Message-Logging:让每个顶点发送消息之前在本地磁盘记录其日志信息。在恢复期间,只需要重传目标为重新分配的顶点的消息。
    (1). 幸存顶点只向重新分配的顶点发送日志消息;
    (2). 重新分配的顶点执行自己的计算并记录下所有消息日志,同时只向其他重新分配的顶点发送日志信息。
  3. Lightweight Checkpointing:之存储状态,不存储发送消息(out-going message),在恢复故障时,顶点仅从检查点加载之前的状态,然后从这个状态生成发送消息。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容