前期知识准备
一、分布式架构
- 组件:四层。从上到下为:计算层——>Communication layer——>分布式文件存储——>本地磁盘
A. 计算层: 从存储中加载图数据并执行实际的计算,是和用户交互的一层,这一层其实也就是指程序员编写的程序。
B. Communication layer:雷同API,向计算层提供简洁的接口
C. 分布式文件存储:存储着图数据和分析的结果。 - 图分割:利用顶点ID来划分。可基于id(v)的哈希值、范围,或者子图进行分割。
- 同步与异步:同步执行具有确定性,易于分析和调试,并且避免了竞争状况以及锁定/解锁成本;异步执行允许那些缓慢收敛(或快速收敛)的顶点运行更多轮次,从而更高效。
Vertex-centric 模型(Pregel-like)
一、 Computation and Programming Model
- 哈希分配,每个顶点维护其邻接表、顶点值和活动标志。
- 超级步中,每个顶点只给自己的邻接点发送消息。
(一个典型的Pregel计算过程如下:读取输入,初始化该图,当图被初始化好后,运行一系列的supersteps,每一次superstep都在全局的角度上独立运行,直到整个计算结束,输出结果。) - 基于消息传递(另一种是 共享内存)
二、Optimizations in Communication Mechanism(通信机制的优化)
- Pregel+: (1) 在高度数顶点的所有邻居工作站中,建立其状态镜像,以减少消息传递;
(2)将每个worker的所有请求合并为一个r请求,而r只响应每个请求的工作者而不是每个请求顶点。 - GPS
- MOCgraph:采取message online computing (MOC) 模型,直接接受数据而不经过buffer
三、Load balance(负载均衡)
————超级步中发送消息的顶点叫做工作窗口,又叫wind
- Vertex migration(顶点迁移):在计算中把顶点从高工作量的工作站迁往轻量工作站,但难以获取wind,且哈希值难改,工作量大
(1)Lookup Table存储Hash map。
(2)GPS记录每个顶点的地理位置,但不推荐使用。 - Dynamic Concurrency Control(动态并发控制):PAGE系统测量消息产生速度、本地和远程消息各自的处理速度,从而动态地调整处理本地消息和远程消息的线程数。
四、Out-of-core Execution(核外执行)
GraphD:工作站与消息传输并行地存储磁盘驻留数据(例如,边缘和消息),则在网络通信的时间内可同时实现磁盘流传输。
减少内存占用,降低各类成本消耗。 只需要O(|V|)的内存
- Distributed Semi-Streaming Model(DSS):每个工作站在主存中只存储其顶点的信息,邻接表存储在本地磁盘文件中,表示为SE(上角标)。在对每个顶点v调用compurt()函数时,需要从SE中读其邻接顶点及其度数。
为了只读活跃顶点的邻接列表,从SE中只发送顶点的存储位置,看其与内存中活跃顶点是否一致,否则就填充新的
- Message Streams(消息流):每个工作站Wi都持有|W|条发出的消息流S1~S|w|。若Wi中的顶点欲发消息给Wj中的顶点,则将消息附在Wi的消息流Sj中。
为并行执行,Si被分成了多个文件:
(1). 若Si写的文件尺寸已达阈值,则新建文件;
(2). 发送线程(sending thread持续探索所有消息流,一旦发现有没发送的Si则执行消息融合并发送。
GraphD中消息流先存储在本地,再由发送线程加载,因为消息生成速度远快于发送速度。若全存在内存等待发送,可能导致计算死机。
!!!外存的join、group by操作是没有必要的。
五、Fault Tolerance(容错机制)
checkpoint:检查点
- ChandyLamport snapshot:为异步消息传递系统设计的不协调的检查点协议
- Recovery by Message-Logging:让每个顶点发送消息之前在本地磁盘记录其日志信息。在恢复期间,只需要重传目标为重新分配的顶点的消息。
(1). 幸存顶点只向重新分配的顶点发送日志消息;
(2). 重新分配的顶点执行自己的计算并记录下所有消息日志,同时只向其他重新分配的顶点发送日志信息。 - Lightweight Checkpointing:之存储状态,不存储发送消息(out-going message),在恢复故障时,顶点仅从检查点加载之前的状态,然后从这个状态生成发送消息。