1.概述 Spark SQL 是一层依赖Spark Core也就是基础操作的API封装出的一层组件. 和GraphX类似, 它的核心思想是解决两个问题: 如何把底层数据结构化...
Abstract 昨天丢人现眼的写QuickSort用了40分钟, 当时感觉整个人都不好了.(╯°□°)╯︵┻━┻ 看孩子一天睡4小时大脑不转哇 d(・`ω´・d*) ...
1. 分布式一致性 分布式一致性大体上意味着, 在多个分散的机器上, 如何保证状态(key value tuple)是完全一致的. HDFS非常粗暴的使用写入后三备份来保证,...
论文地址 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.2585&rep=rep1&type=pd...
我们在阿联酋的机房采用了这种设计模式, 就像前面Federated Identify中聊到的, 对于超高价值数据. 一般使用专用系统来处理. 在关键信息的出入口加网关是非常...
这个也可以不用解释了, 当前所有的云服务都是集中授权, 跨域授权的OAuth模式.坏处是多次IO的代价, 复杂的token权限管理, 以及所有服务对token服务器的压力.好...
这个模式就不再概述了, 当前绝大部分公司的设计思路都是一句话服务是无状态的一个跑在docker内部的服务最好是无状态的, 非常类似于函数式编程的一个算子. 所有的配置文件和状...
利用一个只能append的数据库(hive这种) 来存储所有的action, 认为这些action是按照时间序列进来的, 并且不会改变. 通过这些日志来维护整个服务的一致性...
非常著名的设计模式, 把数据读取和数据写入过程相分离, 来拉升整个系统的性能. 同时也能避免多线程update时的冲突 问题 一般我们做数据统计, 面对的就是一个类似exc...
把多个相关的操作进行合并, 并部署到同一个逻辑资源中进行计算. 这样可以减少集群资源管理的overhead, 也可以让整个集群的负载被更好的利用. 问题 云端系统往往处理大...
在并发情况下, 允许多个消费者消费同一个消息队列, 并保证消息被消费的基本语义(Kafka的模式). 通过消费者之间对消息进行收取竞争, 来保证整体负载的平衡. 问题 分布式...
为了保证最终一致性, 在错误发生时, 沿着整个错误的传递路径进行undo操作. 对于复杂的工作流来说, 尽可能保证相互依赖的流程上数据语义的最终一致性. 问题 在分布式环境中...