240 发简信
IP属地:广东
  • 120
    1 Spark SQL 简介

    1.概述 Spark SQL 是一层依赖Spark Core也就是基础操作的API封装出的一层组件. 和GraphX类似, 它的核心思想是解决两个问题: 如何把底层数据结构化...

  • 120
    Spark是如何实现排序的?

    Abstract 昨天丢人现眼的写QuickSort用了40分钟, 当时感觉整个人都不好了.(╯°□°)╯︵┻━┻ 看孩子一天睡4小时大脑不转哇 d(・`ω´・d*) ...

  • 120
    Zab vs Paxos

    1. 分布式一致性 分布式一致性大体上意味着, 在多个分散的机器上, 如何保证状态(key value tuple)是完全一致的. HDFS非常粗暴的使用写入后三备份来保证,...

  • 120
    如何在上亿张图片中找到相同的图片

    论文地址 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.2585&rep=rep1&type=pd...

  • 门卫模式 Gatekeeper Pattern

    我们在阿联酋的机房采用了这种设计模式, 就像前面Federated Identify中聊到的, 对于超高价值数据. 一般使用专用系统来处理. 在关键信息的出入口加网关是非常...

  • 120
    跨域授权 Federated Identity Pattern

    这个也可以不用解释了, 当前所有的云服务都是集中授权, 跨域授权的OAuth模式.坏处是多次IO的代价, 复杂的token权限管理, 以及所有服务对token服务器的压力.好...

  • 配置分离模式 External Configuration Store Pattern

    这个模式就不再概述了, 当前绝大部分公司的设计思路都是一句话服务是无状态的一个跑在docker内部的服务最好是无状态的, 非常类似于函数式编程的一个算子. 所有的配置文件和状...

  • 120
    操作日志模式 Event Sourcing Pattern

    利用一个只能append的数据库(hive这种) 来存储所有的action, 认为这些action是按照时间序列进来的, 并且不会改变. 通过这些日志来维护整个服务的一致性...

  • 命令查询职责分离模式 Command and Query Responsibility Segregation (CQRS) Pattern

    非常著名的设计模式, 把数据读取和数据写入过程相分离, 来拉升整个系统的性能. 同时也能避免多线程update时的冲突 问题 一般我们做数据统计, 面对的就是一个类似exc...

  • 120
    计算资源合并模式 Compute Resource Consolidation Pattern

    把多个相关的操作进行合并, 并部署到同一个逻辑资源中进行计算. 这样可以减少集群资源管理的overhead, 也可以让整个集群的负载被更好的利用. 问题 云端系统往往处理大...

  • 120
    消费者竞争模式 Competing Consumers Pattern

    在并发情况下, 允许多个消费者消费同一个消息队列, 并保证消息被消费的基本语义(Kafka的模式). 通过消费者之间对消息进行收取竞争, 来保证整体负载的平衡. 问题 分布式...

  • 120
    事物补偿模式 Compensating Transaction Pattern

    为了保证最终一致性, 在错误发生时, 沿着整个错误的传递路径进行undo操作. 对于复杂的工作流来说, 尽可能保证相互依赖的流程上数据语义的最终一致性. 问题 在分布式环境中...

个人介绍
shadowinlife@gmail.com
漫画爱好者
视频通关wow副本