服务端系统的实战积累

笔者自入职我司有一年了，并有幸参与我司后端系统的一些基础服务开发和基础库的编写。这一年多的开发实践，踩了不少坑，也积累了一点实战经验。笔者主要结合实际工作中的积累或者是踩过的坑，谈谈如何构造更高可用、体验更好的web后端系统，希望能抛砖引玉。

先来个具体例子，比如app网关接口通常是聚合型的，为了最大程度提升系统的性能和稳定性，那么需要分析接口的整个链路。有哪些请求依赖，有哪些是可并行的，哪些是必须串行的，哪些是可以降级的，哪些是可以返回空的，哪些是必须返回err的等等。这样，才能最大程度提升系统的稳定性和性能。以下，从几个点来谈谈系统的实战经验。

1.高可用

容错和降级。 容错级别上，忽略次要 error < 服务降级。程序中部分error是可以忽略处理的，或者打个日志标记下，而不用结束整个执行流程。服务降级是指，当依赖的非核心模块出问题时，可以选择不请求或者熔断式请求(过载保护)，数据可以不吐给客户端，这就要求对数据或者服务进行级别划分，优先保证用户的基础体验。如果对实时性要求不是特别高的，可以将上次请求的数据缓存下来做灾备数据，这个做法在聚合类接口提供系统可用性上非常有帮助。
容灾通常就包括机器的容灾和机房的容灾。如果是HTTP SERVER，一般SLB这里会有PING CHECK，如果某台机器挂掉SLB会切掉这台机器。如果是RPC SERVER，节点挂掉也会自动摘掉这个节点。机房容灾也是很有必要的，也许突然某个时候机房的网线电缆被挖断了呢！相比于机器容灾，机房容灾的成本也是比较高的。前期技术成本考虑，倾向于一主一备，毕竟双写的技术要求是比较高的。
隔离隔离包括逻辑隔离和物理隔离，逻辑隔离是指多进程隔离啊、不同mysql实例啊、业务拆分隔离啊、docker化等等，还有包括cache、db、文件存储系统等都需要做隔离。而物理隔离一般指机器隔离部署、多机房方案等，它和逻辑隔离互为补充的。还有一种架构上的隔离，比如几个大的核心业务同时依赖基础核心数据cache，那么这个cache也可以做多份隔离。隔离是避免因为其他业务的突发流量或者异常访问或者无法预期的问题，从而引起影响整个系统甚至影响所有业务。我们的微服务系统采用group化进行隔离和扩容。
缓存通常考虑两种场景。第一种，数据是本身的，比如是业务本身的db数据，所以要给自己加cache，通常能挡90%以上的读流量，这样相对于只访问数据源则多了一种可靠方案。另一种场景，A模块依赖B模块的数据，很多时候A还要作一层甚至两层cache。比如A做一个local cache，配置成unix sock方式(更甚一步是放内存里)，过期时间比较短，以满足业务上的实时性要求（或者配置时间长，通过订阅事件去更新）。另外还会加一个remote cache，过期时间很久。当local cache没有命中时会访问数据源B，而当B挂掉的时候，我们可以读remote cache，相当于降级处理，因此能提高系统的可用性。这里A和B的cache操作是几乎一样的，实现成本很低。
限流任何一个服务端系统总是也承载上限的，与其忽略这个问题，不如给系统做压测设上限，在流量突发时能至少保证系统不挂。触发限流的原因有很多，有时是业务突发上涨，有时是前端BUG，有些是异步任务堆积，甚至有时是受到人为攻击。通常整个网站的入口SLB并非能准确限制某个业务的流量，所以各个业务自身也要考虑限流。从网关到业务模块到数据模块，整个链路全部都要做限流！否则瞬时的流量峰值可能会把系统的某个节点打挂，从而影响整个系统，甚至很可能引发雪崩效应。我司的限流也是在基础框架做的，使用的令牌桶算法，业务代码只要注册下要限流的接口即可。同时作为client，也要做限流保护后端，比如熔断降级、请求合并等。
弱化核心依赖 一个系统如果没有核心依赖就无敌了，当然现实中很难避免，通常要做的是弱化或者隔离分散压力。举个工作中的例子。业务很多接口都依赖用户身份校验或者接口签名校验，而检验是走帐号代理的rpc接口做的。帐号代理除了做校验，还是个基础服务，经常要做功能或技术迭代，所以也大大小小出了几次小故障。但是却影响了几乎所有的模块！所以要隔离，不过我们做的更彻底，没有拆成服务，而是以基础库的方式，业务自己直接访问认证cache和校验，同时缓存也做了隔离。这次几乎看不到校验的逻辑了，再也没出过问题。还有个实例，我们业务cache之前都是走tw集群代理，但是因为各种原因tw集群本身出过几次问题，于是我们将tw本地化，做彻底隔离，稳定性好很多，当然配置变更会麻烦一些。

2.高性能

高性能体现在两个方面，一个是低延时，一个是高并发。怎么做到呢？

怎么降低延时呢？缓存+异步+并行+超时缓存就不用说了，内存比IO快是肯定的。能异步的尽量异步，比如更新cache、事件通知；并行对于数据聚合接口也是很有效的，尤其有时候要访问几个甚至更多依赖服务的时候，同步的串行访问耗时是非常大的，golang可以参考下errgroup这个库。超时更是降低延时的一大利器，通常超时的时间是基于依赖模块的统计确定的，而且不能过于妥协。
代码质量把关。这个点非常广，简单谈谈。一般有减少大锁（大拆小、用CAS）；尽量使用批量协议（规避小包），比如redis的pipeline，包括业务协议上也需要支持批量；尽量使用指针或者引用传递变量以避免无意义的大内存拷贝；程序的逻辑框架的合理性，比如如何扩展支持并发扩展等；golang这块还要考虑尽量不要滥用goroutine、尽量复用对象来减少gc（比如sync.Pool）、少用defer、少用反射（耗性能）。
配置参数。程序依赖的各种资源的配置要适当。通常涉及时间的有dial timeout、read timeout、write timeout、idle timeout，具体依赖实际的服务端场景、物理环境和统计数据，时间太短会很敏感，读写超时时间一般略大于server端处理的最大时间，比如cache超时时间加db超时时间。涉及连接池的有最大活跃、最大空闲，配置太小可能导致高峰期满足不了并发量，配置太大可能导致资源滥用影响服务端甚至影响其他业务。还有就是机器部署上的配置，容量上的配置还有CPU内存资源等都要充足，至少要有50%的冗余。不确定的都检查下吧。
压测和线上数据分析。我相信绝大多数的业务场景，无论是吃CPU的、吃IO的、吃内存的、各种业务代码质量、BUG，通常都能通过压测表现出来。我倾向于线上环境压测或者观察高峰期数据，哪里“压爆了”就从哪里找问题优化，或者观察高峰期哪里容易抖动或者哪里吃最大的cpu或者内存都可以作为分析点。

３.易扩展

扩展性，对业务服务器来说，一般来说主要就是尽量做到无状态，如果确实有状态数据，可以放到更高可用的系统里，比如zookeeper、redis等，笔者之前参与开发的小文件系统就是将存储节点的相关元数据放到zookeeper里，这样调度节点就非常轻量级接近无状态。另外就是服务需要支持健康检查、自动注册和发现，比如rpc server可以直接注册到zookeeper实现自动扩容等等。

4.合适的架构

没有最好的，只有最合适的。在技术选型上也是如此。比如落地存储有些写量大的用hbase还是mysql呢？如果没有牛x的hbase维护还是用mysql吧。又比如cache集群用官方的集群还是tweproxy代理呢，还是超级client，得看公司运维的水平或者人力投入。再比如要不要做cache，要看是否有很高的命中率以及对数据的实时性要求，或者缓存更新通道是否稳定等等，当然一般这些是要解决来满足cache的。还有诸如机房容灾要不要做，是做成双主还是一主一从，数据库分表是哈希硬编码还是使用中间件等等，总之，技术选型一定要考虑到业务场景（业务需求）、运维资源和水平、开发投入、稳定性和扩展等各方面，一味的追求牛x的架构不一定合适。

最后希望以“监控”这个点做个结尾。作为合格的后端码农，每周几次的check list是非常有必要的。我们监控平台主要有两块，一个是dapper，可以看到某次请求整个链路的追踪，非常精确。一个是promtheus，从多个维度的比如作为server端同时作为client端的各种时延、请求量、错误码分布，以及进程内部状态等等。尤其关注毛刺、压力增长趋势等等。坚持做好check list，能很大程度上发现系统的各种潜在问题。

最后编辑于：2019.04.21 17:34:10

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,784评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,745评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,702评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,229评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,245评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,376评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,798评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,471评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,655评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,485评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,535评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,235评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,793评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,863评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,096评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,654评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,233评论 2赞 341

服务端系统的实战积累

1.高可用

2.高性能

３.易扩展

4.合适的架构

推荐阅读更多精彩内容