火星上到底发生了什么

陆续把之前翻译的一些不会过时的文章搬到这里来,同时清理已经过时的译文。

原文链接:https://www.microsoft.com/en-us/research/people/mbj/

在刚刚登陆火星表面的那几天,火星探路者号的表现可谓无懈可击。在气囊保护下着陆、部署Sojourner Rover(译者注:一辆小机械车)、发回大量数据,包括后来在网上点击率很高的那些全景图。但是几天后,也就是探路者号开始收集气象数据不久,整个系统发生了重启,每次重启都导致数据丢失。关于原因,媒体的说法是“软件小故障”或者“系统想一次性做太多的工作”。

本周在 IEEE 实时系统研讨会上,我聆听了一次精彩的主题演讲,主讲人是David Wilner,Wind River Systems 的首席技术官。Wind River 创造了 VxWorks,这正是火星探路者号上运行的实时操作系统内核。在演讲中,他详细解释了导致探路者号重启的软件原因,故障如何定位,以及如何解决的。我想和你们中的每一位分享这个故事。

VxWorks 提供了抢占式进程调度。探路者号上的进程按照优先级来执行,优先级反映了这些进程的轻重缓急。

探路者号上有一个“数据总线”,可以理解为一块共享内存,用于不同组件之间传递信息。有一个数据总线进程,经常以高优先级运行,负责把数据总线中的数据取出来。访问数据总线需要获得互斥锁(mutex)。

气象数据进程负责把收集到的气象数据放到数据总线上,运行不频繁,是低优先级进程。存放数据的时候,他先要获得互斥锁,再往总线上写数据,最后再释放互斥锁。如果中断引起数据总线进程被执行,那么它会试图获得互斥锁来读取数据,这会导致它阻塞在互斥锁上,直到气象数据进程释放锁为止。另外探路者号上还有一个中优先级的通信进程。

在大多数情况下,这种组合工作得很好。但是,在数据总线进程(高优先级)阻塞并等待气象数据进程(低优先级)的间隙,中断可能会导致通信进程(中优先级)被执行。在这种情况下,通信进程如果长时间运行,就阻塞了比它优先级低的气象数据进程,最终的后果是信息总线进程得不到运行。过了一段时间,看门狗意识到数据总线进程很久得不到执行,认为系统发生了严重故障,于是重启了整个系统。

这个情景是一个经典的优先级反转案例。

问题是如何定位的?

VxWorks 可以跟踪所有你感兴趣的系统事件,包括上下文切换、同步对象的使用和中断。喷气推进实验室的工程师们日以继夜在实验室的飞船模型上运行同样的系统, 他们把 VxWorks 的 Trace 打开,并试图完全模拟发生重启时的各种条件。某天早上,其他工程师都回家了,只剩下一个人在工作,他终于在模型上重现了重启的故障。对 Trace 记录的分析表明,优先级反转是发生重启的原因。

问题是如何解决的?

VxWorks 的互斥锁在创建的时候,可以用一个布尔参数表示是否要优先级继承。故障中的互斥锁没有使用这个功能,如果使用的话,当高优先级的数据总线进程阻塞在这个互斥锁上时,低优先级的气象数据进程会继承数据总线进程的优先级,这样它的优先级就比通信进程高,从而防止了优先级反转。一旦定位后,喷气推进实验室的工程师们就明白了用优先级继承可以防止重启。

VxWorks 上有一个 C 语言的解释器,调试的时候,开发人员可以键入 C 表达式和函数来实时执行。碰巧,飞船上天的时候,喷气推进实验室的工程师们决定把这个功能留在上面。根据编码规范,这个互斥锁的初始化参数(包括其他两个可能导致同样问题的互斥锁)保存在全局变量中。保存全局变量地址的符号表就在发射软件中,可以通过 C 解释器访问。这样,一个小程序被上传到飞船上,经过解释器解释后,把这些全局变量的值从 FALSE 改为 TRUE,重启再也没发生过。

分析和教训

首先及最主要的,黑盒诊断这样一个问题是很难成功的,只有靠详细的 Trace 才能把这个错误的执行序列抓出来。

其次,在系统上留一些 Debug 的手段会大大节省时间。如果没有这个 C 语言解释器的话,这个问题可能就解决不了了。

最后,工程师最初的分析:“数据总线进程执行非常频繁,且时间要求严格——我们不应花额外的时间在优先级继承上”是完全错误的。在这种非常苛刻的条件下,正确性是最重要的,甚至可以牺牲性能。

人之天性、项目期限的压力

David 告诉我们,喷气推进实验室的工程师们后来承认,在他们做预飞行测试的时候,曾经碰到过一两次重启。但他们无法解释也无法重现,出于人的天性,他们认为这并不是什么大问题,照例推说“这可能是硬件的小毛病”。

还有一点是工程师们的工作重心。他们全力关注飞船登陆过程中使用的软件,保证其质量以期完美着陆,如果这都失败,那整个项目就结束了。对于飞船登陆后使用的软件,由于重要性相对低一点,所以,他们对一些偶然出现的故障有所松懈也是可以理解的,更何况重启本身就是解决登陆后故障的一种有效手段。

优秀理论、算法的重要性

David 也提到了这个案子真正的幕后英雄是卡耐基梅隆大学的几个人,他们在多年前发表了一篇论文,首次发现了优先级反转问题,并提出了解决办法。他道歉说,他不记得论文的细节和作者的名字了。圆满的是,那篇论文的三位作者当时就坐在大厅里,演讲结束后,主席提议他们起立,接受所有人的致谢。他们是Lui Sha、John Lehoczky、Raj Rajkumar。整个大厅的人为这几位计算机理论科学家欢呼,感谢他们为推进人类知识进步所做的重大贡献,你何时见过这样的场面?真是伟大的时刻。

后记

为完整起见,这篇论文是:
L. Sha, R. Rajkumar, and J. P. Lehoczky. Priority Inheritance Protocols: An Approach to Real-Time Synchronization. In IEEE Transactions on Computers, vol. 39, pp. 1175-1185, Sep. 1990.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,468评论 5 473
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,620评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,427评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,160评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,197评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,334评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,775评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,444评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,628评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,459评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,508评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,210评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,767评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,850评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,076评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,627评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,196评论 2 341

推荐阅读更多精彩内容

  • Java8张图 11、字符串不变性 12、equals()方法、hashCode()方法的区别 13、...
    Miley_MOJIE阅读 3,685评论 0 11
  • word直接复制来了,格式就不改了。至于这门课怎么复习,只要平时实验都认真完成、报告认真写,平时分都很高;考试的话...
    Jozhn阅读 4,492评论 0 8
  • 总线 计算机的各个功能部件通过总线连接在一起构成完整的计算机系统,总线是多个系统功能部件之间进行数据传送的公共通路...
    罗蓁蓁阅读 4,731评论 0 10
  • 前言 北大《操作系统原理》[https://www.coursera.org/learn/os-pku]课堂笔记,...
    尤汐Yogy阅读 2,646评论 0 11
  • 一湖冰凝一颜枯 一段萧瑟一残芦 一丝斜阳一意暖 一杯薄酒一颦蹙
    Kiki与阿莱阅读 236评论 0 2