动作学习的计算模型理论基础：

Model-Free Robust Optimal Feedback Mechanisms of Biological Motor Control

Tao Bian, Daniel M. Wolpert and Zhong-Ping Jiang

Posted Online February 18, 2020https://doi.org/10.1162/neco_a_01260

Neural Computation；Volume 32 | Issue 3 | March 2020 p.562-595

[if !supportLists]1）[endif]一个被广泛接受的猜想是，中枢神经系统(CNS)选择轨迹以便最小化成本函数；这就激发了optimization-based models of motor control ；在早期的工作中，Flash和Hogan (1985)和Uno等人(1989)提出CNS通过最小化加加速度或扭矩变化的时间积分来协调运动。尽管这些理论下的模拟与实验结果一致，但尚不清楚为什么以及如何使这些特定类型的成本最小化。意识到这个困难，沃伯特和他的同事提出了另一种理论，即motor系统的目标是最小化由信号相关噪声引起的端点方差。后来，托多洛夫和他的同事(托多洛夫和约旦，2002年；托多洛夫，2004，2005)在线性二次调节器(LQR)和线性二次高斯(LQG)理论的框架内考虑了感觉运动控制，并推测中枢神经系统的目标是最小化混合成本函数，该函数包含指定精度和能量成本的成分。

[if !supportLists]2）[endif]这些框架的共同假设是：CNS首先识别系统动力学，然后识别模型优化和最有控制问题；这种基于识别的思想已经被广泛用于研究外力扰动情况下的运动适应；虽然这些模型能解释直线运动轨迹和钟形的速度曲线，但是无法解释CNS如何在短期内产生internal representation；

[if !supportLists]3）[endif]Huang2011和Haith/Krakauer2013提出了新的学习机制：model-free learning来解释sensorimotor学习的机制；这个理论最主要的观点之一就是：Reinforcement learning，机器学习里面的迭代理论；

[if !supportLists]4）[endif]多亚(2000)讨论了某些大脑区域可以实现反向学习，并提出了一种基于时间差异学习的神经元学习方案(萨顿，1988)。Izawa，Rane，Donchin和Shadmahr(2008)使用了一个基于行动者-批评者的最佳学习者，其中提出了一个反向学习方案来直接更新运动命令。传统逆向物流的一个可能缺点是，需要离散化和采样技术来将连续时间问题转换为具有离散状态-动作空间的离散时间系统的设置，这可能是计算密集型的。此外，在相关文献中通常缺少严格的收敛性证明和稳定性分析。

[if !supportLists]5）[endif]另一个挑战传统运动学习框架的发现是，中枢神经系统可以调节，甚至放大运动变异性，而不是最小化其影响。吴等人(2014)和凯舒等人(2015)推测，这种令人困惑的现象与在感觉运动学习中使用RL有关。运动的可变性促进了自主学习的探索阶段，并因此促进了运动学习。Pekny等人(2015年)也通过显示帕金森病患者增加运动变异性的能力受损来说明运动变异性的重要性。尽管有这些实验结果，仍然缺乏令人信服的理论分析来证明调节运动变异性的必要性。最后，最近有报道(Beck等，2012；巴赫&多兰，2012；Renart & Machens，2014；阿西比等人，2014年)认为，运动变异性，传统上被认为是内部噪声的结果，其特征是感觉运动回路中的神经变异,也可以通过次优推理产生。贝克等人(2012年)认为，通常由现实环境的建模误差引起的次优推理应该是运动变化的主导因素，而信号相关噪声等因素的影响有限。Acerbi等人(2014年)也使用贝叶斯决策理论研究了这种次优推理的存在。不管这些新的结果如何，如何将次优推理的存在整合到现有的基于最优控制的运动学习框架中仍然是一个开放的问题。

提出一个 adaptive dynamic programming (ADP)和robust variant (RADP)理论，鉴于上述挑战，我们在此提出了一种基于自适应动态规划(ADP)的新的感觉运动学习理论(Lewis，Vrabie & Vamvudakis，2012；Vrabie等人，2013年；刘易斯和刘，2013；卞、姜、姜，2014、2016；Bertsekas，2017；何、钟，2018)及其稳健变型()(姜、姜，2013，2017；王，何，&刘，2017)。ADP和RADP结合了RL和(鲁棒)最优控制理论的思想，与现有的电机控制理论相比有几个优点。首先，与RL、ADP和RADP共享一些基本特性的是数据驱动的、非基于模型的方法，这些方法直接更新控制策略，而不需要识别动态系统。与传统学习策略不同的是，自适应学习策略旨在通过在线学习为离散时间和连续时间动态系统开发一种稳定的最优控制策略，因此是研究人类感觉运动系统无模型学习机制的理想选择。其次，根据我们的理论，运动变异性在感觉运动学习过程中起着重要作用。类似于反向学习中的探索噪声，对运动可变性的主动调节促进了在每个学习周期中对更好的控制策略的搜索，并且因此在准确性和收敛速度方面提高了学习性能。此外，依赖于信号的噪声和次优推理(在非线性控制文献中也称为动态不确定性；参见刘、姜、希尔，2014；姜和刘，2018)在我们的模型中被考虑。因此，我们的学习模型解决了现有的运动控制理论和运动可变性的积极影响的实验观察之间的明显不一致。第三，与我们之前的结果(蒋和蒋，2014，2015)相反，提出的运动学习框架是基于我们最近开发的连续时间值迭代(VI)方法(卞和蒋，2016)，其中不再需要初始稳定控制输入的知识。因此，所提出的自动数据处理和RADP学习机制可以解决在线学习过程中的稳定性和最优性问题。因此，这种新的学习理论更适合于解释，例如，不稳定环境中的无模型学习(Burdet等人，2001，2006)。在写这封信的过程中，我们注意到克雷夫科尔、斯科特和克鲁夫(2019)也从H∞控制的角度研究了人类感觉运动系统中的无模型控制机制，其中建模不确定性和信号相关噪声被建模为未知干扰

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,009评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,808评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,891评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,283评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,285评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,409评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,809评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,487评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,680评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,499评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,548评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,268评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,815评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,872评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,102评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,683评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,253评论 2赞 341

动作学习的计算模型理论基础：

推荐阅读更多精彩内容