动作学习的计算模型理论基础:
Model-Free Robust Optimal Feedback Mechanisms of Biological Motor Control
Tao Bian, Daniel M. Wolpert and Zhong-Ping Jiang
Posted Online February 18, 2020https://doi.org/10.1162/neco_a_01260
Neural Computation;Volume 32 | Issue 3 | March 2020 p.562-595
[if !supportLists]1)[endif]一个被广泛接受的猜想是,中枢神经系统(CNS)选择轨迹以便最小化成本函数;这就激发了optimization-based models of motor control ;在早期的工作中,Flash和Hogan (1985)和Uno等人(1989)提出CNS通过最小化加加速度或扭矩变化的时间积分来协调运动。尽管这些理论下的模拟与实验结果一致,但尚不清楚为什么以及如何使这些特定类型的成本最小化。意识到这个困难,沃伯特和他的同事提出了另一种理论,即motor系统的目标是最小化由信号相关噪声引起的端点方差。后来,托多洛夫和他的同事(托多洛夫和约旦,2002年;托多洛夫,2004,2005)在线性二次调节器(LQR)和线性二次高斯(LQG)理论的框架内考虑了感觉运动控制,并推测中枢神经系统的目标是最小化混合成本函数,该函数包含指定精度和能量成本的成分。
[if !supportLists]2)[endif]这些框架的共同假设是:CNS首先识别系统动力学,然后识别模型优化和最有控制问题;这种基于识别的思想已经被广泛用于研究外力扰动情况下的运动适应;虽然这些模型能解释直线运动轨迹和钟形的速度曲线,但是无法解释CNS如何在短期内产生internal representation;
[if !supportLists]3)[endif]Huang2011和Haith/Krakauer2013提出了新的学习机制:model-free learning来解释sensorimotor学习的机制;这个理论最主要的观点之一就是:Reinforcement learning,机器学习里面的迭代理论;
[if !supportLists]4)[endif]多亚(2000)讨论了某些大脑区域可以实现反向学习,并提出了一种基于时间差异学习的神经元学习方案(萨顿,1988)。Izawa,Rane,Donchin和Shadmahr(2008)使用了一个基于行动者-批评者的最佳学习者,其中提出了一个反向学习方案来直接更新运动命令。传统逆向物流的一个可能缺点是,需要离散化和采样技术来将连续时间问题转换为具有离散状态-动作空间的离散时间系统的设置,这可能是计算密集型的。此外,在相关文献中通常缺少严格的收敛性证明和稳定性分析。
[if !supportLists]5)[endif]另一个挑战传统运动学习框架的发现是,中枢神经系统可以调节,甚至放大运动变异性,而不是最小化其影响。吴等人(2014)和凯舒等人(2015)推测,这种令人困惑的现象与在感觉运动学习中使用RL有关。运动的可变性促进了自主学习的探索阶段,并因此促进了运动学习。Pekny等人(2015年)也通过显示帕金森病患者增加运动变异性的能力受损来说明运动变异性的重要性。尽管有这些实验结果,仍然缺乏令人信服的理论分析来证明调节运动变异性的必要性。 最后,最近有报道(Beck等,2012;巴赫&多兰,2012;Renart & Machens,2014;阿西比等人,2014年)认为,运动变异性,传统上被认为是内部噪声的结果,其特征是感觉运动回路中的神经变异,也可以通过次优推理产生。贝克等人(2012年)认为,通常由现实环境的建模误差引起的次优推理应该是运动变化的主导因素,而信号相关噪声等因素的影响有限。Acerbi等人(2014年)也使用贝叶斯决策理论研究了这种次优推理的存在。不管这些新的结果如何,如何将次优推理的存在整合到现有的基于最优控制的运动学习框架中仍然是一个开放的问题。
提出一个 adaptive dynamic programming (ADP)和robust variant (RADP)理论,鉴于上述挑战,我们在此提出了一种基于自适应动态规划(ADP)的新的感觉运动学习理论(Lewis,Vrabie & Vamvudakis,2012;Vrabie等人,2013年;刘易斯和刘,2013;卞、姜、姜,2014、2016;Bertsekas,2017;何、钟,2018)及其稳健变型()(姜、姜,2013,2017;王,何,&刘,2017)。ADP和RADP结合了RL和(鲁棒)最优控制理论的思想,与现有的电机控制理论相比有几个优点。首先,与RL、ADP和RADP共享一些基本特性的是数据驱动的、非基于模型的方法,这些方法直接更新控制策略,而不需要识别动态系统。与传统学习策略不同的是,自适应学习策略旨在通过在线学习为离散时间和连续时间动态系统开发一种稳定的最优控制策略,因此是研究人类感觉运动系统无模型学习机制的理想选择。其次,根据我们的理论,运动变异性在感觉运动学习过程中起着重要作用。类似于反向学习中的探索噪声,对运动可变性的主动调节促进了在每个学习周期中对更好的控制策略的搜索,并且因此在准确性和收敛速度方面提高了学习性能。此外,依赖于信号的噪声和次优推理(在非线性控制文献中也称为动态不确定性;参见刘、姜、希尔,2014;姜和刘,2018)在我们的模型中被考虑。因此,我们的学习模型解决了现有的运动控制理论和运动可变性的积极影响的实验观察之间的明显不一致。第三,与我们之前的结果(蒋和蒋,2014,2015)相反,提出的运动学习框架是基于我们最近开发的连续时间值迭代(VI)方法(卞和蒋,2016),其中不再需要初始稳定控制输入的知识。因此,所提出的自动数据处理和RADP学习机制可以解决在线学习过程中的稳定性和最优性问题。因此,这种新的学习理论更适合于解释,例如,不稳定环境中的无模型学习(Burdet等人,2001,2006)。 在写这封信的过程中,我们注意到克雷夫科尔、斯科特和克鲁夫(2019)也从H∞控制的角度研究了人类感觉运动系统中的无模型控制机制,其中建模不确定性和信号相关噪声被建模为未知干扰