计算机科学:一种解决神经控制问题的深层强化学习方法!

如何强化神经系统(一种解决神经控制问题的深层强化学习方法)(1)

左:具有近似块对角结构的邻接矩阵的示例。假设神经元相互作用的线性混合模型,该网络结构将引起类似结构的近似块对角线协方差。右:与左侧邻接矩阵关联的主要组件。图片来源:米切尔和佩佐尔德。

加利福尼亚大学的两位研究人员Brian Mitchell和Linda Petzold最近将无模型深度强化学习应用于神经动力学模型,取得了非常有希望的结果。

强化学习是受行为主义心理学启发的机器学习领域,它使用基于奖励和惩罚的系统训练算法以有效地完成特定任务。该领域的一个重要里程碑是Deep-Q-Network(DQN)的开发,该网络最初用于训练计算机玩Atari游戏。

无模型强化学习已经应用于各种问题,但通常不使用DQN。这样做的主要原因是DQN可以提出有限数量的行动,而物理问题通常需要一种可以提出连续行动的方法。

如何强化神经系统(一种解决神经控制问题的深层强化学习方法)(2)

在阅读有关神经控制的现有文献时,Mitchell和Petzold注意到了经典范式的广泛使用,用机器学习策略解决神经控制问题。首先,工程师和实验者就他们研究的目标和设计达成一致。然后,后者运行实验并收集数据,稍后将由工程师进行分析并用于构建感兴趣系统的模型。最后,工程师为模型开发控制器,设备实现该控制器。

如何强化神经系统(一种解决神经控制问题的深层强化学习方法)(3)

控制由单个主成分限定的相空间中的振荡的实验结果。从顶部开始的第一个图是随着时间的推移输入到致动单元中的图;从顶部开始的第二个图是整个网络的尖峰图,其中不同的颜色对应于不同的单元;从顶部开始的第三个图对应于每个细胞随时间的膜电位;顶部图中的第四个显示目标振荡;底部图显示观察到的振荡。尽管仅向单个电池输入输入,该策略能够近似地在观察到的相空间中引起目标振荡。图片来源:米切尔和佩佐尔德。

“这项工作流程忽略了无模型控制的最新进展(例如AlphaGo AlphaGo Zero),这可以使控制器的设计更加高效,”Mitchell告诉Tech Xplore。“在无模型框架中,步骤b,c和d组合成一个步骤,并且没有建立明确的模型。相反,无模型系统反复与神经系统交互并随着时间的推移学习以实现所需的我们希望填补这一空白,看看是否可以使用无模型控制来快速解决神经控制中的新问题。”

研究人员采用了一种名为“深度确定性政策梯度”(DDPG)的无模型强化学习方法,并将其应用于低水平和高水平神经动力学模型。他们特别选择了DDPG,因为它提供了一个非常灵活的框架,不需要用户对系统动力学进行建模。

如何强化神经系统(一种解决神经控制问题的深层强化学习方法)(4)

最近的研究发现,无模型方法通常需要对环境进行过多实验,这使得将它们应用于更实际的问题变得更加困难。尽管如此,研究人员发现,他们的无模型方法比当前基于模型的方法表现更好,并且能够解决更困难的神经动力学问题,例如通过神经元的欠驱动网络的潜伏相空间控制轨迹。

“对于我们在本文中考虑的问题,无模型方法非常有效,并且根本不需要太多实验,这表明对于神经问题,最先进的控制器比人们想象的更实用。”米切尔说。

如何强化神经系统(一种解决神经控制问题的深层强化学习方法)(5)

10个同步实验的总结。(a)描绘全局同步的平均值和标准偏差(即来自等式16的q)与控制器的训练周期的数量。(b)显示直方图,证明所有网络振荡器与参考振荡器的同步水平(即来自等式16的qi)。也就是说,蓝色或绿色曲线上的点表示具有给定qi值的概率。蓝色直方图显示训练前的计数,而绿色直方图显示训练后的计数。与参考qi的平均同步远高于全局同步q,这可以通过与参考同步比全局同步更容易诱导的事实来解释。图片来源:米切尔和佩佐尔德。

Mitchell和Petzold进行了他们的研究作为模拟,因此在他们的方法可以在临床环境中引入之前需要考虑重要的实践和安全方面。将模型纳入无模型方法或对无模型控制器构成限制的进一步研究有助于在这些方法进入临床环境之前提高安全性。

如何强化神经系统(一种解决神经控制问题的深层强化学习方法)(6)

未来,研究人员还计划研究神经系统如何适应控制。人类大脑是高度动态的器官,适应周围环境并随外部刺激而变化。这可能会导致大脑和控制器之间的竞争,特别是当他们的目标不一致时。

“在许多情况下,我们希望控制器获胜并且总是获胜的控制器设计是一个重要且有趣的问题,”米切尔说。“例如,在被控制的组织是大脑的病变区域的情况下,该区域可能具有控制器试图纠正的某一进展。在许多疾病中,这种进展可能抵抗治疗(例如,肿瘤适应于驱逐化疗是一个规范的例子,但目前的无模型方法并不能很好地适应这些变化。改进无模型控制器以更好地处理大脑的适应性是我们正在研究的一个有趣的方向。”

,