编辑 | 萝卜皮

基于尖峰的神经形态硬件的开发,有望实现比 GPU 等标准硬件更节能的深度神经网络 (DNN)。但这需要了解如何在基于事件的稀疏触发机制中模拟 DNN,否则会失去能量优势。特别是,解决序列处理任务的 DNN 通常使用长短期记忆单元,这些单元很难用很少的尖峰来模拟。

近日,英特尔实验团队和格拉茨工业大学(TU Graz)理论计算机科学研究所的研究人员公布的一项研究表明,参考许多生物神经元的一个现象,每个尖峰后的超极化后电流缓慢,这提供了一种有效的解决方案。后超极化电流可以很容易地在支持多室神经元模型的神经形态硬件中实现,例如英特尔的 Loihi 芯片。

滤波器逼近理论解释了为什么超极化后神经元可以模拟长短期记忆单元的功能。这产生了一种高能效的时间序列分类方法。此外,它为高效执行一类重要的大型 DNN 提供了基础,这些 DNN 提取单词和句子之间的关系以回答有关文本的问题。

该研究以「A Long Short-Term Memory for AI Applications in Spike-based Neuromorphic Hardware」为题,于 2022 年 5 月 19 日发布在《Nature Machine Intelligence》。

英特尔的设计能力(英特尔团队开发神经形态硬件)(1)

能源消耗是使用深度神经网络 (DNN) 的新 AI 方法更广泛应用的主要障碍,尤其是在边缘设备中。基于尖峰的神经形态硬件是有望缓解这一问题的一个方向。

这项研究的部分灵感来自大脑,它运行着更复杂、更大的神经网络,总能耗仅为 20 W。这种惊人的能量效率的一个关键因素是大脑中的神经元平均每秒仅发出几次信号。

相比之下,典型 DNN 的单元发出一个输出值,因此消耗能量的频率要高几个数量级。但是,确定哪些类型的 DNN,可以通过神经形态硬件中稀疏活跃的神经元,以节能的方式实现,从而用于现代 AI 解决方案,仍然是一个悬而未决的问题。在大多数情况下,这需要重新考虑 DNN 设计原则。

一个更具体的开放问题是:如何在基于脉冲的神经形态硬件中以良好的能量效率,实现用于序列处理任务的 DNN 的长短期记忆 (LSTM) 单元。

英特尔团队展示了生物神经元的一个特征,即目前尚未包含在神经形态硬件模型中的缓慢变化的内部电流的存在,赋予脉冲神经网络 (SNN) 与 DNN 中的 LSTM 单元类似的工作记忆能力。

特别是,缓慢的超极化后 (AHP) 电流会降低生物神经元在最近的放电活动后再次放电的准备情况。这种效应在神经科学中被称为尖峰频率适应。

之前,艾伦研究所的实验数据表明,新皮质中相当数量的神经元(人类额叶中超过 30% 的兴奋性神经元)表现出尖峰频率适应。

英特尔的研究表明,AHP 神经元不仅通过减少放电活动来节省能量,而且还为解决序列处理任务提供了 LSTM 单元的真正替代方案,并支持通过时间反向传播 (BPTT) 进行训练。生物神经元和标准脉冲神经元模型之间的另一个主要区别是生物神经元将其膜电位保持在相对狭窄的范围内。

相比之下,当使用正则化项对网络进行训练以诱导低放电率时,模型的膜电位通常会呈现极负值。这实际上从当前的网络计算中删除了其中的许多。研究人员引入了一种膜电压正则化原理来缓解这个问题,并支持极其稀疏发射尖峰 DNN 的设计。

研究人员在一个常用的基于脉冲的芯片上分析了这两个原理的功能含义:英特尔的神经形态芯片 Loihi5,并发现能量延迟积 (EDP) 显着降低。与功率相比,EDP 说明了每个任务/工作负载/计算的真正能源和时间成本。

同时,这些结果表明,在大脑和机器智能中,认知计算的两个特征——工作记忆和关于概念或对象之间关系的推理——实际上可以在基于峰值的神经形态硬件中比在GPU(用于实现DNN的标准计算硬件)中更有效地实现。

「我们的系统比传统硬件上的其他 AI 模型的能效高 4 到 16 倍。」TU Graz 理论计算机科学研究所的博士生 Philipp Plank 说。随着这些模型迁移到下一代 Loihi 硬件,Plank 预计效率会进一步提高,从而显着提高芯片间通信的性能。

「英特尔的 Loihi 研究芯片有望为人工智能带来收益,尤其是通过降低其高昂的能源成本。」英特尔神经形态计算实验室主任 Mike Davies 说,「我们与 TU Graz 的合作提供了更多证据,表明神经形态技术可以通过从生物学的角度重新思考其实施,从而提高当今深度学习工作负载的能源效率。」

英特尔的设计能力(英特尔团队开发神经形态硬件)(2)

图示:具有 AHP 电流的两室 LIF 神经元模型的示意图和动力学。(来源:论文)

已经证明,机器学习和 AI 中 DNN 进行序列处理的关键工具 LSTM 单元可以在基于尖峰的神经形态硬件中被具有生物启发的尖峰频率适应机制的神经元取代:AHP 电流。

这种方法得到了理论原理的支持,即来自滤波器近似理论的 PSPR。在神经元模型中添加一个用于 AHP 电流的隔间,还具有通过为梯度的反向传播创建通往过去的高速公路,来增强 BPTT 训练结果的优势。

英特尔的设计能力(英特尔团队开发神经形态硬件)(3)

图示:用于 sMNIST 任务的 AHP-SNN 的 PSPR、梯度传输和能耗。(来源:论文)

由于 AHP 神经元也可用于通用网络计算,因此该解决方案不需要将计算单元和工作内存单元分开——它是一种内存计算解决方案。这减少了通常由计算单元和内存单元之间的流量引起的延迟和能耗。

由此产生的用于解决基准时间序列分类任务 sMNIST 的基于尖峰的解决方案比 CPU 和 GPU 上 LSTM 网络的最先进实现的能效高三个数量级,同时实现更低的延迟和几乎相同的精度 。

另外,AHP 神经元支持研究人员将涉及大型前馈网络组件以及 LSTM 单元的大型 DNN 移植到基于脉冲的硬件中。该团队专注于关系网络的例子,因为它们通过支持推理故事或图像中对象之间的关系,使人工智能能力实现了质的飞跃。

关系网络的一种节能的基于尖峰的实现需要能够及时使用稀有事件(尖峰)而不是基于速率的神经代码的方法,包括在它们的前馈网络模块中。研究人员证明,在整个计算过程中,每个神经元的稀疏度远小于一个峰值对于关系网络是可以实现的。

英特尔的设计能力(英特尔团队开发神经形态硬件)(4)

图示:电压正则化及其与尖峰率正则化相结合的执行稀疏点火机制的能力。(来源:论文)

通过在训练期间使用一种新的电压正则化方法,结合迫使网络在特定时间点产生决策的输出约定,以及一个具有短膜时间常数且无不应期的尖峰神经元模型,这一点成为可能,则该模型支持严格的局部时间计算操作。Loihi 上关系网络的最终实现提供了 Loihi 上大型 DNN 的示例,其中这种基于尖峰的硬件变得比 GPU 更节能。

此外,在当前和未来的神经形态硬件中,由此产生的非常稀疏的活跃尖峰 RelNet 可能会变得更加节能,其中神经核心中神经元的突触连接数量比 Loihi 上的限制更少。这种限制迫使研究人员将尖峰 RelNet 分布在 22 个 Loihi 芯片上的 2,308 个神经核上,从而增加了延迟和能耗。尽管如此,与 GPU 相比,关系网络的 EDP 显着降低。

英特尔的设计能力(英特尔团队开发神经形态硬件)(5)

图示:Spiking RelNet 实现非常稀疏。(来源:论文)

事实上,对 Loihi1 上 DNN 实施地总结,得出的结论是:它代表了「迄今为止最大的深度学习网络,与传统架构相比显示出收益」。因此,关系网络代表了一类 DNN,与 CNN 相比,它可以更有效地移植到基于脉冲的硬件上。

根据之前 Santoro 团队的研究结果,可以预期神经形态硬件中的关系网络,不仅可以用于解决自然语言中的问答任务,还可以用于推理图像或听觉场景中对象之间的关系。这可以在高能效神经形态硬件的AI能力上提供质的飞跃。

另一个有趣的下一步是通过使用 e-prop 而不是 BPTT 来启用这些基于脉冲的 LSTM 网络替代方案的片上训练,这已被证明对 LSNN 非常有效。这些尖峰网络也已经展示了一次性学习能力,并且所需的方法很可能还可以实现这些网络的一次性片上训练。

最后,将 AHP 电流添加到神经形态硬件中的尖峰神经元模型,可以被视为将新皮质中神经元的更复杂的点神经元模型移植到此类硬件中的第一步。如果在一个额外的神经元隔室中增加一个电流,则可以实现各种 GLIF3 神经元模型阵列,这些模型可以说是神经形态硬件中通用皮层微电路的最先进模型。

这将为神经形态硬件在计算神经科学中的新用途打开大门:用于模拟大脑神经网络的最先进的大型模型,比目前可能的速度和能量要少得多。

这有可能成为 Loihi 或 SpiNNaker 等神经形态硬件的主要新应用,支持标准脉冲神经元模型的这种生物改进的实施。

「循环神经结构有望为未来在神经形态硬件上运行的应用程序提供最大的收益。」Davies 说,「像 Loihi 这样的神经形态硬件非常适合促进我们在大脑中观察到的快速、稀疏和不可预测的网络活动模式,并且需要最节能的人工智能应用程序。」

论文链接:https://www.nature.com/articles/s42256-022-00480-w

相关报道:https://techxplore.com/news/2022-05-significant-energy-neuromorphic-hardware.html

,