理论或计算模型与实验观测结果进行比较时,量化不确定性,对于进行可靠的科学研究,是至关重要的随着数据驱动建模的兴起,理解不确定性的各种来源,并开发估计不确定方法,重新获得了关注,我来为大家科普一下关于机器学习确定var参数?下面希望有你要的答案,我们一起来看看吧!

机器学习确定var参数(Nat.Rev.Phys.)

机器学习确定var参数

理论或计算模型与实验观测结果进行比较时,量化不确定性,对于进行可靠的科学研究,是至关重要的。随着数据驱动建模的兴起,理解不确定性的各种来源,并开发估计不确定方法,重新获得了关注。

五位研究人员(英国 牛津大学(University of Oxford)Yarin Gal,美国 哈佛大学(Harvard University)Petros Koumoutsakos, 法国国家科学研究中心(Centre national de la recherche scientifique)Francois Lanusse,比利时 列日大学(University of Liège)Gilles Louppe,希腊 色萨利大学(University of Thessaly)Costas Papadimitriou),讨论了机器学习模型中,不确定性量化,重点是与物理问题相关的问题。

天体物理学家卡尔·萨根(Carl Sagan),在1995年出版的《魔鬼出没的世界:科学是黑暗中的蜡烛》(The Demon-Haunted World:Science as a Candle in the Dark)一书中写道:“每当一篇科学论文提供一点数据,就会伴随着一个误差条,那是安静但持续的提醒:没有任何知识是完美无缺的。”

如今,随着物理学家越来越依赖机器学习模型,萨根的话,更能引起共鸣。使用复杂的统计方法和大量的训练数据来进行预测,而不需要预先指定的模型。这些模型功能强大,但量化其不确定性,却是极具挑战性。

值得注意的是:最近Aron Walsh课题组也开发了一款量化神经网络不确定性的代码。

http://github.com/WMD-group/unlockNN

http://joss.theoj.org/papers/10.21105/joss.03700

一、什么是不确定性估计?为什么在物理学中很重要?

Petros Koumoutsakos,Costas Papadimitriou:物理学,致力于通过探索观察和想法之间的可量化关系,以获取关于世界的知识。这些关系,通常用描述物理原理(如守恒定律)的数学和计算模型来表示。近年来,从数据中学习的模型,受到了广泛关注。前所未有的计算能力,使计算和数据建模方法,成为跨科学和技术进行预测和决策的必要条件。然而,有限或信息匮乏的数据和未知的物理现象,会影响系统,但未被其模型捕获,这意味着所有预测都是不确定的,并且每个决策,都存在风险。不确定性的估计是统一的主题,也是建模的基本方面。

贝叶斯推理Bayesian inference,是连接模型和观察,以及估计不确定性的一种突出方法。作为一种从有限数据中学习的归纳方法,与机器学习领域密切相关。其主要特点是,使用分配给模型参数的先验置信度,用先验概率分布表示。经典贝叶斯公式,根据新数据系统地更新了这些概率,在这种情况下,与物理学家的直觉推理密切相关。

Francois Lanusse 不确定性量化是,大多数现代基础物理学的基础,其核心是寻求将理论模型与观察结果进行比较。尽管方法可能因领域而异(例如,粒子物理学中的频率统计、宇宙学中的贝叶斯统计),但统计不确定性量化方法,始终旨在将模型与观测结果进行定量比较,以便偏好或拒绝特定理论。从这个意义上说,稳健和可靠的不确定性量化,对于物理学家来说,地至关重要的,如果可以更好地控制相关的不确定性和更值得信赖的结果,通常会更喜欢约束力较小的实验或方法。这种对统计方法的稳健性和可信度的重视,在现代机器学习,在物理学的许多领域所面临的相对怀疑中,起到了不小的作用。神经网络,通常仍被视为具有可疑不确定性的无法解释的黑匣子,即使神经网络看起来优于更经典的分析技术,也会让人不愿意使用。事实上,神经网络可以解释为可靠的概率模型,具有渐近收敛保证(例如,无限数据、无限网络大小)。在这方面,神经网络与更传统的推理技术,没有什么不同,例如马尔可夫链蒙特卡罗Markov chain Monte Carlo,(MCMC),后者也只是渐近正确的,在实践中,可能会受到大量技术问题的困扰,但仍然是在宇宙学等领域的黄金标准。

在概率背景下,建立对神经网络含义的深入理解,以及在非渐近状态下,使用这些模型的经验,在物理科学的不同领域,正在慢慢加快步伐,其中,比在物理科学中更为关键深度学习的许多其他常见应用领域。在健全的统计框架下,使用神经网络的最引人注目的例子之一是,最近基于神经密度估计的模拟推理技术发展。

二、在机器学习和深度学习中,不确定性估计的工具有哪些?

P.K., C.P.贝叶斯不确定性量化的特点在于,其高计算成本,因为需要在多维参数空间中,表示后验不确定性,并评估模型参数上的多维积分用以估计:首先,重要的后验概率做决定;其次,通过计算和比较证据,不同物理模型的相对合理性;第三,通过分层贝叶斯推理,系统地整合异构数据(例如,不同的物理特性)。通过结合物理原理和对称性或通过识别低维流形,以演化由这些模型评估的参量,可以使模型参数保持较小。

多年来,已经开发了几种计算方法,例如,物理学家熟知的MCMC 方法,以有效地采样后验分布或估计相应的积分。或者,拉普拉斯近似技术,提供基于最大后验估计和不确定性的局部表示的估计。这些工具最初是,为经典统计模型中的贝叶斯不确定性量化而开发的,现在正在适应机器学习模型。

Yarin Gal 贝叶斯深度学习领域,在过去几年经历了研究的繁荣,开发了各种工具,估计不同类型的不确定性,每种工具都有自己的属性。这些工具,可以按照不同轴进行大体分类,理解这些,对于为应用程序选择正确的工具,是至关重要的。工具可分为以下几类:第一,捕获的不确定性类型(认知或任意);其次,由计算约束和要求(例如许多前向传递与单个模型,或存储许多模型与单个模型的内存需求);第三,易用性(使用该工具需要多少机器学习方面的“专业知识”而不是“现成的”);第四,根据其背后的理由(原则性与临时性,是否基于统计);第五,按统计范式(贝叶斯与频率);第六,如果逼近贝叶斯后验,则根据逼近的类型以及它们在逼近谱上的位置(例如,变分与 MCMC 逼近,“粗略和廉价”与“富有表现力和昂贵”逼近)等。

以贝叶斯神经网络中,“作为变分推理 dropout”为例。就上述类别而言,该方法,可以捕获认知不确定性和任意不确定性(第一类),需要多次前向传递并且仅在内存中存储一个模型(第二类),可以“现成”用于具有 dropout 模型通过在测试时打开 dropout 进行几次前向传递(第三类),如果 dropout 参数值设置得当(第四类和第五类),则遵循具有原则变分近似的贝叶斯范式,并且可以被视为“廉价和粗略的近似,这对于某些应用可能已经足够,但对于其他应用可能不够(第六类)。

将此与“深度集成不确定性”方法进行比较,该方法需要在内存中存储多个模型(第二类),如果可以训练其他模型(第三类),则可以“现成”使用,遵循临时直觉而不是统计证明(第四类,尽管一些工作试图在额外的假设下将其作为基础),并且可以被视为一种稍微“表现力和昂贵”的近似,如果可以访问额外的计算资源,它可能会提高某些应用程序的性能(第六类)。

沿这些轴的两个更具代表性的示例是,用于贝叶斯神经网络推理的哈密顿蒙特卡罗和确定性不确定性量化deterministic uncertainty quantification (DUQ):前者是上述方法中,计算成本最高的,而后者是最便宜的。Hamiltonian Monte Carlo 需要多次前向和后向传递,同时将许多模型副本存储在内存中(第二类),需要机器学习方面的专业知识才能有效使用(第三类),并遵循具有严格 MCMC 近似的贝叶斯范式(第四类和第五类) )。相比之下,DUQ 只需要单个模型的单次前向传递(第二类),对训练过程的更改最小(第三类),但仅捕获认知不确定性(第一类)并遵循临时证明(DUQ7 的最新扩展,补救这些最后一点,并将该方法作为高斯过程的原则近似,第四和第五类)。

F.L.对任意不确定性和认知不确定性建模,所需的工具是不同的。任意不确定性与机器学习方法无关。例如,无论使用何种方法,都无法准确恢复仅通过几次噪声测量才能观察到的量的真实值。对这些不确定性进行建模,本质上意味着对分布进行建模,例如,在给定观察数据的情况下,这个未知量的概率分布。

在神经密度估计器和深度生成模型(包括生成对抗网络、变分自动编码器、归一化流、扩散模型和自回归模型)的一般概念下,这是近年来深度学习取得重大进展的领域。虽然建模高维分布,曾经是一个受维数诅咒困扰的问题,但最近最先进的模型,能够表示复杂数据上的高维分布,示例包括常见的人脸图像机器学习文献,用于绘制宇宙大尺度结构的地图,对宇宙学很有用。这种使用神经网络有效地对任意分布进行建模的能力,尤其产生了基于模拟的推理技术的最新发展,该技术,在参数推理问题中,提供了标准 MCMC 技术的替代方案,其中物理模型仅在数值模拟器的形式。

以物理上有意义的方式建模认知不确定性,要微妙得多。在这种情况下,这些将指神经网络本身的不确定性,并且可以通过以下问题进行总结:给定有限数量的训练数据,特定神经网络模型做出的预测有多可靠?这是贝叶斯神经网络技术试图解决的问题。然而,请注意,这种对神经网络中,认知不确定性的估计通常是在网络架构和模型权重的特定先验下进行的,这些先验,不能直接解释为对神经网络的功能空间具有物理意义的先验。因此,在物理推理环境中,应该小心处理由此产生的不确定性,但仍然可以用于检测给定模型是否受到数据的不良约束,在这种情况下,可以获取更多数据,就像在主动采样方案中一样。

三、在进行不确定性估计时,需要担心什么?

Y.G.在了解了应用程序的约束(以及哪些不确定性工具适用于该任务)之后,选择指标来量化不确定性的建模程度是,下一个最关键的点。任意不确定性可以使用频率统计工具(例如预期校准误差)进行量化,但认知不确定性(固有的主观量)不能。事实上,一个模型可以完美地校准,但会给出毫无意义的认知不确定性,反之亦然。认知不确定性质量的度量包括,例如,选择性分类,其中模型的准确性,仅根据具有最低认知不确定性的预测进行评估(例如,具有高认知不确定性的预测被称为人类标签)。

F.L.在基础物理学中,特别是在宇宙学中,不确定性通常分为两类,统计不确定性和系统不确定性,它们广泛映射到任意不确定性和认知不确定性的概念。系统不确定性是最令人担忧的,因为如果它们没有得到适当的控制,并保持远小于统计不确定性,可能会导致无效的结论。在物理分析中,系统不确定性的控制,远远超出了机器学习文献中关于认知不确定性的通常考虑的范围。神经网络拟合的不确定性,只是一个非常长的分析链中的一个环节,特别涵盖了用于训练网络的训练集中的任何错误或偏差,或者对观察数据的意外应用网络。这些考虑,在物理学中更加提炼和明显,但在深度学习的任何应用中,同样重要(尽管有时被忽视)。

P.K., C.P.贝叶斯推理,需要对维度大于或等于模型参数数量的分布进行采样。采样需要进行大量评估,使得该过程对计算的要求很高,尤其是当基础模型本身的计算成本很高时。开发利用现代超级计算机功能的采样算法,需要特别小心。此外,对来自异构数据源的信息进行准确处理,这可能反映信号的随机性和传感器中的噪声,是需要解决的主要挑战。今天,机器学习模型不容易扩展以解释数据异质性和相关性。最后,对于贝叶斯不确定性量化,虽然从第一原理派生的模型的先验可以很容易地编码先验知识,但对于机器学习模型来说,这样的先验并不容易开发。

Gilles Louppe 在不确定性量化之前,原则性贝叶斯分析的第一步是,确保先验模型和观测模型一起形成充分反映领域知识的数据生成过程。(注意这里的观察模型不要误认为是“神经网络模型”。前者是指感兴趣并想在推理过程中使用的前向物理模型;后者通常用于反转前向生成过程。)观察模型应捕捉真实数据生成过程的相关结构,而应选择先验模型以产生合理的结果,并且可以通过先验预测检查进行诊断。如果在与观察模型结合时会导致与该领域的专业知识不一致的不切实际的结果,则应避免模糊和无信息的先验模型。

模型设置好后,可以通过各种方式进行推理。对于大多数模型,精确推理不是一种选择,必须依赖基于 MCMC 方法或基于模拟的推理的近似(贝叶斯)推理引擎。为了使推论可靠且有意义,必须确保结果在计算上是忠实的(例如,使用覆盖诊断来确保后验既不太保守也不太自信)。

如果使用不当,推理引擎确实,可以产生与人们旨在估计的基本事实后验相距甚远的结果,这可能会产生不利后果。例如,在物理科学中,其目标通常是限制感兴趣的参数,错误地排除合理的值可能会导致科学探究朝着错误的方向发展。出于这些原因,不确定性量化,应始终伴随旨在探测推理方法正确行为的诊断,例如 MCMC诊断或基于模拟的推理中的覆盖诊断。

最后,如果一个模型非常适合,那么应该能够使用,以生成类似于观察到的数据的数据。如果后验预测检查显示观察到的数据不太可能,那么这肯定是模型错误指定的迹象——模型是错误的,无法重现真实数据生成过程的相关结构。因此,推断结果中的模型批评应该用于通知模型的下一次修订。例如,这可以通过合并有害参数来解决系统不确定性。

F.L.在为贝叶斯神经网络等模型提供的认知不确定性赋予含义时,物理学家应该非常小心。尽管这些模型确实是贝叶斯模型,但贝叶斯后验只有在相应的先验本身有意义时才有意义,而在将先验施加于神经网络权重时通常不是这种情况。一种更安全的方法是,使用高认知不确定性作为充分但非必要条件,以检测约束不佳的模型,通常是由于缺乏训练数据。此条件可用于决定在何处对其他训练数据进行采样。

然而,最令人担忧的故障模式,将来自未知的未知数。第一类示例是异常或分布外检测,当数据是高维时,这对于机器学习方法来说,仍然是一项非常具有挑战性的任务。因此,机器学习模型可能并不总能保证将极其科学有趣但罕见且意外的事件识别为新事件。第二类示例是协变量或分布变化,例如,应用网络的观察数据可能受到训练数据中不存在的微妙和意外影响的污染,并且可能无法通过标准检测技巧。由于训练数据不再具有代表性,神经网络模型的响应可能会出现偏差。特别是,标准的宇宙学分析,已经开发了检测此类污染的程序和无效测试,但这些都是基于对数据如何进行经典分析(根据两点相关函数)的理解,这不会直接转移到深度神经网络。

四、将物理知识整合到模型中,是否有助于提高不确定性水平?

Y.G.以不变性的形式,将物理知识整合到模型中,无论是平移或旋转等变、能量守恒或与模拟器集成的混合模型,都会影响模型的预测及其不确定性。例如,不遵循平移不变性的模型,在训练时,例如,对于对象仅出现在图像下半部分的对象检测任务,在给定相同对象出现在上半部分的新示例的情况下,将具有很高的不确定性的图像。然而,一个具有平移不变性的模型,在给定相同的新示例的情况下,将产生与对象出现在图像下半部分的训练示例相同的输出,并且可以自信地这样做。选择在模型中,构建的不变性对应于关于什么构成应该具有高度不确定性的“新示例”的假设。

G.L. 物理知识对推理引擎很有帮助。例如,在基于模拟的深度神经网络推理中,来自物理知识的归纳偏差,可用于大幅减少产生准确结果所需的模拟次数。根据正向过程和感应偏置的功率,效率和准确度的增益可以达到几个数量级。

P.K., C.P.由物理知识和机器学习算法导出的模型的独家开发,并不总是有用或必要的。事实上,这两种方法中间有足够的空间。忽略物理知识等同于忽略大量信息丰富的数据,而避免使用机器学习方法,会限制工具箱开发具有量化不确定性的预测模型。这两种类型的模型可以互补,特别是当人们普遍认识到即使知道物理模型,也可能没有足够的资源来计算它。例如,用机器学习补充物理知识的混合方法,或用物理约束机器学习模型是必不可少的。不确定性量化技术的应用变得更具挑战性,但呈现出前所未有的科学前沿。

F.L.将物理知识与深度学习相结合是,可解释和稳健推理的关键。物理学家的目标,不仅是建立一个可以解释数据的模型,而且还只使用最小的可解释组件和参数集来做到这一点。了解这些模型组件的动机以及其间的因果关系是,物理学的所在。

在许多情况下,当建立一个模型来描述观测数据时,物理学家必须结合没有已知的分析描述或难以从第一原理描述的效应。为此,传统上依赖于简单的经验模型,这些模型通常是临时的,在某些情况下,可能不够复杂,无法准确地模拟观察到的数据,从而导致系统错误。例如,在宇宙学中,对给定质量的暗物质晕中预期存在多少星系进行建模,传统上使用经验晕占据分布进行建模,这是将宇宙学参数与观测到的星系分布联系起来的完整物理正演模型的一个步骤在天空上。

本质上,物理模型中的这些经验成分,只不过是条件分布。随着高效密度估计器和生成模型的兴起,避免对其分析形式做出明确假设成为可能。相反,可以使用神经密度估计器以不可知论和数据驱动的方式在更大的物理模型中对这些组件进行建模。这些神经网络的参数,成为物理概率模型的一部分,并且可以使用诸如变分推理之类的现代技术从数据以及模型参数的其余部分中推断出来。

这种混合模型在物理学中的主要优点是能够保留正向建模方法,具有有意义的因果结构。即使某些组件成为经验和数据驱动的,在更大的模型中,仍然具有特定的含义,并且在这个意义上仍然是可解释的。

文献链接:http://www.nature.com/articles/s42254-022-00498-4

http://www.nature.com/articles/s42254-022-00498-4.pdf

DOI: http://doi.org/10.1038/s42254-022-00498-4

本文译自Nature。