杨米尔斯理论到底是什么？从物理学统一史看

大家都知道杨振宁和李政道先生因为“宇称不守恒”的发现斩获了全球华人的第一个诺贝尔奖，然而，对杨振宁关注多一点的人就会经常听到这样一个说法，说宇称不守恒虽然为杨振宁赢得了物理学界至高无上的诺贝尔奖，但这并不是他的最高成就，杨先生最大的贡献是杨-米尔斯理论。

这下子很多人就懵圈了。杨-米尔斯理论是啥？上学的时候老师肯定没讲过，去百度上搜，搜出来结果更是一头雾水，那都是只有懂的人才能看得懂的东西。隐隐约约能感觉到杨振宁先生好像做了什么非常了不起的工作，但是要具体说他做了啥，在科学上有啥意义，就迷糊了。

杨米尔斯理论到底是什么？从物理学统一史看(1)

那杨-米尔斯理论到底重不重要？重要，当然重要，绝对的重要，这是现代规范场论和粒子物理标准模型的基础。想要把它搞清楚，我们得把视角上升到整个物理学发展的高度上来，因为这是一个跟物理学主线密切相关的故事。

01物理学的主线

物理学家到底在研究什么？

大自然中有各种各样的现象，有跟物体运动相关的，有跟声音、光、热相关的，有跟闪电、磁铁相关的，也有跟放射性相关的等等。物理学家们就去研究各种现象背后的规律，然后他们得到了一堆关于运动啊，声学、光学、热学之类的定律，然后物理学家们就满意了么？

当然不满意，为啥？定律太多了！

你想想，如果每一种自然现象都用一种专门的定律来描述它，那得有多少“各自为政”的定律啊。于是物理学家们就想：我能不能用更少的定律来描述更多的现象呢？有没有可能有两种现象表面上看起来毫不相关，但是在更深层次上却可以用同一种理论去描述？有没有可能最终用一套理论来描述所有的已知的事情？

这个事情，本质上就跟秦始皇要统一六国一样，我决不允许还有其他六个各自为政的国家存在，必须让所有人遵守同样的法律，服从同一个政令，用同样的语言和文字，这样才和谐。物理学家的统一之路，也是这样浩浩荡荡地开始的。

牛顿统一了天上和地上的力，麦克斯韦统一了电、磁、光。到了19世纪，随着人们对微观世界研究的深入，许多在宏观上风牛马不相及的东西，在微观层面上却很好的统一了起来。比如我们熟悉的支持力、弹力、摩擦力之类的东西，在宏观上它们确实是不同的东西，但是到了微观一看：这些杂七杂八的力全都是分子间作用力造成的，而分子间作用力本质上就是电磁力。并且，这些分子、原子运动的快慢，在宏观层面上居然体现为温度，然后热现象就变成了一种力学现象。

杨米尔斯理论到底是什么？从物理学统一史看(2)

于是，到了19世纪末，人类所有已知现象背后的力就都归结为引力和电磁力，其中引力由牛顿的万有引力定律描述，电磁力由麦克斯韦方程组描述。但尴尬的是，麦克斯韦方程组和牛顿力学这套框架居然是矛盾的，那么到底是麦克斯韦方程组有问题还是牛顿力学的这套框架有问题呢？

爱因斯坦说麦克斯韦方程组没毛病，牛顿的框架有问题。于是爱因斯坦升级了一下牛顿的这套框架，在新框架下继续跟麦克斯韦方程组愉快的玩耍，这套升级后的新框架就叫狭义相对论。

在狭义相对论这个新框架里，麦克斯韦方程组不用做任何修改就能直接入驻，这是一等公民。另外，牛顿力学里有些东西无法直接搬过来，但是稍微修改一下就可以很愉快的搬到这个新框架里来，比如动量守恒定律（直接用牛顿力学里动量的定义，在狭义相对论里动量是不守恒的，需要修改一下就守恒了），这是二等公民。还有一类东西，无论怎么改都无法让它适应这个新框架，这是刁民。

刁民让人很头痛啊，不过还好，虽然有刁民，但是刁民的数量不多，就一个：引力。牛顿的万有引力定律在牛顿力学那个框架里玩得很愉快，但是它骨头很硬，不管怎么改，它就是宁死不服狭义相对论这个新框架，那要怎么办呢？当然，我们可以继续改，我们相信虽然现在引力它不服，但是以后总能找到让它服气的改法。但是爱因斯坦另辟蹊径，他说引力这小子不服改我就不改了，然后他另外提出了一套新理论来描述引力，相当于单独给引力盖了一栋别墅。结果这套新引力理论极其成功，而且爱因斯坦提出这套新理论的方式跟以往的物理学家们提出新理论的方式完全不一样，这种新手法带来梦幻般的成功惊呆了全世界的物理学家，然后爱因斯坦就被捧上天了，这套新理论就叫广义相对论。

爱因斯坦用广义相对论驯服了引力，用狭义相对论安置好了电磁力之后，接下来的路就很明显了：统一引力和电磁力，就像当年麦克斯韦统一电、磁、光那样，毕竟用一套理论解释所以的物理现象是物理学家们的终极梦想。但是，爱因斯坦穷尽他的后半生都没能统一引力和电磁力。不仅如此，随着实验仪器的进步，人们撬开了原子核，在原子核内部又发现了两种新的力：强力和弱力。

这下可好，不但没能统一引力和电磁力，居然又冒出来两种新的力。所以，我们现在的局面变成了有四种力：引力、电磁力、强力和弱力。其中，引力用广义相对论描述，电磁力用麦克斯韦方程组（量子化之后用量子电动力学QED）描述，强力和弱力都还不知道怎么描述，统一就更别谈了。

到了这里，我们这篇文章的主角杨-米尔斯理论终于要登场了，我先把结论告诉大家：现在强力就是用杨-米尔斯理论描述的，弱力和电磁力现在已经实现了完全的统一，统一之后的电弱力也是用杨-尔斯理论描述的。也就是说，在四种基本力里，除了引力，其它三种力都是用杨-米尔斯理论描述的，所以你说杨-米尔斯理论有多重要？

同时，我们也要知道，杨-米尔斯理论是一套非常基础的理论，它提供了一个非常精妙的模型，但是理论本身并不会告诉你强力和电弱力具体该怎样怎样。盖尔曼他们把杨-米尔斯理论用在强力身上，结合强力各种具体的情况，最后得到的量子色动力学（QCD）才是完整描述强力的理论。格拉肖、温伯格和萨拉姆等人用来统一弱力和电磁力的弱电统一理论跟杨-米尔斯理论之间也是这种关系。他们之间的具体关系我们后面再说，这里先了解这些。

以上就是一部极简的物理学统一史，只有站在这样的高度，我们才能对杨-米尔斯理论有个比较清晰的定位。统一是物理学的主线，是无数物理学家们孜孜以求的目标，杨-米尔斯能在这条主线里占有一席之地，其重要性不言而喻。有了这样的认知，我们才能继续我们下面的故事。

在物理学的统一史里，有一个人的工作至关重要，这个重要倒不是说他提出了多重要的理论（虽然他的理论也极其重要），而是他颠倒了物理学的研究方式。以他为分水岭，物理学家探索世界的方式发生了根本的改变。正是这种改变，让20世纪的物理学家们能够游刃有余的处理比之前复杂得多得多的物理世界，让他们能够大胆的预言各种以前想都不敢想的东西。这种思想也极其深刻的影响了杨振宁先生，杨振宁先生反过来又把这种思想发扬光大，最后产生了精妙绝伦的杨-米尔斯理论。

那么这个人是谁呢？没错，他就是爱因斯坦。那么，爱因斯坦究发现了什么，以至于颠倒了物理学的研究方式呢？

杨米尔斯理论到底是什么？从物理学统一史看(3)

02被颠倒的物理学

大家先想一想，爱因斯坦之前的物理学家是怎么做研究的？

他们去做各种实验，去测量各种数据，然后去研究这些数据里的规律，最后用一组数学公式来“解释”这些数据，如果解释得非常好，他们就认为得到了描述这种现象的物理定律，然后顺带着发现了隐藏在理论里的某些性质，比如某种对称性。在这里我们能清晰的看到实验-理论-对称性这样一条线，这也符合我们通常的理解。

但是，爱因斯坦把这个过程给颠倒了，他发现上面的过程在处理比较简单的问题的时候还行，但是当问题变得比较复杂，当实验不再能提供足够多的数据的时候，按照上面的方式处理问题简直是一种灾难。

比如，牛顿发现万有引力定律的时候，开普勒从第谷观测的海量天文数据里归纳出了行星运动的三大定律，然后牛顿从这里面慢慢猜出了引力和距离的平方反比关系，这个还马马虎虎可以猜出来。我们再来看看牛顿引力理论的升级版-广义相对论的情况：

杨米尔斯理论到底是什么？从物理学统一史看(4)

上图是广义相对论的引力场方程，你告诉我这种复杂的方程要怎样从实验数据里去凑出公式来？况且，广义相对论在我们日常生活里跟牛顿引力的结果几乎一样，第谷观测了那么多天文数据可以让开普勒和牛顿去猜公式，但是在20世纪初有啥数据让你去猜广义相对论？水星近日点进动问题是极少数不符合牛顿引力理论的，但是人们面对这种问题，普遍第一反应是在水星里面还有一颗尚未发现的小行星，而不是用了几百年的牛顿引力有问题。退一万步说，就算你当时认为那是因为牛顿引力不够精确造成的，但是就这样一个数据，你怎么可能从中归纳出广义相对论的场方程？

经过一连串的深度碰壁之后，爱因斯坦意识到当理论变得复杂的时候，试图从实验去归纳出理论的方式是行不通的，洛伦兹不就是被迈克尔逊-莫雷实验牵着鼻子走，最终才错失发现狭义相对论的么？实验不可靠，那么爱因斯坦就要找更加可靠的东西，这个更加可靠的东西就是对称性！

于是爱因斯坦在物理学的研究方式上来了一场哥白尼式的革命：他先通过观察分析找到一个十分可靠的对称性，然后要求新的理论具有这种对称性，从而直接从数学上推导出它的方程，再用实验数据来验证他的理论是否正确。在这里，原来的实验-理论-对称性变成了对称性-理论-实验，对称性从原来理论的副产品变成了决定理论的核心，实验则从原来的归纳理论的基础变成了验证理论的工具。理解这一转变非常的重要，后面的物理学家都是这么干的，我们要先把思路调对，不然到时候就容易出现各种不适应。

爱因斯坦利用这样思路，先确定了广义坐标不变性，然后从这个对称性出发得到了一套新的引力理论，这就是广义相对论。这也是为什么其他科学家看到广义相对论之后一脸懵逼，而且说如果不是爱因斯坦，恐怕50年之内都不会有人发现这套理论的原因。爱因斯坦是第一个这么反过来干的，广义相对论大获成功之后人们才发现原来理论研究还可以这么干，这种思想后来被杨振宁先生发扬光大，并形成了“对称决定相互作用”这样的共识。

爱因斯坦完成广义相对论之后，继续朝着更伟大的目标“统一场论（统一引力和电磁力）”进军，在强力和弱力还没有被发现的年代，能够统一引力和电磁力的理论似乎就是终极理论了。我们现在都知道爱因斯坦终其后半生都未能完成统一场论，但是统一场论的巨大光环和爱因斯坦自带的超级偶像的磁场还是吸引了一些物理学家，也带来了一些有意思的新想法。

03规范不变性

我们再来理一理爱因斯坦的思路：爱因斯坦把对称性放在更加基础的位置，然后从对称性导出新的理论。他从洛伦兹不变性导出了狭义相对论，从广义坐标不变性导出了广义相对论，现在我们试图统一引力和电磁力，那么，有一个问题就会很自然地被提上日程：究竟什么样的一种对称性会导出电磁理论呢？

这个问题很自然吧，但是它的答案却不是那么好找的，这么容易就让你找到导致电磁理论的不变性，上帝岂不是太没面子了？麦克斯韦方程组是从前人的实验经验定律总结出来的，并没有指定什么具体的对称性，那要怎么办呢？

不着急，诺特定理告诉我们对称性跟守恒定律是一一对应的，我现在不是要找导出电磁理论的对称性么？那么我就去看看电磁理论里有什么守恒定律呗，最好还是电磁理论里特有的。

说到电磁理论里特有的守恒定律，那肯定就是电荷守恒啊。电荷肯定是只有电磁学才有的东西，而且电荷守恒定律又是这么明显，不管是不是它，它肯定是嫌疑最大的那个，必须抓起来严刑拷问，看看跟它私通的对称性到底是什么。

杨米尔斯理论到底是什么？从物理学统一史看(5)

在外尔的严刑逼供下，电荷守恒招了：跟电荷守恒相对应的对称性是波函数的相位不变性，（在量子力学里粒子的状态是用波函数来描述的，既然波那肯定就有相位），但是由于历史原因，这个相位不变性我们一直称为规范不变性，也叫规范对称性。

这个相位不变性，或者说规范不变性，我们怎么理解呢？为什么麦克斯韦的电磁理论里会有规范不变性呢？如果从公式里看就非常的简单，就是我给它这里做了一个相位变换，它另一个地方就产生了一个相反的相位，总体上刚好给抵消了；如果从直觉上去感觉，你可以想想，在量子力学里，波函数的模的平方代表在这里发现该粒子的概率，你一个波函数的相位不论怎么变，它的模的平方是不会变的啊。如果你还想继续深挖，我推荐你去看一看格里菲斯的《粒子物理导论》（在公众号回复“粒子物理导论”可以获取这本书的电子版），他在第十章里专门用了一章来讨论规范理论，而且很通俗。

总的来说就是：规范不变性导致电荷守恒。

但是事情还没完，外尔接着发现了一件真正让人吃惊的事：我们上面说规范不变性导致电荷守恒，这里说的规范不变性指的是整体规范不变性，但是外尔发现如果我们要求这个规范不变性是局域的，那么我们就不得不包括电磁场。

泡利针对这个做了进一步的研究，1941年，泡利发表了一篇论文，他在论文里严格的证明了：U（1）群整体规范对称性对应电荷守恒，它的局域规范对称性产生电磁理论，甚至可以直接从它推导出麦克斯韦方程组。U（1）群是群论里的一种群的名字，叫酉群（unitary group），或者幺正群，数字1表示这是1阶酉群，我们现在只需要知道对称性在数学上就是用群论来描述，而且通常不同的理论对应不同的群（这里电磁理论就对应U（1）群）就行了。

杨米尔斯理论到底是什么？从物理学统一史看(6)

也就是说，我们现在终于找到了决定电磁理论的对称性，它就是U（1）群的局域规范对称性。U（1）群和规范对称我前面都解释了，那么问题的关键就落在对称性的整体和局域的区别上了。

04整体对称和局域对称

整体对称，顾名思义，如果一个物体所有的部分都按照一个步调变换，那么这种变换就是整体的。打个比方，舞台上所有的演员都同步地向前、向后走，或者全都做同样的动作，观众看着演员都整整齐齐的，觉得所有人都像是一个人的复制品一样，这样的变换就是整体的。如果经过这样一种整体的变换之后，它还能保持某种不变性，我们就说它具有整体对称性。

有了整体对称的概念，局域对称就好理解了，类比一下，如果一个物体不同的部分按照不同的步调变换，那么这种变换就是局域的。还是以舞台为例，导演为了使表演更具有个性，他想让演员表现出波浪的样子，或者是千手观音那样，再或者是形成各种不断变化的图案，这种时候每个人的动作变换就不一样了吧，也不会说所有人都像一个人的复制品一样了，这时候这种变换就是局域的。因为它不再是所有的人按照一个规则变换，而是局部的每个人都有他局域特有的变换规则。同样的，如果经过这样一种局域的变换之后，它还能保持某种不变性，我们就说它具有局域对称性。

从上面的情况我们看出来，整体变换要简单一些，所有的地方都按照同样的规则变换，而局域变换就复杂多了，不同的地方按照不同的规则变换。所以，很明显，如果你要求一套理论具有某种局域对称，这比要求它具有整体对称复杂得多，局域变换对物理定律形式的要求就更加严格一些。但是，你一旦让它满足局域对称了，它能给你的回报也会多得多。

还是电磁理论的例子：整体规范对称性下我们只能得到电荷守恒，但是一旦要求它具有局域规范对称性，整个电磁理论，甚至麦克斯韦方程组都直接得到了。电荷守恒和麦克斯韦方程组，这就是整体对称和局域对称给的不同回报，孰轻孰重差别很明显吧？电荷守恒是可以直接从麦克斯韦方程组里推导出来的。

以上是偏科普的解释，从数学的角度来说，整体变换就是你所有的变换跟时空坐标无关，局域变换就是你的变换是一个跟时空坐标相关的函数。跟时空坐标相关的函数，其实就是说不同的时空点，这个函数值是不一样的，也就是说变换不一样。

不管从哪种解释（从数学更容易），我们其实都可以看出：整体变换其实只是局域变换的一种特例。局域变换里变的是一个跟时空坐标相关的函数，但是这个函数的值也可以是一个定值啊，这时候局域变换就退化成整体变换了。

那么，一个大胆的想法就产生了：在电磁理论里，整体规范对称性对应着电荷守恒，但是我一旦要求这个整体规范对称性在局域下也成立，我立马就得到了整个电磁理论。那么我可不可以把这种思想推广到其他领域呢？比如强力、弱力，有没有可能同样要求某种整体对称性在局域成立，然后可以直接产生强力、弱力的相关理论呢？

这是一个十分诱人的想法，杨振宁从他读研究生的时候就在开始琢磨这个事，但是一直到十几年后的1954年，也就是他32岁的时候才有结果，这个结果就是大名鼎鼎的非阿贝尔规范场论，也叫杨-米尔斯理论。

05 对称性的推广

我们把眼光再拉回20世纪四五十年代，这时候人们已经知道自然界除了电磁力和引力之外还有强力和弱力，强力把质子和中子黏在一起（不然质子都带正电，同性相斥早就把原子核拆了），弱力在原子核衰变的时候发挥作用（比如中子衰变变成质子、电子和反中微子的β衰变）。但是那时候对强力和弱力的认识都还非常的肤浅，汤川秀树的介子理论、费米的四费米子理论都能只能解释强力、弱力的一些现象，还有大把的问题他们没法解决，谁都知道这些理论只是关于强力、弱力的一个过渡理论，最后肯定要被更加精确的理论取代，但是该怎样去寻找更加精确的理论，大家心里也都没谱，没有一个十分清晰的思路。

杨米尔斯理论到底是什么？从物理学统一史看(7)

但是杨振宁先生那时候的思路确是很清晰的：他对理论的美学要求是跟爱因斯坦一样苛刻的，因此，任何只是试图粗糙、唯象的模拟强力、弱力的理论他都懒得搭理（就跟爱因斯坦嫌弃它们长得丑一样）。然后，加上数学大牛的父亲和恩师吴大猷的悉心栽培，杨振宁那先生对数学的群论、物理学的对称性都有非常深刻的理解，所以他就特别理解外尔那种想法的重要性。所以，他要不惜一切代价的扩展它。

外尔发现U（1）群整体规范对称性对应电荷守恒，但是，一旦我把这个整体对称性推广到局域，我就可以直接得到整个电磁理论。这种想法对物理学上有“洁癖”的杨振宁来说，吸引力实在是太大了，因为它实在是太美太简洁，给出的回报也太丰厚。如果我在强力、弱力里通过把某种规范对称性从整体推广到局域，是不是也可以得到关于强力、弱力的理论呢？

我们从事后诸葛亮的角度看，好像这一切都显得很自然，好像只要是物理学家都应该想到这个。但其实不然，且不说当爱因斯坦在搞统一场论的时候，他就已经被所谓的主流物理学界给边缘化了，外尔跟着爱因斯坦搞统一场论时提出的这种想法跟着被边缘化是很正常的事情。物理学家们每天都要产生各种各样的想法，这些想法哪些可靠，哪些值得考虑，哪些值得自己深入研究，哪些东西值得自己不顾一切的去守护，这原本就是一个极困难的问题，也是非常考验物理学家水平的事情。

在当时更多物理学家的眼里，外尔这样的手法可能确实很漂亮，但有点“绣花枕头”的嫌疑：麦克斯韦方程组我们早就知道了，狄拉克、费曼等人也已经成功的把电磁场量子化了（就是所谓的量子电动力学），你在电磁领域这样颠来倒去好像确实很漂亮，但是没有增加任何知识啊？好吧，就算你的这个东西可能更普适，可能在强力、弱力里也有用武之地，但是在当时主流的描述强力和弱力的理论（也就是汤川秀树的介子理论和费米的四费米子理论）里，也看不到合适的用武的地方。而且，一般物理学家对“对称决定相互作用”的认识还远远没有达到爱因斯坦和杨振宁的水平，所以他们不怎么关注这个也是自然的。

所以，当时除了杨振宁、泡利、外尔等寥寥几人关注这个以外，其他人对此根本就不关心。而在这些关注的人里，杨振宁又无疑是其中对此关注度最高的一个，毕竟本科论文就是做的这个，后来给他带来诺贝尔奖的宇称不守恒也是关于对称性的，他一直对对称性在物理学里的作用保持极高的关注度。

既然想推广外尔的思想，试图通过找到某种新的局域规范对称性来找到强力、弱力的理论，那么关键就是要找到这种对称性。但是怎么找这种对称性呢？当然还是按照诺特定理，去看看强力、弱力里有什么守恒定律呗，最好还是像电荷守恒那样，在那种相互作用力特有的。

06同位旋

杨振宁通过一番审查，发现弱相互作用里暂时没有什么特殊的守恒定律，但是强相互作用力里却有一个现成的：同位旋守恒。而且这个同位旋守恒还只在强相互作用下守恒，在其它作用下不一定守恒，这不刚好么。

同位旋是啥呢？大家只要看一下质子（1.6726231 × 10^-27千克）和中子（1.6749286 ×10^-27千克）的质量，就会发现它们的质量实在是太接近了（差别在千分之一）。而且，人们还发现2个质子、1个质子1个中子、2个中子之间的强相互作用几乎是相同的，也就是说，如果我们不考虑电磁作用，在强相互作用的眼里，质子和中子完全是相同的。

杨米尔斯理论到底是什么？从物理学统一史看(8)

于是，海森堡就来了提出了一个大胆的想法：他认为质子和中子压根就是同一种粒子-核子的两种不同的状态，它们共同组成了一个同位旋二重态。在抽象的同位旋空间里，质子可以“旋转”成为中子，中子也可以“旋转”成为质子，因为质子和中子在强相互作用下是一样的，所以，我们就可以说：强相互作用具有同位旋空间下的旋转不变性。

大家可能注意到我上面的“旋转”打了一个引号，因为我们这里说的旋转并不是在我们常说的真实空间里，而是在核子内部抽象出来的同位旋空间，因此这种对称性又叫内部对称性，而之前我们谈的各种跟时空有关的对称性就叫外部对称性。内部对称性咋一看好像不那么真实，但其实它跟外部对称是一样真实自然的，它们一样对应着守恒定律，强相互作用下同位旋空间里的这种旋转不变性就对应同位旋守恒。

关于同位旋的事情这里就不再多说了，大家只要知道在强相互作用里同位旋是守恒的，并且同位旋空间下质子和中子可以相互旋转得到就行了。

因为描述对称性的数学语言是群论，与同位旋这种对称相对应的群叫SU（2）（特殊幺正群），里面的数字2提醒我们这是两个物体（如质子和中子）相互变换来确定的。我们也先甭管这个SU（2）群到底是什么意思（这是群论的基础知识，感兴趣的自己看群论），只需要知道这个群可以描述两个物体相互变换的这种对称性，跟电磁理论里用U（1）群来描述电磁理论里的对称性一样的就行了。

外尔和泡利发现，只要我们要求系统具有U（1）群的局域规范不变性，我们就能从中推导出全部的电磁理论。那么，杨振宁如果认为强力的本质由质子和中子相互作用产生，那么推广前面的思想，我们就应该要求系统具有SU（2）群的局域规范不变性。

好吧，要推广那就推广吧，不就是把局域规范不变性从U（1）群推广到SU（2）群么，有些人认为科学家们风风雨雨什么没见过，把一个东西从U（1）群推广到SU（2）群应该没什么难度吧？那你就错了，这玩意还真不是这么简单的，广义相对论也不过是把狭义相对论里的洛伦兹不变性推广到了广义坐标不变性，你觉得这个简单么？

U（1）群的问题之所以比较简单，是因为跟U（1）群对应的电磁理论它本身就具有局域规范对称性。也就是说，当我们的麦克斯韦同学写下麦克斯韦方程组的时候，他就已经把U（1）群的局域规范对称性写到这方程里去了，虽然他自己没有意识到。熟悉电磁理论的人都知道其实我们有两套表述电磁场的体系，一套就是我们初中就开始学习的场强体系，还有一套势体系，也就是电磁势这些东西，从这个角度很容易就能看出它的规范不变性。

但是SU（2）这里一切都是空白，没有电磁势这样的东西。杨振宁先生想做的就是要找到类似电磁势这种具有局域规范不变性的东西，然后利用他们来描述强力，所谓的推广是这个样子的一种推广。在这种推广里，最困难的地方就在这四个字：非阿贝尔。

07非阿贝尔群

在前面我跟大家提过，杨-米尔斯理论又叫非阿贝尔规范场论，这个阿贝尔指的是阿贝尔群（以挪威的天才数学家阿贝尔命名），它又叫交换群，通俗的讲就是这个群里的运算是满足交换律的。

杨米尔斯理论到底是什么？从物理学统一史看(9)

最简单的例子就是整数的加法，小学生都知道加法满足交换律：3 5=5 3，不论你加数的顺序怎么交换，最后的结果都不变。于是，我们就说整数和整数的加法构成了一个整数加法群，这个群的运算（加法）是满足交换律的，所以这个整数加法群就是阿贝尔群。

那么，非阿贝尔群自然就是指群的运算不满足交换律的群。那么，不满足交换律的运算有没有呢？当然有了，最常见的就是矩阵的乘法。稍微有点线性代数基础的人都知道：两个矩阵相乘，交换两个矩阵的位置之后得到的结果是不一样的。而矩阵这种东西在数学、物理学里是非常基础的东西，比如你对一个物体进行旋转操作，最后都可以转化为物体跟一个旋转矩阵的运算，这样非阿贝尔其实就没啥奇怪的了。

这里我借用一下徐一鸿在《可畏的对称》（强烈安利这本书，需要的在公众号里回复“可畏的对称”即可）里的一个例子让大家感受一下这种不可交换的次序，也就是非阿贝尔的感觉。

杨米尔斯理论到底是什么？从物理学统一史看(10)

上图是一个新兵，他现在要执行两个操作，一个是顺时针旋转90°（从上往下看），一个是向右倒（其实就是从外往里看顺时针旋转90°）。上面的a图是先旋转再右倒，而下面的b图则是先右倒再旋转，我们可以清楚的看到，最后这两个人的状态是完全不一样的（一个左侧对着你，一个头对着你）。

状态不一样说明什么呢？说明这两个旋转操作如果改变先后次序的话，得到的结果是不一样的，而这两个旋转操作都可以通过跟两个矩阵相乘得到，这说矩阵的乘法是不能随意交换顺序的。

好了，有了这些概念，我们再回到杨振宁先生的问题上来。

08杨-米尔斯理论

外尔把U（1）群的整体规范对称性推广到了局域，因为U（1）群（1×1矩阵）是阿贝尔群，所以这个过程很简单；杨振宁试图把SU（2）群的整体规范对称也推广到局域，但SU（2）群（2×2矩阵）是非阿贝尔群，这个就麻烦了。

我们知道杨振宁先生的数学水平在物理学家群体里是非常高的，他的父亲杨武之就是群论大师，他自己也很早就进入了对称性领域。饶是如此，他从泡利1941年的论文开始，前前后后过了十几年，一直到1954年，他才和米尔斯（当时和杨振宁先生在同一间办公室，是克劳尔教授的博士研究生）一起写出了划时代的论文《同位旋守恒和同位旋规范不变性》和《同位旋守恒和一个推广的规范不变性》。

杨米尔斯理论到底是什么？从物理学统一史看(11)

上图便是1954年杨振宁和米尔斯在《物理评论》上发表的第一篇论文截图。

这两篇论文正式宣告了杨-米尔斯理论的诞生，杨振宁先生终于把局域规范对称的思想从阿贝尔群推广到了更一般的非阿贝尔群（阿贝尔群的电磁理论成了它的一个特例），从而使得这种精妙的规范对称可以在电磁理论之外的天地大展拳脚，也使得他一直坚持的“对称决定相互作用”有了落脚之地。为了区别起见，我们把外尔的那一套理论成为阿贝尔规范场论，把杨振宁和米尔斯提出来的称为非阿贝尔规范场论，或者直接叫杨-米尔斯理论。

杨-米尔斯理论给我们提供了一个精确的数学框架，在这个框架里，只要选择了某种对称性（对应数学上的一个群），或者说你只要确定了某个群，后面的相互作用几乎就被完全确定了，它的规范玻色子的数目也完全被确定了。这就是为什么后来大家能直接从强力和弱电理论里预言那么多还未被发现的粒子的原因。

杨米尔斯理论到底是什么？从物理学统一史看(12)

什么是规范玻色子？科学家们按照自旋把基本粒子分成了费米子（自旋为半整数）和玻色子（自旋为整数），其中费米子是组成我们基本物质的粒子，比如电子、夸克，而玻色子是传递作用力的粒子，比如光子、胶子。有些人可能是第一次听说传递作用力的粒子这种说法，会感觉非常奇怪，怎么作用力还用粒子传递？

没错，在量子场论里，每一种作用力都有专门传递作用力的粒子。比如传递电磁力的是光子，传递强力的是胶子，传递弱力的是W和Z玻色子，传递引力的是引力子（不过引力子还没有找到）。两个同性电子之间为什么会相互排斥呢？因为这两个电子之间在不停的发射交换光子，然后看起来就像在相互排斥，这就跟两个人在溜冰场上互相抛篮球然后都向后退一样的道理。那么相互吸引就是朝相反的方向发射光子了，其他的力也都是一样，这些传递相互作用的玻色子在规范场里都统统被称为规范玻色子。

也就是说，在杨-米尔斯理论里，那些传递相互作用的粒子都叫规范玻色子，每一个群都有跟他对应的规范玻色子，只要你把这个群确定了，这些规范玻色子的性质就完全确定了。比如在U（1）群里，规范玻色子就只有一个，那就是光子；在SU（3）群里，理论计算它的规范玻色子不多不少就是8个，然后实验物理学家就根据这个去找，然后真的就找到了8种胶子。以前是实验物理学家发现了新粒子，理论物理学家要琢磨着怎么去解释，现在是理论物理学家预测粒子，实验物理学家再去找，爱因斯坦颠倒研究物理的方法现在终于从蹊径成了主流。

09从杨-米尔斯理论到标准模型

杨-米尔斯理论从数学上确定了“对称决定相互作用”，那么我们接下来的问题就是“什么样的对称决定什么样的相互作用”了。比如，我现在要描述强力，那么强力到底是由什么对称决定的呢？

有些人可能觉得奇怪，你上面不是说了一大片同位旋守恒么，杨振宁先生不就是看到同位旋守恒和电荷守恒的相似性才最终提出了杨-米尔斯理论么，为什么现在还要来问强力是什么对称决定的，难道不是同位旋么？

没错，还真不是同位旋！

海森堡从质子和中子的质量相近提出了同位旋的概念，同位旋守恒确实也只在强力中成立，但是大家不要忘了质子和中子的质量只是接近，并不是相等。杨-米尔斯理论里的对称是一种精确对称，不是你质子和中子的这种近似相等，当时的科学家们把质子和中子的微小质量差别寄希望于电磁污染，但事实并非如此。所以，当杨振宁试图用质子中子同位旋对称对应的SU（2）群作为强力的对称群的时候，得到的结果肯定跟实际情况不会相符的。

但是，我们要注意到当时才1954年，人们对强力的认识还太少了，后来我们知道真正决定强力的精确对称是夸克的色对称，与之对应的群是SU（3）群，所以我们把最终描述强力的理论称之为量子色动力学（QCD）。但是，夸克这个概念要到1964年才由盖尔曼、茨威格提出来，所以杨振宁在1954年就算想破脑袋也不可能想到强力是由夸克的色对称决定的。

夸克有六种（上夸克、下夸克、奇夸克、粲夸克、底夸克、顶夸克），每一种夸克也称为一味，质子和中子之间的微小质量差异是就是因为上夸克和下夸克的质量不同。另外，每一味夸克都有三种色（红、绿、蓝），比如上夸克就有红上夸克、绿上夸克和蓝上夸克，这不同色的同种夸克之间质量是完全相等的，这是一种完全精确的对称，这种色对称最后决定了强相互作用。

杨米尔斯理论到底是什么？从物理学统一史看(13)

一旦建立了这种夸克模型，并且意识到夸克色对称这种精确对称对应SU（3）群，那么接下来利用杨-米尔斯理论去构造描述强力的理论就是非常简单的事情，基本上就是带公式套现成的事。所以，成功描述强力的量子色动力学的核心就是夸克模型 杨-米尔斯理论。

在弱力这边情况也是类似的，你要想找到描述弱力的理论，那就先去找到决定弱力的精确对称和相应的群，然后直接按照杨-米尔斯理论来就行了。但是，弱力这边的情况稍微复杂一点，科学家们没找到什么弱力里特有的精确对称，但是他们发现，如果我把弱力和电磁力统一起来考虑，考虑统一的电弱力，我倒是能发现这种精确对称。于是，他们索性不去单独建立描述弱力的理论了，转而直接去建立统一弱力和电磁力的弱电统一理论。而最后在弱电相互作用中真正起作用的是（弱）同位旋——超荷这个东西，他们对应的群是SU（2）×U（1）（×表示两个群的直积）。

描述强力的量子色动力学和描述电磁力和弱力的弱电统一理论一起构成了所谓的粒子物理标准模型，于是我们可以在杨-米尔斯理论这同一个框架下描述电磁力、强力和弱力，这是物理学的伟大胜利。同时，我们也要清楚的知道，杨-米尔斯理论不等于标准模型（没有夸克模型你拿着理论也不知道怎么用），它是一个数学框架，是一把神兵利器，它本身并不产生具体的理论知识，但是一旦你把它用在合适的地方，它就能给你带来超出想象的回报（想想我们50年代末还对强力弱力束手无策，但是70年代末就完全驯服了它们）。

10不得不说的质量问题

标准模型的建立是另一个非常宏大的故事，这里就不多说了，这里谈一个不得不说的问题：质量问题。

在上面我们知道了费米子是组成物质的粒子，玻色子是传递相互作用力的粒子。比如两个电子之间通过交换光子来传递电磁力，两个夸克通过交换胶子来传递强力，那么光子和胶子就分别是传递电磁力和强力的规范玻色子。但是，大家有没有考虑过玻色子的质量问题？如果传递相互作用力的玻色子质量过大或者过小会咋样？

杨米尔斯理论到底是什么？从物理学统一史看(14)

还是以溜冰场传球为例，假设两个人站在溜冰场上相互传篮球，那么一开始他们会因为篮球的冲力而后退（这就是斥力的表现），从而把距离拉开，但是他们会一直这样慢慢后退下去么？当然不会！当两人之间的距离足够远的时候，你投篮球根本就投不到我这里来了，那我就不会后退了。再想一下，如果你投的不是篮球而是铅球那会怎样？那可能我们还在很近的时候，你的铅球就投不到我这里来了。

在溜冰场的模型里，球就是传递作用力的玻色子，你无法接到球就意味着这个力无法传到你这里来，就是说它的力程是有限的。从篮球和铅球的对比中我们也能清楚的知道：玻色子的质量越大，力程越短，质量越小，力程越长，如果玻色子的质量为零，那么这个力程就是无限远的。

所以，为什么电磁力是长程力，能传播很远呢？因为传递电磁力的光子没有质量。但是我们也清楚的知道，强力和弱力都仅仅局限在原子核里，也就是说强力、弱力都是短程力，所以，按照我们上面的分析，那么传递强力和弱力的玻色子似乎应该是有质量的，有质量才能对应短程力嘛。

但是，杨振宁在研究规范场的时候，他发现要使得系统具有局域规范不变性，那么传递作用力的规范玻色子的质量就必须为零。也就是说，规范玻色子如果有质量，它就会破坏局域规范对称性。

为什么局域规范对称性要求玻色子的质量必须为零呢？你可以这样想，什么叫局域规范对称？那就是不同的地方在做着不同的变换，既然不同的地方变换是不一样的，那么肯定就必须有个中间的信使来传递这种状态，这样大家才能协调工作，不然你跳你的我跳我的岂不是乱了套？好，既然这个信使要在不同地方（也可能是两个非常远的地方）传递状态，按照上面的分析，它是不是应该零质量？只有质量为零才能跑的远嘛~

所以，这样分析之后，我们就会发现局域规范对称性和规范玻色子零质量之间的对应关系是非常自然的。但是，这样就造成了现在的困境：局域规范对称性要求规范玻色子是零质量的，但是强力、弱力的短程力事实似乎要求对应的规范玻色子必须是有质量的，怎么办？

这个问题不仅困扰着杨振宁，它也同样困扰着泡利（其实当时对规范场感兴趣的也就他们寥寥几个）。泡利开始对规范场的事情也很感兴趣（杨振宁就是读了泡利1941年的那篇论文才开始对规范场感兴趣的），但是当泡利发现了这个似乎无解的质量问题之后，他就慢慢对规范场失去了兴趣，也就没能得出最后的方程。

杨振宁的情况稍微不一样，他的数学功底非常好，对群论的深入理解能够让他更深刻的理解对称性的问题（想想那会儿物理学家都不待见群论，泡利还带头把群论称为群祸）。另外，在美学思想上，杨振宁是爱因斯坦的铁杆粉丝，他们都是“对称决定相互作用”坚定支持者，这使得杨振宁对规范场产生了谜之喜爱。而且，杨振宁那会儿才30岁左右，是科学家精力和创造力的巅峰时期，自然无所畏惧。

所以，杨振宁一直在疯狂地寻找杨-米尔斯方程，找到方程之后，即便知道有尚未解决的质量问题，他依然决定发表他的论文。在他眼里，这个方程，这套理论是他心里“对称决定相互作用”的完美代表，他跟爱因斯坦一样深信上帝喜欢简洁和美，深信上帝的简单和美是由精确对称决定的。如果是这样，那么还有什么比基于规范不变性这种深刻对称的杨-米尔斯理论更能描绘上帝的思想呢？

杨振宁对对称性的深刻理解使得他对杨-米尔斯理论有非常强的信心，至于强力、弱力上表现出来的质量问题，那不过是这个理论在应用层面出现了一些问题。强力、弱力比电磁力复杂很多，因此用杨-米尔斯理论来解释强力、弱力自然就不会像处理电磁力那样简单。为什么电磁力这么简单？你想想，电子有电效应，电子的运动产生磁效应，电子之间的相互作用是通过光子这个规范玻色子传递的，所以电磁力的本质就是电子和光子的相互作用。这里只有一个粒子电子，和一个规范玻色子光子，而且光子还是没有质量的，你再看看强力里面，三种色夸克，八种不同的胶子，这铁定比电磁力复杂多了啊！

杨米尔斯理论到底是什么？从物理学统一史看(15)

所以，杨振宁想的是：杨-米尔斯理论没问题，现在它应用在强力弱力上出现了一些问题（质量问题就是初期最大的一个），这也是自然的。这些是问题，而非错误，以后随着人们研究的深入，这些问题应该可以慢慢得到解决的。

历史的发展确实是这样，质量问题后来都通过一些其他的手段得到了解决，那么质量问题最终是怎么解决的呢？

在描述强力的量子色动力学里，我们注意到传递夸克间作用力的胶子本来就是零质量的，零质量跟规范对称性是相容的。那但是，如果这样的话，零质量的玻色子应该对应长程力啊，为什么强力是短程力（只在原子核里有效）呢？这就涉及到了强力里特有的一种性质：渐近自由。渐近自由说夸克之间的距离很远的时候，它们之间的作用力非常大，一副谁也不能把它们分开的架势，但是一旦真的让它们在一起了，距离很近了，它们之间的相互作用力就变得非常弱了，好像对面这个夸克跟它没任何关系似的，活脱脱的一对夸克小情侣。这样在量子色动力学里，零质量的规范玻色子就和强力的短程力没有冲突了。

渐近自由解释了为什么胶子是零质量但是强力确是短程力，那么传递弱力的W和Z玻色子可是有质量的。有质量的话短程力是好解释了，但是我们上面说有质量的规范玻色子会破坏规范对称性，这规范对称性可是杨-米尔斯理论的根基啊，它被破坏了那还怎么玩？

最后解决这个问题的是希格斯机制。希格斯机制是来打圆场的：你杨-米尔斯理论要求规范玻色子是零质量的，但是最后我们测量到W和Z玻色子是有质量的，怎么办呢？简单，我认为W和Z这些传递弱力的规范玻色子一出生的时候是零质量的，但是它来到这个世界之后慢慢由于某种原因获得了质量，也就是说它们的质量不是天生的而是后天赋予的，这样就既不与杨-米尔斯理论相冲突，也不跟实际测量相冲突了。

所以，希格斯机制其实就是赋予粒子质量的机制。它认为我们的宇宙中到处都充满了希格斯场，粒子如果不跟希格斯场发生作用，它的质量就是零（比如光子、胶子），如果粒子跟希格斯场发生作用，那么它就有质量，发生的作用越强，得到的质量就越大（需要说明的是，并不是所有的质量都来自于粒子和希格斯场的相互作用，还有一部分来自粒子间的相互作用）。2012年7月，科学家终于在大型强子对撞机（LHC）中找到了希格斯粒子，为这段故事画上了一个圆满的句号，也理所当然地预约了2013年的诺贝尔物理学奖。

杨米尔斯理论到底是什么？从物理学统一史看(16)

这样杨-米尔斯理论就可以完整的描述强力、弱力和电磁力了，在霍夫特完成了非阿贝尔规范场的重整化（重整化简单的说就是让理论能算出有意义的数值，而不是无穷大这种没意义的结果，这是点粒子模型经常会出现的问题。举个最简单的例子，我们都知道电荷越近，它们之间的电磁力越大，那么当电荷的距离趋近于零的时候，难道电磁力要变成无穷大么？这个当做思考题~）之后，粒子物理标准模型就正式投产商用。

11结语

至此，我们关于杨-米尔斯理论的故事就告一段落了，相信能坚持看到这里的人对杨-米尔斯理论应该都有了个大致的了解，对它的作用和意义也会有自己的判断。

杨-米尔斯理论涉及的东西实在是太多了，对称性、规范场、非阿贝尔群、标准模型，这些东西对于许多非物理专业的同学来说实在是太陌生了，甚至从来都没听说过。即便对于物理系的学生，杨-米尔斯理论也是要到研究生阶段才接触的东西。因此，要把这么复杂，牵扯面这么广的东西用中学生能懂的语言科普出来，其中难度可想而知。许多公式和术语跑到嘴边又被我逼回去了，特别要在不涉及分析力学和作用量的前提下讲杨-米尔斯理论，差点没给我逼出内伤~

之所以执意用这么通俗的语言讲杨-米尔斯理论，主要就是想让更多人更加客观的理解杨振宁先生的工作，很多事情如果彻底搞清楚了，就会省去很多无意义的争论。

物理学家并不是擂台上的拳击手，他们一起通力合作构建我们现在恢弘的物理大厦。没有开普特和伽利略的奠基，不可能有牛顿的力学体系；没有法拉第工作，不可能有麦克斯韦的电磁大厦；狭义相对论在20世纪初已经是水到渠成呼之欲出了，爱因斯坦也只不过是捷足先登了而已。而且，除了广义相对论确实是爱因斯坦的独门独创，好像还真没有哪个东西说是非谁不可的。没有牛顿，我估计胡克和哈雷也快找到万有引力定律了，洛伦兹和彭加莱已经一只脚跨入狭义相对论的大门了，有没有爱因斯坦狭义相对论差不多都该出现了。

我这么说并不是要否定牛顿和爱因斯坦他们的功绩，能抢在同时代最杰出的头脑之前发现那些理论，这本身就是科学家的能力体现。我只是想建议大家不要总把注意力放在“谁或者谁更伟大，谁比谁更厉害”这种很虚的东西上面，而更多的把注意力放在这些科学家工作本身上去，这些才是全人类共同的宝贵财富。大家的时间都很宝贵，我们就尽量把时间都花在刀刃上去，科学家最宝贵是他们的科学思想。

杨振宁先生是我们国宝级的科学家，杨-米尔斯理论是他工作里目前已知的最为璀璨的明珠（鉴于杨振宁先生工作的基础性和前瞻性，他有很多理论刚提出来的时候不被重视，过了几十年之后却发现它极为重要，所以我不确定以后是否会出现比杨-米尔斯理论更重要的东西）。

诺特发现了对称性和守恒律之间的关系，打开了现代物理对称性的大门。

爱因斯坦敏锐而深刻的意识到了这点，然后以雷霆之势将它应用在相对论上，取得的巨大成功把当时其他的科学家惊得目瞪口呆。但是这个套路爱因斯坦熟悉，其他人不熟啊，况且在量子革命的时代，爱因斯坦是那帮量子革命家的“反面教材”，波尔才是他们的教皇，所以人家也不屑于跟你玩。

杨振宁可以说是爱因斯坦的嫡系弟子，如果说爱因斯坦对对称性是偏爱的话，那么杨振宁对对称性就是情有独钟了。他充分吸收了爱因斯坦的对称思想，并且把它发扬光大，再吸收了外尔的规范对称的思想，最后创造了集大成的杨-米尔斯理论。杨-米尔斯理论出来以后，对称性就不再是一个人的玩具了，杨振宁通过这个理论把对称性这种高大上的精英产品一下子变成了谁都可以玩的平民玩具，他把如何释放对称性里蕴藏能量的方式给标准化、工具化、流水化了。从此，“对称决定相互作用”就不再是一句标语，而成了物理学家们的共识和最基本的指导思想，这极大的释放了物理学家的生产力，为后来快速构建标准模型奠定了基础。

这一块是大家在谈论杨振宁先生的工作，谈论杨-米尔斯理论的时候最容易忽略的一块，如果你不能认识到对称性在现代物理里的重要性，不能认识到杨振宁先生和杨-米尔斯理论在对称性问题上的作用，那么你对杨先生工作的理解是非常片面的，甚至错失了他最精华的部分。希格斯机制、渐近自由、夸克禁闭、自发对称破缺、规范场的重整化，这些从杨-米尔斯理论到标准模型之间众多精彩纷呈的故事似乎更适合说书，但是，大家要记住对称性才是现代物理的核心。

杨米尔斯理论到底是什么？从物理学统一史看(17)

来源：长尾科技

杨米尔斯理论到底是什么？从物理学统一史看

最新推荐

热门推荐