数据中心算力算法（算力智慧MIT教授）

来源：IEEE编辑：小咸鱼 David，今天小编就来聊一聊关于数据中心算力算法?接下来我们就一起去研究一下吧!

数据中心算力算法

来源：IEEE

编辑：小咸鱼 David

【新智元导读】心智的计算理论是一个根深蒂固的理论，我们一般假设智能、思想、认知属于计算的产物。但也许有意识的体验来自某种「自我组织」。也许认知与计算根本没有关系。

长期以来，深度学习和人工神经网络的灵感被很多学者认为是来自人类的大脑。

比如，神经元之间的连接在人工神经网络中，是用节点之间的权重表示的。正值表示兴奋性连接，负值表示抑制性连接。

所有输入都通过权重进行加权并求和（线性组合），然后，通过激活函数控制值域输出。例如，可接受的输出范围通常在0和1之间，也可以在-1和1之间。

在某种意义上，人工神经网络确实粗浅地模仿了大脑底层神经元的活动。

算力「陷阱」

2016年，AlphaGo横空出世，以4:1击败了李世石，技惊四座。但不能忽视的是，DeepMind训练AlphaGo时，大概花费了3500万美元！

后来，DeepMind想训练一个玩《星际争霸II》游戏的模型（后来的AlphaStar），就尝试了非常多的方式构建模型，但最后的训练成本还是太高了。

近年来，在自然语言处理领域又开启了一股「大模型」的热潮。

2018年，谷歌提出3亿参数BERT模型惊艳四座，将自然语言处理推向了一个前所未有的新高度。

紧接着，OpenAI在2019年初推出15亿参数的GPT-2，英伟达推出威震天（Megatron-LM）83亿参数，谷歌T5模型110亿参数，微软图灵Turing-NLG模型170亿参数。

这些模型一次次不断地刷新参数规模的数量级，而2020年GPT-3的出现成为这一数量级的分界线。

GPT-3，1750亿参数，参数规模达到千亿级别，直逼人类神经元的数量，能作诗、聊天、生成代码等等。

就在近日，微软和英伟达联手发布了Megatron-Turing自然语言生成模型(MT-NLG)，5300亿参数，同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

这种对于模型参数和训练算力的极致追求，究竟是通往AGI的「必经之路」，还是大公司强调技术实力的「趋之若鹜」呢？

MIT一项最新的研究可能给出了答案。

计算=认知？No!

人类的认知可能与计算没有任何关系。

心智的计算理论（The Computational Theory of Mind）是一个根深蒂固的理论，从上世纪40年代早期芝加哥的 Warren McCulloch 和 Walter Pitts 的工作开始，后来在MIT，Jerome Lettvin 和 Humberto 也加入对这个问题的研究。

大脑的判断是基于计算，很多人都会这么认为。

但在人类历史的进程中，许多错误理论有时会流行长达数十年之久。

你以为的就是你以为的吗？

比如燃烧的「燃素」理论。从 1667 年起的一个多世纪里，大多数科学家都认为，不同物质之所以能够燃烧，是因为一种常见的物质，这种物质后来被称为「燃素」。

燃素可以通过火消散到空气中。空气吸收燃素的能力是有限的，所以如果只有少量空气可用，火就会熄灭。

直到 19 世纪末，在解释和描述宇宙中可以直接观察的对象的运动规律上，牛顿的经典物理学还占据着统治地位。但到了 20 世纪初，爱因斯坦的理论引发了两次革命，相对论和能量都被量子化了，并产生了新的学科：量子力学。

100 多年后，基于量子力学的成果仍在不断出现，比如量子计算机和量子通信，可能让今天的最先进的数据加密技术变得一文不值。

在过去的 30 年里，人们一直认为阿尔茨海默病的机制是淀粉样蛋白斑块在大脑中的积累，因为观察发现，患阿尔茨海默病的人的大脑中总是有这种斑块。

直到最近，人们才发现，使用降低淀粉样蛋白斑块的药物进行的试验并未缓解阿尔茨海默病的病情。

现在认为，淀粉样斑块是阿尔茨海默病的副作用，而不是病因。过去对阿尔茨海默病病因研究的替代方法投入不够，此类研究经常在同行评议中被视为「非主流」。

长期存在的科学理论可能经常被取代，随着时间的推移，任何特定科学领域的理论，有时都会因为存在根本错误而被淘汰。

意识来源新假说：「自我组织」