·算力用于加工数据,就像炒麻婆豆腐,数据相当于原材料,算力相当于旺火,算法相当于菜谱,加工出来的麻婆豆腐就是模型。模型可应用于各行各业,提高数字化水平。产业互联网时代,算力变成广泛需求,算力汇集才能实现普适性的效用。
·算力基础设施要解决两个核心问题,一是标准化,二是算力使用的抽象化,但目前技术层面远没做到。布局东数西算、大数据枢纽是建设算力基础设施的第一步,把算力资源集约化,提高利用率,降低建设成本。
1961年,美国科学家约翰·麦卡锡提出,算力应该像水电资源一样随用随取。时至今日,算力基础设施化这一设想依旧面临诸多核心技术挑战。
中国工程院院士、中国科学院计算技术研究所学术委员会主任孙凝晖日前在接受澎湃科技(www.thepaper.cn)专访时表示,算力基础设施要解决两个核心问题,一是标准化,二是算力使用的抽象化,但目前技术层面远远没有做到。布局东数西算、大数据枢纽是建设算力基础设施的第一步,把算力资源集约化、集中化,提高利用率,降低建设成本。
高性能计算是利用超级计算机实现并行计算的理论、方法、技术以及应用的一门技术科学。孙凝晖主要从事高性能计算机研究,其主持研制的曙光高性能计算机打破中国国外产品对中国高性能计算机市场的垄断并成为中国国内市场主流产品,为国家信息安全、宇航事业、新兴生物产业等做出重要贡献。
“算力用于加工数据,就像炒麻婆豆腐,数据相当于原材料,算力相当于旺火,算法相当于菜谱,加工出来的麻婆豆腐就是模型。模型可应用于各行各业,提高数字化水平。”孙凝晖表示,产业互联网时代,算力变成广泛需求,算力汇集才能实现普适性的效用,降低产业互联网成本。未来,算力网将解决云联网,模型网将解决算法联网。
高性能计算是一种高级算力,从传统的工程计算、桥梁设计、材料设计,到新势力造车、生物制药,超算应用越来越普及,元宇宙带有智能需求,对超算算力需求旺盛。但在高性能计算应用上,“我们和发达国家仍有差距,因为这对人才的素质要求和数量要求更高。”
智能时代对人才的需求量比互联网时代更大,尤其是超算应用人才需要掌握至少两个学科的知识,既要懂高级的计算机编程知识,又要掌握跨领域的学科知识,培养时间长、难度大。孙凝晖表示,一方面要培养信息技术人才,各个高校、学科的学生都要学一些信息技术、建模方法和智能计算思维。另一方面,要通过基础设施化降低智能建模的门槛。两边一使劲,才能真正破解人才问题。
以下是澎湃科技与中国工程院院士、中国科学院计算技术研究所学术委员会主任孙凝晖的对话实录。
澎湃科技:你曾提到,算力时代的目标是完成信息获取和信息处理的基础设施化。但算力的基础设施化并不是简单的算力堆砌,信息获取和信息处理的基础设施化主要要从哪些方面开展建设?其中有哪些核心技术挑战?
孙凝晖(中国工程院院士、中国科学院计算技术研究所学术委员会主任):基础设施是技术底座,尤其是我们进入现代化社会后越来越依赖基础设施。我们现在所处的是信息时代,通过海底光缆、TCP/IP互联网协议、4G和5G的无线接入,我们做到了信息全球流动。
为什么现在谈算力基础设施,把算力这种基础设施作为时代的驱动力?什么是算力?
算力用于加工数据,就像炒麻婆豆腐,数据相当于原材料,算力相当于旺火,算法相当于菜谱,加工出来的麻婆豆腐就是模型。模型可应用于各行各业,提高数字化水平,一个推荐模型可以提高获取信息的准确性。以前算力或者超级计算只在天气预报、石油勘探、科学研究等关键领域应用,虽然手机、电脑里也有算力,但并不用来加工这些模型。直到我们进入信息时代的高级阶段,进入产业互联网时代,各行各业都需要模型,算力变成一个广泛需求。
我们现在已经拥有这么多超算和大数据枢纽,多堆些CPU,算力基础设施是不是就建起来了?并非如此。这并不像5G通信一样,只要多建基站,提高覆盖率,就能让更多人享受到移动互联网之下的信息获取。算力基础设施最主要的问题是要做到两个核心,一是标准化,二是算力使用的抽象化。
标准化程度越好,基础设施化的规模越大,这样才能实现规模效益,降低算力的单位使用成本。以电力资源为例,电力基础设施从发电、输电、储电、用电等各个环节全面实现全局统一和环节解耦。不管是火力发电、水力发电,还是光伏发电,都通过统一规格和标准接入电网。在输电环节,南北电网建设已经全面覆盖我国大中小城市和偏远地区,可以实现分级分片的电力资源的多级管理和统一调度,把电力资源输送到千家万户,电力资源即插即用。但算力在标准化统一供给方面还是五花八门。关于抽象,算力抽象的作用是使得消费者使用算力时更容易上手。基于抽象的生成工具、传输工具、消费工具,做出丰富多样、千奇百怪的各行各业应用,算力才能充分变成基础设施。
但这两点我们现在在技术层面还远远没有做到,所以现在才刚刚开始。东数西算、大数据枢纽是建设算力基础设施的第一步,把算力资源集约化、集中化,提高利用率,降低建设成本。
澎湃科技:刚才提到了算法和模型。你此前说过,从信息的角度来看,电信网解决了数据联网,互联网解决了信息联网,算力网将解决云联网,模型网将解决算法联网,这样才能彻底完成信息的基础设施化。模型网有怎样的想象空间,为什么要实现算法联网?
孙凝晖:前几年,互联网行业在提,互联网的下半场是产业互联网,互联网企业希望把它们在互联网领域的成功技术、成功经验用到制造业中。行业的智能化和行业场景有关,背后有非常多的行业知识。这些知识数字化后定义了一个抽象的概念,就叫模型。一个信息技术用在你的纺织厂和我的纺织厂,两个厂不一样,生产的纺织品不一样,模型就有差异。模型如果不能共享、连接、组合,实现产业互联网的成本就很高。
再比如医院的肺部X光片,各个医院识别自己的X光片,甚至各个医生识别自己的X光片。每个医院、每个医生的知识和数据积累、算法创新分散在医院和医生个人手里。只有信息和算法的汇集,才能实现普适性的效用。
可复制可推广的是背后的模型,有时候我们叫它算法。从技术角度叫做算法,从用户角度叫做模型。现在模型本身是孤立的,算法不能成网,模型不能成网,就不能改进社会各行各业。你总能找到一些效果很好的例子,但这不能对数字经济产生普适性作用。
澎湃科技:算力也好,算法也好,最终要赋能产业与应用。随着高性能计算机应用的不断广泛与深入,特别是随着元宇宙、Web 3.0的发展,对算力的需求产生了哪些变化?
孙凝晖:高性能计算是一种最高级的算力,相当于法式大餐。经过20多年的努力,高性能计算从原来的阳春白雪普及到一般的高校都能使用了,新势力汽车厂如果不用高性能计算,很难造车,制药厂就不用说了。最传统的超算应用领域也需要更大的算力支撑,传统的工程计算、桥梁设计、材料设计都需要高性能计算。
元宇宙、Web 3.0带有一定的智能需求,元宇宙对超算算力的需求是最旺盛的。包括科学计算在内,现在提出AI for Science,就是要把智能的方法用在科学领域。超算不能固守在原有的应用领域,要努力扩展应用面和使用方式,使得超算这种最高级的算力能够更大普及,相当于人人都可以享受到法式大餐的美味,这是未来的趋势。
澎湃科技:我国数字化转型时代的帷幕已经拉开,建设算力网基础设施,需要怎样的人才?这些人才的缺口,包括我国高性能计算的人才缺口有多大? 如何培养?
孙凝晖:智能时代对人才的需求量比互联网时代更大。我们国家是人口大国、工程师大国,过去二三十年,这些人才密集汇集到互联网大厂,建好了互联网底座,所以各行各业得益于互联网应用。但智能时代存在各行各业的知识和信息技术融合的问题,需要的人才数量远远大于互联网行业,并且人才明显不足,互联网行业将人才虹吸。一方面,我们要培养信息技术人才,各个高校、学科的学生都要学一些信息技术、建模方法和智能计算思维。另一方面,要通过基础设施化降低智能建模的门槛,把写算法的门槛、用算力编程的门槛降下来。两边一使劲,才能真正破解这个问题。
澎湃科技:超算人才包括研发人才和应用人才,后者更紧缺吗?
孙凝晖:超算应用人才需要掌握至少两个学科的知识,既要懂高级的计算机编程知识,又要掌握跨领域的学科知识,两方面都精通的人一定是少的,难度还是大的,也需要培养时间。
澎湃科技:中国高性能计算之路经历了怎样的发展?现在已经到达了一个怎样的水平?未来还要沿着哪些方向努力?
孙凝晖:从造计算机和用计算机两个维度来说,我们造计算机花的时间非常长,从中国计算机事业开始,一直在造计算机上不停耕耘。到今天,中国造计算机的技术水平与世界没有差距。当然未来的挑战也很大。我们现在把集成电路、摩尔定律这些支撑技术吃干抹净了,想把高性能计算机的计算能力再提高100倍、提高1000倍,我们需要一些新的器件技术。大计算机就是一个系统,性能的提升一半得益于部件能力提升,一半得益于成百上千个部件联合起来工作的能力的提升。半导体领域提供更先进的工艺和器件,能让我们把一条腿补上,我们才可以走得更快。
在计算机应用上,我们和发达国家还有差距,因为这对人才的素质要求和数量要求更高。我们现在面临新的问题、新的需求,我们需要把高性能计算机用到更多行业,包括生物制药、材料、新能源,这方面我们人才还是不足,使用水平也还是有欠缺的。
澎湃科技:从0-1的原始创新如何实现?
孙凝晖:学生首先要打好数理基础。计算机领域的学生在本科阶段太多地学习技能性课程。以前第一年就学编程,当然能够很快上手,对找工作有帮助,但对创新、对高层次人才的培养是不利的。中国科学院大学从2014年开始本科教育的时候特别强调数理基础,一个学生要学5门物理课,但这是必要的。第二,希望更多的年轻人有更高的追求,对科学、对发现、对原始创新有更多的追求,不要陷在生活的漩涡里,这当然也需要社会的进步,才能让更多年轻人没有后顾之忧。
,