在过去几年里,AI 成为最火热和发展最快的研究领域。神经计算和深度学习是众所周知最重要的 AI 技术。很显然,AI 落地离不开芯片。所以,包括 IBM 的 TrueNorth 仿真人脑芯片、谷歌的 TPU 先后问世。经过多年的探索,人们逐渐意识到算法和架构是推动 AI 芯片发展的唯一途径。那么站在架构角度考量,AI 落地该怎么走?

此前,清华大学—北京未来芯片技术高精尖创新中心联合发布的《人工智能芯片技术白皮书(2018)》中提出,要突破 AI 芯片在当下的困境,其中一个重要的方面就是研究具有生物系统优点而规避速度慢等缺点的新材料和新器件,采用新的计算架构和计算范式。

在 10 月 28 日开幕的类脑计算国际学术会议上,清华大学微电子研究所所长、中国半导体行业协会副理事长魏少军教授强调了可重构计算芯片对 AI 的意义,并介绍了清华大学微电子研究所 Thinker 团队打造的系列芯片。他们试图通过建立在认知计算技术(软件定义芯片)上的深度学习芯片,以及建立在电阻内存架构的存储计算芯片,来探索 AI 芯片未来的发展方向和实现真正的智能芯片的可能性。

人工智能芯片和ai芯片哪个好(AI芯片并非为智能而生)(1)

图 | 魏少军在类脑计算国际学术会议上发表《架构创新与 AI 芯片发展》的演讲报告(来源:类脑计算大会)

可重构计算(Reconfigurable Computing)最早是由美国计算机科学家 Gerald Estrin 在 1950 年提出的概念,他认为可重构计算除了可以通过顺序处理单元之外,还可以通过专门的可配置硬件模块来实现计算加速。也就是说,在执行不同任务时,中央处理器可以控制这些可重构运算单元来适应相应的任务并形成对应的最优架构。

五十多年后,德国计算机科学家 Reiner Hartenstein 验证出,即使这些可重构运算单元的时钟频率远低于当时的 CPU,但是可重构计算的综合运算能力却可以超越 CPU 数倍且功耗很低。

尽管这一概念在理论上很成功,但在摩尔效率盛行的时候,架构更新远远不如工艺更新来得多快好省,再加上可重构计算需要略显小众的硬件描述语言而不是更广泛的诸如 C 、Java 一类的高级语言,所以可重构计算只停留在理论。直到当下摩尔定律出现瓶颈,可重构计算再次被重视起来。

FPGA(Field Programmable Gate Array)也是一种动态可重构的空白芯片,用它来运行 AI 软件也不是不行,但是这种设计非常昂贵,而且不适合用电池的小设备。所以像 Thinker 这样低能耗高性能的芯片才有了研发的必要性。

不同于 FPGA 的地方在于,可重构芯片架构软硬件均可编程,芯片功能随着软件的变化而变化,并且开发者不需要底层芯片知识,能量效率和计算效率都比较高。

人工智能芯片和ai芯片哪个好(AI芯片并非为智能而生)(2)

图 | 动态可重构芯片的属性分类(来源:DeepTech)

魏少军在 1984 年获得北京清华大学无线电与电子学系的工程硕士学位,并于 1991 年获得比利时蒙斯理工学院(FPMs)电子实验室的应用科学博士学位。他于 1995 年返回中国,1996 年至 2005 年担任大唐微电子公司总裁。他的研究兴趣是 VLSI 设计方法,特定于通信的 IC 开发,移动计算和可重构计算。

进入新世纪以来,中国学者突破了一系列可重构关键技术。魏少军从 2006 年开始带领团队研究可重构计算技术(又称“软件定义芯片”)。从 2010 年开始的约五年时间,清华大学可重构芯片课题组在该领域发表 SCI 论文 83 篇、EI 论文 62 篇,申请发明专利 126 项(美国专利 4 项目)。

到了 2017 年,清华研究者放出一个重磅成果,他们设计的 Thinker 芯片登上了计算机硬件设计领域的顶级期刊 IEEE Journal of Solid-State Circuits,《麻省理工科技评论》就此发表文章称:AI 的蓬勃发展为中国芯片制造商提供了一个从落后到赶超的机会。

人工智能芯片和ai芯片哪个好(AI芯片并非为智能而生)(3)

图 | Thinker-II 芯片(来源:DeepTech)

Thinker 最早在 2016 年由魏少军团队中尹首一副教授带队设计,代号为 Thinker-I 可重构混合神经网络计算芯片,这款芯片不仅可以动态调整计算和内存需求,使得芯片能够支持人脸识别和语音识别的神经网络应用,而且芯片的功耗非常小,只需要八节 7 号 AA 电池就够让它运行一整年。这块实验性质的验证芯片证明了“软件定义芯片”这一架构的可行性。随后,Thinker 芯片家族又有了两位“新成员”,现在的 Thinker 家族包括了 Thinker-I 、人脸识别芯片 Thinker-II 和语音识别芯片 Thinker-S。

对于云端应用来说,边缘设备 AI 芯片实现效率的一个重要指标是能耗效率——TOPs/W,据魏少军介绍,Thinker 芯片的最高能耗效率达到 5.09TOPS/W。

Thinker 系列芯片的低功耗和高能耗效率,使之成为 AIoT 场景的最佳选择。去年,魏少军团队步入商业化,在完成近亿元的天使轮融资之后成立了清微智能公司。今年上半年,公司把主要业务集中在语音芯片“TX210”并完成量产计划,在下半年发布了智能门锁芯片“TX216”、视觉芯片“TX510”,之后将在智能零售、智能安防等 B 端和 G 端进行布局。

理论上讲,动态可重构的并行计算芯片可以实现跑多种算法节省资源,并且大大提高通用性,这能极大改善当下 AI 产品投入高、盈利少的现状。不仅是清华 Thinker 芯片,有消息称南京大学也在研制可重构芯片。需要注意的是,可重构芯片是否能达到较高的能效值,还取决于软件、工具链优化和调度的好坏。可重构架构仍在探索当中,尽管该架构非常适合中小企业,但初步试水的资金投入可能不低。

魏少军最后说:“虽然现有的芯片可以提供实现智能所必需的计算,但它们并不是为智能而生的,因此它们在计算效率、功耗和灵活性方面存在固有的缺陷。架构创新可能是使芯片智能化的唯一途径。”

,