机器之心报道

编辑:泽南

各家厂商都有自己的 AI 芯片,但华为率先做到了从芯片到应用,再到云服务的高度协同。

手机上的 NPU 推出了四年,时间已不算短,人工智能应用得怎么样了?

怎么华为的麒麟芯片没有了(麒麟芯片的黑科技)(1)

现在很多手机芯片上都有 AI 计算单元,每个人都可以有自己的答案。不过用华为手机的人,获得的体验经常比其他用户好一点:他们的手机有更强的信号,均衡的能效比,还有融合在系统中,提供便利的各种 AI 功能。

华为的产品还支持最新 AI 算法,你也许会发现,同样的 App 在华为手机上多了一些专属的能力,如实时视频超分辨率、视频风格迁移、本地化的输入法预测等等。

今天,人工智能不是「元宇宙」这样遥不可及的概念,而是已被每天数亿人大量使用的普遍技术,它甚至改变了很多人打开 App 的方式。

这些 AI 技术的效果超出了人们的最初想象。

用低清流量,看「高清视频」

我们对于「视频超分辨率」的印象,大多还停留在英伟达 GPU 对于游戏大作的帧率加成上。自从 RTX 系列显卡诞生以来,深度学习超采样技术 DLSS 大幅提升了玩家的游戏体验。这种技术可以通过深度学习把低分辨率图像自动「脑补」成高分辨率,输出 4K 分辨率的画面时,只需生成 1080P 的画面再用 AI 来转化,可以减小显卡负担,提升效率。

打游戏有这么大的提升,在手机上看短视频和直播能不能加入超清效果呢?HUAWEI HiAI Foundation 已经让很多应用实现了这个能力。

「在超分辨率任务上,传统算法需要 CPU 和 GPU 对图像进行二次加工计算,功耗极高,效果就像是『调亮了一点』,并不明显,」华为技术专家表示。「若想解决算力、IO、功耗等问题需要结合 HUAWEI HiAI Foundation 和 NPU 来完成。我们与很多厂商合作,在当前主流的 App 上集成了画质增强功能。」

怎么华为的麒麟芯片没有了(麒麟芯片的黑科技)(2)

原画面、AI 超分辨率算法和低分辨率 锐化处理的对比。

今年 3 月,在爱奇艺 App 最新发布的版本中,爱奇艺与 HUAWEI HiAI Foundation 合作,在带有 NPU 机型的应用上率先提供了「增强画质」功能。该功能可让视频在 480P 分辨率播放过程中,保持相同流量消耗的情况下体验到更高清品质的视觉效果。

这项功能适配了从 Nova 6 到 Mate 40 系列等多个华为机型。

怎么华为的麒麟芯片没有了(麒麟芯片的黑科技)(3)

开启画质增强功能后,480P 及以下清晰度的视频可以秒变高清,大致相当于 1080P 的水平。

「增强画质」是基于爱奇艺自研超分算法部署在麒麟芯片 NPU 引擎(神经网络处理器)和 HUAWEI HiAI Foundation 上的功能,可以在画面轮廓清晰度、画面通透性、色彩饱和度等方面实现明显提升。

通过这一能力,手机可以在本地完成视频实时增强画质处理,在不影响帧率的情况下把清晰度提升两倍,有效解决了视频播放卡顿问题,在地铁或高铁等信号弱,网络不流畅的场景下,也能看高清视频。

在爱奇艺、优酷等主流视频 App 平台上,HUAWEI HiAI Foundation 加持的超分辨率性能最高可以提升 80%,功耗最高可降低 45%。

在手机上实现异构计算

除了图像技术,手机上还能直接跑一个完整的输入法预测模型。譬如,在百度输入法华为版中,其使用的 AI 算法结构复杂,但通过任务拆分,工程师们把模型推理的计算工作分配到 NPU 和 CPU 上进行异构计算,并进行了极致的优化,把输入法预测任务从云端完全转移到了手机上。

百度语音语义的模型技术较新,结构也很复杂,最近的很多 AI 应用都是如此。从最早的 CNN、LSTM,再到近期流行的 Transformer 结构,人们对 AI 专用计算单元的算力需求正在快速提高。另一方面,不同厂家硬件的差别明显,AI 计算的架构也在不断演进,如何充分利用好算力是开发者面临的挑战。

让芯片上的 CPU、GPU 和 NPU 协同参与 AI 计算,是目前发展的趋势。「在语音语义类业务上如果用异构方式运行模型推理,其性能要比单 NPU 或单 CPU 运行提升超过 40% 以上,很多业务适合通过异构方法运行,」华为技术专家表示。「NPU 善于处理 CNN 等经典神经网络,但业界近期获得应用的网络类型变化较快,很多新模型使用 CPU 加 NPU 联合计算可以获得更高效率。」

怎么华为的麒麟芯片没有了(麒麟芯片的黑科技)(4)

华为提供的工具可以大幅提升 AI 算法的运行效率,快手和抖音也因此受益:两家短视频应用在接入 HUAWEI HiAI Foundation 后模型精度得以提高,通过充分利用算力实现了更加真实的 AI 特效,增加了业务场景。

对于应用开发者们来说,给应用接入异构计算能力并不需要训练专用的算法,也不需要重新构建一个 App,只需调用几个接口就可以完成了,如果开发者使用的机器学习平台接入了 HUAWEI HiAI Foundation,这个过程甚至可以是无感的,开发者无需进行操作即可获得麒麟芯片 AI 算力的优化。

原生 AI 加速,每天运行超 600 亿次

为开发者打开新世界大门的 HUAWEI HiAI Foundation 是麒麟芯片 AI 计算能力的开放平台,其目标是全面开放 NPU 能力。它可以自动把开发者手中的 AI 模型轻量化成移动版,集成到 APP 上,并获得手机芯片异构算力的原生优化加速。

2017 年 9 月,华为发布了首款自带神经网络计算单元 NPU 的移动芯片麒麟 970。2018 年 3 月,HUAWEI HiAI Foundation 随之发布。经过几年发展,HUAWEI HiAI Foundation 已经从仅支持手机扩展到了全场景硬件,还可以做到一次开发多端运行。计算能力上看,则可以协同 NPU/CPU/GPU/DSP 实现异构计算,大幅提升了效率。

在 HUAWEI HiAI Foundation 的最新版本上,新增的能力主要有三个方面:提供 AI 模型性能优化快速升级的端云协同;开放为开发者提供更多可选模型结构的 Model Zoo;还有模型量化工具包,可以快速压缩 App 中 AI 模型的体积。

怎么华为的麒麟芯片没有了(麒麟芯片的黑科技)(5)

经过多代持续打磨,HUAWEI HiAI Foundation 的兼容性和易用性已经相当成熟。人们熟知的鸿蒙 OS 的用户已经超过了 1.5 亿,是史上发展最快的终端操作系统。而作为麒麟芯片计算能力的开放平台,HUAWEI HiAI Foundation 的应用范围也是前所未有 ,它现在的日调用量高达 600 亿次。

相比 TensorFlow Lite GPU、Android NN 等端侧 AI 计算生态,HUAWEI HiAI Foundation 已经成为了业内最流行的 AI 架构,而且领先幅度正变得越来越大。

每天百亿调用量意味着海量的智慧业务正在端侧应用,充分发挥了麒麟芯片的 AI 算力,为用户带来了前所未有的体验。随着 AI 生态的不断演进,技术应用的经验也会为未来的改进打下基础,助力下一代芯片的研发。

黑科技:端云协同

仅仅方便开发,体验好还不够。与高通、联发科等公司提出的工具相比,华为的优势在于「端云协同」。

深度学习算法由很多计算单元组成,我们称这些计算单元为算子(Operator,简称 Op)。从广义上讲,对任何函数进行某一项操作都可以认为是一个算子。在深度学习框架中,算子对应层中的计算逻辑,例如:卷积层(Convolution Layer)中的卷积算法,是一个算子;全连接层(Fully-connected Layer)中的权值求和过程也是一个算子。

怎么华为的麒麟芯片没有了(麒麟芯片的黑科技)(6)

对于构建 AI 应用来说,算子提升了效率,然而大多数手机中的算子库集成于系统中,加入新功能要等手机系统几个月一次的更新,这是很多 AI 新算法难以落地的原因。

HUAWEI HiAI Foundation 选择把算子库放到云端,当有新开发的算子时,只需要对比一下旧的算子库,把更新算子下载到手机端里就可以让所有手机支持新技术了。这种端云协同的方式既提高了开发者工作效率,又扩大了应用范围,算子更新的频率可以和 App 更新的速度同步。

相比之下,其他厂商发布的深度学习框架,其算子更新速度通常是以年为单位的。

作为连接底层硬件算力和应用之间的桥梁,HUAWEI HiAI Foundation 目前支持超过 300 个通用算子,TensorFlow、PyTorch 等主流深度学习框架,国内开源深度学习平台,以及很多厂商的自用框架。硬件支持从麒麟 810 到麒麟 9000——内置华为自研 NPU 的所有芯片。

从一篇顶会论文到手机上的 App,AI 新技术的引入是一个复杂的工程化过程,需要保证性能、功能要求,进行多轮优化。由于海思和华为终端联合运作的方式,在 HUAWEI HiAI Foundation 上芯片厂商与开发者直接进行合作,在一些关键问题上能真正做到效果最优,这是其他竞争对手无法比拟的。

把更多 AI 搬到手机上

HUAWEI HiAI Foundation 未来的发展方向,是让移动端 AI 模型更简单、更安全、能效更优,构筑全面开放的智慧生态,让开发者能够快速地利用华为强大的 AI 处理能力,为用户提供更好的智慧应用体验。

机器学习模型在最初的研究阶段可能需要泰坦 GPU 进行训练,A40 进行推理,谷歌能让机器学会「阅读理解」的 BERT 模型在刚刚发布时体积达到了 500MB 但手机 App 上,自然语言处理模型只有 50 到 100MB 的空间,模型必须被大幅压缩。

HUAWEI HiAI Foundation 推出的 NAS 模型搜索技术,能让开发者只需要将自己的模型、数据集作为参数提交给工具,随后就能通过自动搜索获得能在端侧运行,效果与原模型效果相当的模型出来。该技术目前主要面向图像识别、分类、检测等任务,在指定任务中可以自动搜索出效率最优的模型,且搜索结果能够实现在 NPU 上性能、功耗比最优。

另一方面,HUAWEI HiAI Foundation 提供的端侧算力让很多原先必须部署在云端的算法落在了本地,所有数据形成闭环,业务数据、照片、语音信息等敏感内容不离开用户,保证了数据安全。越来越多的端侧 AI,会持续强化这一趋势。

未来,各类应用对 AI 的需求会越来越拥挤,华为还在继续努力,让麒麟芯片带来更大价值。

怎么华为的麒麟芯片没有了(麒麟芯片的黑科技)(7)

2021 年,我国网民人均手机 App 安装总量是 66 款,每人每天使用 App 的时长已超过 5.1 小时,这是一个前所未有的数字。人工智能技术带来的便利,是手机承担起越来越多任务的原因之一。

还记得 2017 年,华为发布第一款带有 NPU 的芯片麒麟 970 的时候,有很多人会问「它能做什么?」现在,问题已经变成了「这件事,麒麟芯片能不能也来做?」

昨天人们还在开的脑洞,已经被 HUAWEI HiAI Foundation 一步步实现了。

,