现在只要是跟AI主题有关的活动都绕不开一个话题:AI大模型。
在刚刚结束的Google I/O大会上,谷歌展示了其如何将最先进的预训练大模型应用在日常工作中,比如谷歌文档的自动总结功能可将几十页文件总结成几句话。在 4 月提交的论文中谷歌研究人员训练了一个 5400 亿参数的大型语言模型——PaLM,可以自动生成代码、解决数学问题、修复 bug、解释笑话的梗。AlphaBet CEO桑达尔·皮查伊表示PaLM的优点在于可区分因果关系,理解上下文中的概念组合,其在数学问题上的准确率提升到 58%,接近 60% 的 9 到 12 岁儿童解决问题的水平。
国内AI巨头百度不遑多让,其在2019年就已开始积累AI预训练模型技术,2021年12月正式发布了全球首个知识增强千亿大模型鹏城-百度·文心,参数规模2600亿。在5月20日的WAVE SUMMIT 2022深度学习开发者峰会上,百度公布了飞桨文心大模型最新全景图,提出支撑大模型产业落地的3个关键路径,在业内首发行业大模型。文心大模型是一个大模型家族或者说大模型IP,在WAVE SUMMIT 2022,文心大模型家族迎来十大新成员,涵盖基础、任务和行业等不同类型大模型。
跟谷歌一样,百度也将AI大模型的重点放在了语言、知识等维度,或许这与两家AI巨头有着搜索引擎这一共同出身有关,因为搜索引擎本质就是用NLP技术处理知识,知识是AI的内核,因此两家搜索引擎也成为AI技术的关键玩家。
对AI大模型上心的不只是谷歌和百度,2021年国外的微软、英伟达、谷歌,国内的浪潮、华为和阿里……越来越多科技巨头都在布局AI大模型。2022年AI大模型竞赛正愈演愈烈,大有成为AI技术关键角逐场的趋势。
国内外科技巨头狂炼AI大模型为哪般?AI大模型更准确地称呼是“AI预训练大模型”,“预训练”字面意思很容易理解:预先训练好,这样应用开发者可得到相对现成的训练结果,基于此直接开发AI应用,不再需要从0到1训练数据、建立模型。
AI大模型通过堆叠数据集“贪婪式”地训练模式,拥有较强的通用性,理论上可泛化到多种应用场景,而小样本或零样本的技术实现,则可让应用开发者快速基于其构建工程应用。
AI大模型是深度学习技术的新突破,进一步增强了AI技术的通用性。
深度学习高速发展十年来,AI技术已被广泛应用。信息技术在今天已成为世界运转的基础设施,AI技术也在走向这一阶段,也就是AI工业化。当AI工业化阶段来临,AI要支撑更加广泛普适的场景,要支撑更大更复杂的AI计算需求,要实现从弱人工智能到强人工智能的升级,依靠传统训练模式已很难满足,具有“巨量数据、巨量算力、巨量算法”特性的AI大模型生逢其时。
可以说,AI大模型本质就是深度学习的“加强版”,通过给模型“填喂”大数据提高其自学习能力,进而具有更强的智能程度,比如在自然语言处理上表现更佳。百度、谷歌等巨头的探索表明,基于预训练大模型的NLP技术的效果已超过过去最好的机器学习能力。
AI大模型是AI工业化的关键,正是因为此,全球科技巨头不约而同重注AI大模型。
2021年底微软董事长兼CEO萨提亚·纳德拉就直言,他现阶段关注的一个重点方向就是“正在成为平台的大规模模型,这种大型模型背后的计算,如何继续构建系统。”他认为深度学习在过去20年或10年取得巨大进展,大模型则将是下一个值得期待的大事件,是微软将继续推进的绝佳领域。微软和英伟达联合发布Megatron-Turing自然语言生成模型(MT-NLG),拥有5300亿参数,堪称“巨无霸”,官方宣称同时夺得单体Transformer语言模型界“最大”和“最强”两个称号。
当然,AI大模型依然存在一些不确定性,但这也意味着更大的可能性。AI大模型最终会带来什么样的成果无人知晓,它可能是强人工智能的终极模式,也可能只是过渡手段,但截至目前其已经越来越清晰地呈现出魅力:在NLP等领域展现出肉眼可见的优势,是人类当前看到的最接近强人工智能的训练方式,是推进AI认知智能突破、挑战人类智能的关键。
AI大模型俨然已成AI产业继深度学习后的第二波技术浪潮。深度学习技术让AI从实验室走向商业化,AI大模型则展现出推动AI从作坊式应用迈向工业化生产的潜力。
这正是百度此时此刻加码AI大模型的缘故。
作为全球首批、国内最早布局AI技术的企业,百度不会旁落各类AI技术方向的探索。AI大模型技术百度在2019年就已在布局,这一年在首届WAVE SUMMIT 上百度CTO王海峰前瞻性提出“深度学习推动人工智能进入工业大生产阶段”,过去三年,AI工业大生产正在变为现实,特别是在疫情驱动社会数智化、国家大力推动智能数字经济等因素下,AI工业大生产正在进一步加速,大有进入千行百业成为跟互联网一样的基础设施的趋势。
AI 大模型生逢其时,从本次WAVE SUMMIT上最新的文心全景图来看,百度在大模型布局上持续投入加码,并构建了一套更适宜产业应用的大模型体系,配套工具平台及开放生态促创新,跟同行们走了一条不太一样的路。
百度文心AI大模型不卷参数卷什么?
2018年谷歌发布了拥有3亿参数的BERT预训练模型,正式开启AI的大模型时代,接下来几年,大模型的“擂台”上,各路挑战者接踵而至,但比拼的焦点一直是围绕参数:
2019年OpenAI推出NLP大模型GPT-2,拥有15亿参数,英伟达则发布了83亿参数的威震天(Megatron-LM),谷歌又发布了110亿参数的T5,微软发布170亿参数的图灵Turing-NLG;
2020年OpenAI推出NLP大模型GPT-3,拥有1750亿参数,首次将大模型参数规模提升到千亿级,逼近人类神经元数量,其在传统的NLP能力外,还可以算术、编程、写小说、写论文摘要。
2021年浪潮推出的“源1.0”拥有2457亿参数,参数量超越GPT-3,比肩“巨无霸”MT-NLG。源1.0在中文数据集拥有差异化优势,问鼎全球最大规模的中文AI巨量模型,它可以撰写对话、续写小说、新闻、诗歌、对联。
2022年刚刚结束的谷歌I/O大会上,谷歌公布的PaLM 语言大模型则已拥有5400 亿参数。
参数从大到更大再到巨大。
然而,百度在WAVE SUMMIT 2022上发布的飞桨文心大模型系列却没有强调参数本身,百度集团副总裁吴甜认为,参数不是AI大模型唯一要追求的方向,落地到真实场景才是关键。百度文心一口气发布十款大模型,都做到在同等规模参数下能力更强、效果更好、效果更高,对此其有一个形象的比喻:“身材合适,内涵丰富。”
此前阶段的AI大模型竞赛则更像是重量级本身的PK,今天则颇有点拳击比赛的意味。拳击比赛,显然不是越胖的选手越厉害。飞桨文心AI大模型不一味追求参数“虚胖”,而是在“身材合适”(参数足够)的基础上强化“丰富内涵”,这里的内涵就是“知识”——这一点跟人一样。
本次百度文心大模型体系一次性发布10个大模型,涵盖基础大模型、任务大模型和行业大模型三级体系,没有一个大模型强调参数本身,而是强调“产业级知识增强”的特性。
10个AI大模型中最值得关注的是文心·行业大模型,这是行业首个行业级AI大模型。百度基于通用数据训练的文心大模型,加上行业应用场景中大量存在着行业特有的大数据和知识,结合行业相关的创新算法设计,推出行业大模型更适合在对应行业进行AI工业级应用,比如联合国家电网研发知识增强的电力行业NLP大模型国网-百度·文心,联合浦发银行研发了知识增强的金融行业NLP大模型浦发-百度·文心。
除了两个行业大模型外,百度还发布了文心基础大模型和任务大模型一共八个:融合任务相关知识的千亿NLP大模型ERNIE 3.0 Zeus,多任务视觉表征学习VIMER-UFO 2.0、商品图文搜索表征学习VIMER-UMS、文档图像表征学习VIMER-StrucTexT 2.0,语音-语言跨模态大模型ERNIE-SAT、地理-语言跨模态大模型ERNIE-GeoL,以及面向生物计算领域的化合物表征学习HELIX-GEM和蛋白质结构分析HELIX-Fold。NLP、CV视觉、跨模态这些都是属于各行各业都要用的基础AI大模型,而像地理-语言跨模态大模型这些则是面向特征任务。
从百度文心AI大模型体系来理解一下百度做AI大模型的思路:
一方面,做有知识增强的AI大模型。
AI大模型都在贪婪地吃着“数据集”进行训练,百度文心AI大模型则是有选择性地“吃知识”,包括人类普遍拥有的通识型知识、面向任务的领域专业型知识、面向产业的行业场景类知识。
强化知识增强,一方面,可以让AI大模型学习效果更好、效率更高,用吴甜的话说就是“知识增强的文心大模型,基于语义单元学习,学习效率更高”;另一方面,让AI大模型真正走向强人工智能。现在AI大模型被诟病的问题较多的是数据多不一定就准、回报存在不确定性、依然存在认知缺陷,知识增强可以规避不少问题,因为知识是更有意义的数据,可以让机器智能从感知到认知升华。
《人类简史》认为认知革命是人类走出动物界的一次革命,认知革命本质不是语言能力,因为动物也有,而是想象力,基于此人类拥有获取和形成知识的能力,再不断进步。
在2017年的AI World 世界人工智能大会上,王海峰就谈到一个观点:“知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如狗的嗅觉。而认知是人特有的,语言是人区别于其他动物的能力。同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。”而知识对于人工智能的价值就在于,让机器具备认知能力。
百度做AI一直重视基于知识增强的强认知型AI,不论是深度学习技术还是其上的语音、视觉、NLP,还是更上层的搜索、翻译等AI应用,都追求让机器从听清到听懂,从认识到理解,从感知到认知。
“知识让机器具备认知能力”的逻辑同样适用于AI大模型。当科学家、工程师们给AI大模型填喂的不再只是原生数据而是各类知识时,AI大模型就可以让机器具备跟人一样的认知能力。
AI大模型的知识增强比参数量本身更重要,这并不难理解。神经元的数量通常与动物的智商有着一定的关系,但也不绝对,比如非洲象的大脑重约5千克,含有2570亿个神经元,远超人脑(约1.4千克,约860亿个神经元)。章鱼则拥有无脊椎动物中最多的神经元,它们都有9个大脑,两个记忆系统,且所有大脑中的神经元加起来超过5亿个,其中扮演“中央处理器”的主脑就拥有2亿个神经元,其余部分就分散于各个“次脑”。
2020年面世的NLP大模型GPT-3拥有1750亿参数,已逼近人类神经元数量,但如果不做知识增强,AI大模型参数再上一个数量级也不可能比人类聪明。
AI大模型再单纯地拼参数已远远不够。想明白这个道理的百度决定不在参数本身上内卷,而是让每一个文心大模型拥有更强的知识,比如千亿规模参数的NLP基础大模型ERNIE 3.0 Zeus在学习海量数据和知识的基础上,进一步学习百余种不同形式的任务知识,增强模型效果;融合层次化提示的预训练,更好地建模不同任务的共性与特性;将不同任务组织成统一的自然语言形式,统一建模增强模型的泛化能力,其相较于其他NLP大模型在各类NLP任务上表现出了更强的零样本和小样本学习能力。也就是说,ERNIE 3.0 Zeus可能不是参数规模最大的NLP大模型,但却是更具知识属性能做任务的。强化知识增强而不是参数规模的AI大模型玩家,现在也只有百度。
另一方面,与产业场景深度结合的AI大模型。
百度文心AI大模型的“产业级”要一分为二地看:
一方面是百度文心AI大模型做知识增强本身就重视产业场景相关的知识输入;另一方面百度文心AI大模型在实践应用中结合产业场景的应用特性,与产业里面的佼佼者玩家如国家电网、浦发银行合作,通过结合行业数据、知识和算法,针对性地推出行业AI大模型。
当然,百度文心的行业大模型与基础大模型不是孤立的,后者给前者提供基础,比如浦发-百度·文心模型就使用了基于通用文心大模型的行业知识挖掘技术,从海量数据中挖掘金融相关的语料,再与浦发业务场景的大规模无标注数据联合训练,训练中设计了财报领域判别、金融客服问答匹配等算法来做预训练任务,让模型学习到金融行业特有知识。
基于这种通用 任务 行业结合的三层模型体系,更有利于产业依据自身特色把AI大模型实际用起来,百度文心也更有机会成为千行百业AI工业化大生产的基础设施。
强调知识增强和产业结合,让百度AI大模型成为业界唯一的“产业级知识增强”AI大模型,这也意味着百度AI大模型不需要再在参数上“内卷”。
百度率先打破内卷,是因为百度自身的业务优势给文心大模型主打“知识增强”构建的基础。C端业务上,百度有海量的AI应用场景,可提供知识输入。2019年3月文心ERNIE1.0发布以来,几乎百度全系列产品都在逐步使用飞桨文心大模型,现在百度搜索、信息流、智能音箱等互联网产品正在大规模应用文心大模型,文心大模型显著提升了百度产品的用户体验。B端业务上,依托百度智能云、百度飞桨等百度AI开放给各行各业,文心大模型对外日均调用量已超过五千万次。在更多产业、更多场景、更多产品被使用,百度文心大模型就可以获取更多知识,进而实现产业级知识增强。
落地到应用场景,是大模型玩家们的头等大事
“今年是大模型产业落地的关键年。”在峰会上吴甜直言:“要做好落地,需要解决的关键问题是,前沿的大模型技术如何与真实场景的方方面面要求相匹配。”吴甜给出了支撑大模型产业落地的3个关键路径:建设更适配场景需求的大模型体系,提供全流程支持应用落地的工具和方法,营造激发创新的开放生态。而在WAVE SUMMIT 2022上公布的百度文心大模型的动作,正是围绕着这三个关键路径。
让AI大模型与真实场景方方面面更匹配,让开发者可以更低门槛、更有效率、更低成本地应用AI大模型,让AI大模型从巨头的参数游戏成为产业的普惠技术,是百度文心正在努力做的事情。
除了独特的大模型体系外,百度文心提供了两大关键能力助力AI大模型在应用场景的落地:
一个是全流程支持AI大模型应用落地的工具和方法。
AI大模型在AI产业被寄予厚望。深度学习理论上人人都可参与研发探索,但具有“巨量数据、巨量算法、 巨量算力”三大特征的AI大模型却成了门槛很高的技术竞赛。打造一个大模型需要海量数据、海量算力和海量研发,金钱、时间、人力投入同样“巨量”——微软甚至宣称其用了价值10亿美元的超级计算机来训练其AI大模型,可以说只有科技巨头才有实力研发可以工业化的AI大模型。
科技巨头研发再开放给各行各业的开发者是AI大模型的落地方式,然而对于非巨头开发者来说,AI大模型的应用门槛比深度学习高得多。如何让开发者可以快速、高效、简单地应用AI大模型是业界难题。针对此,百度依托飞桨多年服务AI开发者的能力与经验,在工具和方法上下功夫。
飞桨是我国首个自主研发、功能丰富、开源开放的产业级深度学习平台,在深度学习平台开发工具和方法上有着多年的丰富积累,涵盖训练、推理等环节。针对开发者使用文心大模型的场景,百度特意发布了一系列大模型开发套件、大模型API和集成文心大模型的飞桨企业版EasyDL和BML开发平台,面向不同类型的开发者,全面释放大模型的使用效能,进一步降低应用门槛。
简单地说,百度文心不只是有更强的AI大模型,也有更完整的配套工具帮助开发者轻松应用。现在EasyDL和BML平台已有累计超过1万名开发者基于文心大模型开发,创建超过3万个任务,并应用到输电通路巡检、零部件瑕疵检测、农业病虫害识别、新闻资讯创作等大量场景中。
另一个则是提供应用交流的创新生态平台。
任何编程语言要普及应用都离不开繁荣的开发者社区,既提供文档资料分享、技术问题解决等功能,更可营造分享交流的创新环境。AI大模型相对于发展20来年的深度学习技术来说是新的技术体系,对于应用者来说相关资料都比较匮乏,不同场景的应用案例还比较稀缺,针对此,百度文心大模型在飞桨生态下构建AI大模型生态,推出了基于文心大模型的创意社区——文心·旸谷社区,让更多用户零距离感受到文心大模型的魅力和应用创新潜力,迸发出更多富有想象力的新事物。
从“不卷参数卷知识”的产业级知识增强的大模型体系,到依托飞桨的全流程的工具、方法论以及创新生态,都能看出百度文心对于AI大模型的努力方向有且只有一个:让AI大模型不再是巨头炫技的军备竞赛,而是成为实实在在落地到产业场景的AI基础设施,最终将让机器具备认知智能,实现AI工业化大生产,让产业AI化不再只是口号。
百度已在AI领域深耕超十年,它也是国内最早布局人工智能的企业。最难能可贵的是,尽管这些年科技产业环境不断变迁,但百度却一直坚持深耕AI,一方面持续重注AI技术研发,储备芯片、深度学习平台、AI大模型、AI应用技术等全栈AI技术;另一方面,则将自身的AI技术能力开放出来,以百度智能云为基础推动企业实现数字化和智能化升级。
加速产业AI化,推动AI工业大生产,让AI成为互联网、电力、信息科技一样的社会基础设施是百度的夙愿。AI大模型、飞桨、百度智能云等都是百度实现愿景的工具。正是因为百度的终极目标是AI工业化大生产,因此百度做AI大模型要强调“产业级知识增强”,不拼参数拼落地。百度的选择,也将成为AI大模型玩家们的共同抉择。
今天,AI大模型拼参数的军备竞赛时代结束了,更关注产业场景的落地时代正式来临。
,