杨净 鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI
最近,听到不少语音圈儿的盆友都在议论一场比赛。
什么超少样本啊,什么乱入啊,还有什么教育……
咦,“教育”是什么鬼?
仔细打听才知道,原来是刚刚落幕的国际TTS(语音合成)赛事M2VoC。
M2VoC,又称多说话人多风格音色克隆大赛,就是给你极少的语音样本(最少5个的那种),让你合成同种风格的声音。
这不就一场常规的技术玩家竞技盛会嘛?
盆友表示,意外就意外在,这次的子赛道冠军里,混进了一个“异类”——
搞直播网课的猿辅导。
搞在线教育,还能搞出个AI冠军???
据说,获奖团队当时还有其他紧急任务,就随机派了两个人,硬挤了5天时间来参赛。
疑似凡尔赛,而且有证据!
但桥豆麻袋,猿辅导,确定是一家在线教育公司哈?!
M2VoC首战告捷还是先来看看比赛本身。
猿辅导乱入参加的比赛,是声学、语音和信号处理国际会议(ICASSP)信号处理挑战期间任务——多说话人多风格音色克隆大赛(M2VoC)。
而ICASSP作为IEEE信号处理协会组织的年度会议,也是信号处理及应用方面最权威的会议之一。
据称,这还是世界上第一个小资源音色克隆挑战赛。
大赛共分为两个赛道,一个少样本赛道,另一个是比“少样本”更少的赛道。
在极少样本赛道,参赛者需要针对不同说话风格和5个可用音色样本进行校验和测试。
每个赛道又分为开集和闭集。开集,即用任何公开数据;闭集,即只能用官方给到的数据。
最终共有150多支队伍参赛,而在极少样本开集赛道中猿辅导获得了第一。
另外在少样本开集、极少样本闭集的赛道里,分别获得了第4、第5的成绩。
实际上,猿辅导此次比赛中呈现的,并非实验室技术。
而是一个早已经在小猿口算、猿辅导网课等产品中的技术,用于英语发音、题干读题等场景。
比如说读一个数学题,有些幼龄的小朋友字认不全,需要读出来让孩子理解;另外,老师们也可以设定一个题目,根据题目的文字合成一个音频。
尤其是在英语听力上的应用,发音要求更为严苛。
但一线老师反馈说,这比公开服务更好用。
以前,由老师出题,然后找正规的英音、美音老师录制。一般外包公司制作一周才返回语音包。
如果有修改,那就最少2周,遇到节假日就更不可控了。
现在通过语音合成,一句10秒长度的句子,不到1秒就可以完成语音转化,效率上有很大的提升。
这样一来,2个人准备5天时间就参加比赛,就也不是那么夸张了。
只是没想到的是,第一次征战国际赛事的他们,就获得子赛道第一的成绩。
对于这样的结果,他们表示有点意外。
拿到(极少样本开集)子赛道第一名,我们有点意外。技术领域的大牛很多,我们也会继续努力!
基本思路跟平时的训练流程一致,由大规模样本的预训练和小规模样本的微调训练组成。
至于获奖的原因,团队内部分析认为,除了训练数据选的比较好之外,他们在语音合成的前端所采用的停顿、韵律模型,让合成出来的语音效果更加自然了。
一般来说,通用的语音合成技术,大都将目光聚焦在合成字眼的准确性。其他有如准确发音、韵律情绪、适当停顿等问题通常不会顾及。
就是一个莫得感情的朗读机器~
但在教育领域,这些平时容易忽视的痛点,就变成了技术团队重点攻克的对象。
既要保证在遇到类似多音字这样的情况时,发出正确的读音,又需要在面向低龄儿童的教学场景中,让拼读更加自然、富有韵律不生涩。
不能因为我冷漠,就耽误了小孩学习呀!(手动狗头)
也恰好因为这一点,猿辅导得到了主办方、评委会的肯定。
在猿辅导搞技术是一种什么体验?所以,猿辅导作为一家在线教育公司,为什么会出现在语音合成技术的国际赛场上?
其实缘于一个偶然的契机。
当时,这次的参赛队员杨明祺将随手刷到的大赛信息转发到语音组群里。就在研发同学们的日常吹水中,他们突然想到,猿辅导在这方面已有技术积累,何不趁着这个比赛跟其他队伍切磋交流一下,看看在统一任务下别人有什么不一样的想法可以借鉴学习。
这种保持对前沿技术关注、主动学习的操作,倒并不是临时起意,而是整个技术部门再正常不过的日常。
从他们坚持已久的一个习惯中也可见一斑——
Paper reading,是猿辅导AI Lab自2014年成立以来一直坚持至今的一项活动。
7年来,团队每周都会安排一位技术同学在组会时分享一篇前沿技术论文,并与其他同事深入交流讨论。
起初,整个实验室的都要一起参加这样的阅读会。后来随着规模的不断扩大,改为下设5个实验室分别举办,自己实验室的同学当然必须参加,其他实验室的人也可以根据兴趣参与进来。
不同技术之间的碰撞,也成为了猿辅导独有的技术方法论。
语音实验室语音合成组的杨明祺,就分享了一段经历。
在听到降噪小组分享有关提高信噪比的最新技术时,语音合成组就想到,是否能将这样的技术应用到TTS上来。因为平时采集的训练样本,录制环境不一,音质无法保证,而引入相关技术,就能从数据层面来提升最终合成语音的质量。
除此之外,作为一家在线教育公司,猿辅导有更丰富、更具体的落地场景,因此也就要比一般的技术公司更看重技术落地。
低延时直播,就是这样一个例子。
市面上通用的直播技术,可能有1-3秒、甚至更长的延时,对于直播带货这个场景下影响不大,但要是在教育教学上,学生和老师有着很强的互动需求,几秒的延时就会影响教学体验。
就比如,老师在课上提问,学生正在思考的时候,老师就已经给出答案讲下一个问题了。
因此,就需要将延时技术从3秒降到0.3秒,来维持课堂效果。
语音组马楠也表示,
很多时候,一线的教学老师提出需求,研发人员就要想办法结合最先进的技术来满足。
所以平时看到一些新的论文、技术方案,也会想着能具体落到什么场景,能否配合一线老师教学。
也正因为看重落地的本质,他们随时保持着Ready的状态。
什么时候有新的需求,就想着法儿的用技术去满足,也因此团队成员们练就了能快速适应业务转型的本领。
马楠说,他们这个语音合成组,大多本来不是这个专业的,比如有的成员过去是做搜索的,可以说都是逐渐摸索学习过来的。
现在他们从一个想法到Demo,只需要半个月到1个月的时间就可以达成。
因此,也不同于其他技术团队的成就感,他们成就感的来源,更多是一线老师的反馈。
“比公开服务更好用”,就是他们接收到的最好的嘉奖。
隐藏在教育背后的技术实力事实上,虽然外界对猿辅导的认知更多地聚焦在“教育”上,但猿辅导从成立之初,就是一家把“技术”视作核心竞争力的公司。
在2014年,猿辅导就成立了AI Lab,是在线教育行业内首个成立AI研究院的企业。
从业务上看,猿辅导旗下有:拍一下就能秒出解题思路的小猿搜题,用AI帮助老师、家长批改作业的小猿口算,利用AI打造智能学习模型的斑马AI课……
其背后所需要的技术支持,不止于语音,还包括视觉、自然语言理解、音视频等多个领域。
就用斑马AI课来举个例子好了。
斑马AI课作为目前国内面向学龄前儿童的最大在线课程学习平台,最吸引人的一点就是能做到“因材施教”。
也就是说,不仅仅是根据小盆友的年纪简单粗暴地划分学习阶段,而是让孩子也能自适应学习。
等等,自适应,这不是个教育AI模型的法子吗?
其实是这么回事儿,以猿辅导百亿级少儿语言行为大数据为基础,通过对孩子的语言行为进行分析,就能更加细致地了解到孩子当前的学习情况,进而智能地调整课程的难度、“打怪”的路径。上完网课,还能根据AI大数据分析,生成个性化的学习报告,及时反馈学习成果。
另外,就像之前提到的,通用模型在落地到更加垂直的场景中时,表现往往不尽如人意。比如小朋友咿咿呀呀的发音,就比常规的成人语音识别更加困难,需要有针对性地收集数据、优化模型。
源于这样的背景,目前,猿辅导已经发展形成语音实验室、视觉实验室、自然语言理解实验室、音视频实验室和基础支撑五大实验室。
而作为技术人员的马楠也强调:
对于我们的产品来说,前沿技术的支持并不是可有可无的,而是产品之所以能成立的核心原因。
以搜题为例,如果OCR的准确率不够高,搜得不够准,用户根本就不会选择使用。
站在现在这个时间节点,从用户选择的角度来看,猿辅导已经成为国内网课用户规模最大的在线教育公司。
而从技术验证的层面来看,猿辅导曾先后在MS MARCO机器阅读理解水平测试、斯坦福问答数据集两项世界级NLP赛事中斩获冠军,如今也在语音等更多领域的世界赛事上崭露头角……
资本对其业务、技术的认可,也已落在了具体的数字上:估值155亿美金,是全球估值最高的在线教育独角兽公司。
就在这样的高速发展之中,体量越来越大的猿辅导,在重视落地之外,也越来越看重“长期主义”。
马楠就透露,现在在技术团队内部,有相当一部分人力投入到了前沿技术的探索、攻关当中。这类研发工作在短期看来不会立刻被用上,但公司认为,从长期发展的角度来看,这些积累将成为猿辅导技术护城河的关键组成。
最后,再来总结一下,猿辅导究竟是一家什么样的技术公司?
以在线教育之名,从每个具体场景出发,将AI技术之力在各个产品中得以体现。
如果一项技术研发的很厉害但没用上,对猿辅导来说是不太可能的。
因此可以说,猿辅导的AI更具有实用主义色彩。
曾经,中国的教育领域一度被认为格局已成。但以猿辅导为代表的第三代教育科技公司,却以黑马之势登上历史舞台,撕开了一条新的进击之路。
背后的核心关键词,正是技术,正是AI。
而教育在AI等新一代技术驱动之下展现的潜力,或许才刚刚开始。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
,