厉害了 Siri

苹果手机上海话语音输入法(苹果语音助手学会上海话背后的故事)(1)

中国幅员辽阔,人口众多,南和北、东和西之间地形地貌变化很大,这样的环境自然也就创造出了丰富多样的口音和方言。各种方言在发音、用词上都有着相当多的不同之处,即使是以普通话作为规范,由此派生出的各式口音更是变化无穷。正是因为如此,语音助手想要在中国扎根,本土化是绕不开的一关,更是一大难点。

不过这样的困难看起来并不能吓退苹果,反而让它越走越远。不久前人们得到确认,苹果表示会在即将到来的 iOS 10.3 版本中加入 Siri 对上海话的支持,一下子成为了热点。上海话在发音和用词上都和普通话有相当的差异,苹果要支持 Siri 的上海话,那就相当于苹果要再新开一条语言“科技树”了。

你可以认为 Siri 有很多槽点,但它所支持的语言数量是黑不得的。目前 Siri 能够使用 36 个国家里的 21 种语言,可见其中涉及到的不同口音和方言众多。与此相比,微软的小娜能识别 13 个国家的 8 种语言,谷歌 Assistant 则只会 4 种,Alexa 干脆就只学了英语和德语。

既然苹果那么频繁要为 Siri 添加各种各样的语言,那么是不是它学习新语言的过程会比较特殊呢?正好苹果语音团队如今的负责人亚历克斯·阿赛洛(Alex Acero)最近难得地说了很多,我们就借此机会来了解一番吧。

Siri 的学生时光

苹果手机上海话语音输入法(苹果语音助手学会上海话背后的故事)(2)

当苹果决定要为 Siri 带来一个新的语言支持之后,它首先会让一批对应这种语言(或方言及口音)的人朗读各种各样的短文和词语列表。如果新加入的是一个语言大类,那么这些人必须拥有不同的口音。

Siri 的语音识别曾经基于 Nuance 的技术。后来苹果表示,早在 2014 年的时候 Siri 就已经换了“大脑”,也就是说将原本比较粗糙的技术换成了机器学习机制,让它具备了人工智能特性。基于这个事实,你可能会认为 Siri 就能够从那些朗读中直接学习新的语言了,其实并非如此。

在大量的文字阅读完成之后,这些内容将会请另外一批人进行人工转录。相比第一次录入,这一次转录发音更标准,更清晰。据说,这样能够保证系统有更高的准确度。接着,这些原始数据将会被注入一个以算法驱动的机器训练模型中。

从这里开始就是机器学习技术发挥的空间了。这个机器训练模型会根据原始数据,开始尝试预测对应语言的用词组合方式。理所当然的,苹果给它提供的数据越多,算法本身也能够持续得到改进。最后,苹果会对这些数据进行一些人工调整,接着就可以进行到下一步了。

不知道大家还记不记得自己 iOS 键盘的空格键旁边有一个麦克风?可能蛮多朋友都已经忘记它的存在了吧。那是听写,简单来说就是将用户的语音转化为文字的功能。我们并不知道的是,听写其实正是 Siri 学习新语言的重要渠道之一。

当 Siri 新的语言支持上线前,苹果一般会推出 iOS 和 macOS 平台上该语言的听写功能。用户使用听写功能时说出的那些话将作为语音样本,让 Siri 能够接触到更广泛的人们的说话内容。当然了,这些样本同样需要经过人工转录,因为原文件往往都会充满环境杂音,说话时也多见咳嗽、停顿等干扰。阿赛洛表示,这一连串流程下来,Siri 的听写出错率能够降低足足 50%。

这下,你应该明白为什么苹果会很慎重地告知用户,听写的内容是要被录音并上传的了吧?大家可以放心,这些录音都是匿名形式的。

苹果不断重复着这些程序,直到团队认为数据已经足够多,准确度已经足够高了,那么就可以正式宣布 Siri 新语言上线了。不过苹果坦承说,新语言上线之后 Siri 只能够回答一些“最常见的要求”,比如“说个笑话”之类的。

在那之后,苹果还会持续提升 Siri 对这个语言的熟练程度,具体做法是持续收集用户提出的各种问题,然后以每两周一次的频率更新数据库 —— Siri 当然不可能自己想出答案,苹果有专门的脚本写手针对被录入数据库的问题给予不同的答案和搜索逻辑。

战争刚刚打响

苹果手机上海话语音输入法(苹果语音助手学会上海话背后的故事)(3)

从以上的这些流程我们就能够看出,每一个新的语言、方言选项的出现,苹果都需要进行长时间大量的准备工作。即便是在 Siri 经过大量的学习之后,也只能说是初具职能,还需要后续进行大量的跟进工作。

从这个角度来说,苹果即将为上海话专门加入 Siri 的支持,这本身也能够说明它对中国市场的重视程度。尽管此前 Siri 已经有了对应台湾市场的中文分支,也有对应香港市场的粤语,但上海话的加入显得更加特别,因为这是仅仅对应一个城市的正经的方言,和那些有自己的市场的地区并不一样。或许,我们未来将会看到更多的中国方言被加入到 Siri 的支持名单中。

一个不太精确的估计显示,基于 Siri 支持的语言,当用户使用 Siri 所支持的语言作为第一语言时,苹果的语音助手覆盖的人数可达到 24.5 亿人,而当加入那些使用其支持语言作为第二语言的人时,覆盖人数大约有 49 亿人。

尽管针对 Siri 的批评不断,但 Siri 对于国际上的大部分人来说对是比较“友好”的,至少在语言支持方面。毫无疑问竞争对手会逐渐赶上,但 Siri 推出 6 年后,这是苹果 Siri 的一个巨大优势。

不过随着 Siri 支持的语言、方言数量越来越多,有专家也提出了对于苹果的忧虑。因为现有的人工智能技术不可能做到机器自己回答问题,必须得有相应的队伍去负责更新和维护。Siri 支持的越多,它所需的写手乃至其他人员也就越多。即便如此,要让语音助手表现得随意自然,这仍然不够。如今已在三星旗下的 Viv 团队表示,正确的做法是要让全世界一起来教育语音助手。

好在苹果仍然在努力改良技术中,我们也听说了它在英国剑桥有致力于让 Siri 更加自然的团队。一旦苹果解决了现有的问题,数字助手的称霸之战就要打响。

,