苹果和谷歌也是有点冤枉,分明那么努力完善语音识别算法,可惜硬件技术跟不上。

苹果、谷歌、亚马逊和微软如今都推出了个人语音助理服务,他们计划利用人工智能,将这些助手打造成可以给用户提供帮助、能和用户语音聊天的好朋友。这些科技公司希望人工智能可与人无缝流畅对话,可以不拘泥于几个特殊口令来暂停或重开对话的形式,甚至能够根据聊天内容与走向相互打断与追问。

绝对不能问siri的五个问题 听不出你讲的话(1)

上述几家科技公司对人工智能的研究进行了巨大的投资,但是他们投资得再多,还有一个非常严峻的问题摆在他们面前,麦克风技术没有突破性进步,这直接影响到这些服务的采音效果,如果这些服务无法采音,听不到用户所说的话,这就好像对着一个有听力障碍的人说话,对方根本听不到你在说什么,你的任何努力和挣扎在对方看来都只是个表情包。

其实不管是哪家科技公司的语音助理,它都需要麦克风良好的采音性能作为铺垫,这就对麦克风技术提出了严峻的挑战。目前消费者技术行业中的许多技术,比如相机等都已经有所提升和完善,而麦克风技术的发展却落后了,如果距离声源较远,它的采集效果并不怎么好。另外它过滤背景噪音的性能也不怎么样,而且如果麦克风要全天候在线待命的话,那么它可能会耗掉大量电量。因此目前这个全球市场价值高达 10 亿美元的微机电系统麦克风市场已经感受到了来自语音助理设备厂商的巨大压力。这些厂商透露出的信息非常明确:我们需要更好的硬件、软件,两者都需要。

科技公司的要求

苹果公司自 2012 年发布的 iPhone 5 之后,麦克风性能就没有过多的升级和完善,即使这几年苹果一直在完善 Siri。其实苹果和其他科技公司的要求很简单,但是这些要求对于麦克风厂商来说实在是太有挑战性了。他们想要更高的信噪比,即麦克风能更好地将人说话的声音从噪音中分离出来,远场采音性能也能更好,以及更高的声过载点——麦克风无法将信号和噪音区分开来的临界点。芯片上达到上述两点要求的同时能够不会变的更大或者消耗更多电量。

绝对不能问siri的五个问题 听不出你讲的话(2)

因为苹果等厂商在设备中使用的麦克风数量更多了,所以这些因素也变得越发重要。第一代 iPhone 中苹果只用了一个麦克风,但是到 2014 年发布iPhone 6的时候,数量已经增加到 3 个,去年在 iPhone 6s 中增加到 4 个;摩托罗拉的 Droid Turbo 智能手机中有 4 个;而亚马逊那个智能音箱Echo使用的麦克风数量竟然高达 7 个。

为提升识别率所做的努力

其实配备这么多麦克风最主要的功能还是为了降噪。在这里我们还是以苹果 iPhone 为例。从第一代 iPhone 开始,直到 iPhone 3GS 配备的都是单麦克风,在机身的底部;因为只有一个麦克风,所以语音都是从仅有的一个麦克风录入。

iPhone 4 和 4S 配备的为双麦克风,在机身的底部和顶部各一个;两个麦克风“各司其职”;在降噪方面,双麦克风降噪效果显然要比单麦克风降噪效果要好。比如在一个非常吵杂的环境下打电话,配备双降噪麦克风的手机,可以将环境噪音降低到最低,这样即便是身边的人听不清楚你在说什么,但电话另一端的接听者却可以清晰的听到你说话,这是双麦克风降噪的效果。

绝对不能问siri的五个问题 听不出你讲的话(3)

而到了 iPhone 6s 和 6s Plus,在这两款设备的电路设计中,4 个麦克风没有定向的指定功能。多个麦克风的功能主要用来拾音,通过算法可以多个麦克风协调工作,实现主动降噪功能,让用户在通话时,声音传递更加清晰准确。另一个功能则是为了让硬件调用麦克风时更加精准和准确化。由于iPhone 6s 和 6s Plus 内置的四个麦克风没有固定的功能,主要是根据应用的权限打开对应的麦克风,执行不同的功能。

而使用了 7 个麦克风的亚马逊 Echo,它在语音识别方面的表现也证明了硬件对语音识别准确度的影响:它超强的听力就是它最大的优势。它的顶部有七个呈环状排列的麦克风,能准确地捕捉到来自各个方向的声音。任凭苹果、谷歌、微软公司如何改进算法提高语音识别准确率,亚马逊用七个麦克风就将一众对手“秒杀”;尽管这不是一个层面的竞争,但对于大多数普通用户来说实际的效果就是这样。

麦克风的数量多确实更有利于采音,不过它也有不好的一面:麦克风数量越多,成本也就越高,耗电量就越多。目前三星 Galaxy 手机上还是只用两个麦克风。

为了让小冰能够和用户在通话上更为顺畅,微软合作伙伴有信在产品技术上㛑做了众多升级。 例如在通话声音采样方面,传统的电话只需要支持8KHz 的频率就够了,但有信能够支持48KHz的频率。更高的频段下,声音传输到对方不会产生任何问题,从而有利于机器人的识别。例如人发出的叹息声,这在 8KHz 的情况下是无法传递的,小冰因此就不能判断出用户的心情,进行更好的沟通。

行业如何完善麦克风采音技术

麦克风市场领头羊 Knowles 去年的微机电系统麦克风出货量为 14 亿,不过该巨头已经考虑从软件入手改善麦克风芯片。他们开发了一种音频处理算法并将其整合到麦克风芯片之中,这样芯片可以识别什么时候应该激活设备的其他音频处理器。Knowles 的移动消费者电子产品管理副总裁 Greg Doll 表示,这将有利于提升语音识别速度,减少耗电量。

绝对不能问siri的五个问题 听不出你讲的话(4)

其他公司,比如Vesper是在尝试全新的设计。一般麦克风以人声通过空气使震膜震动,从而然后上震膜和下金属铁片的距离产生变化,使其电容改变,形成电流阻抗,不过这种设计容易受水分和灰尘影响,久而久之敏感度就会受到影响。相比之下,Vesper 的麦克风具有较好的信噪比,这意味着更出色的声学性能。它们还是唯一防水、防尘、防震和抗颗粒的 MEMS 麦克风,因而成为了业界最可靠的麦克风产品。

另瓦杜克大学的工程师还开发出了一种能够排除背景噪音的麦克风。这种特殊麦克风在制作时使用了超材料——以重复模式排列以呈现特殊行为的材料——和一种名为“压缩感知的技术”,两者可使其分析出声音的来源,并将其从背景噪音当中抽离出来。

目前,研究者所制作出的原型机宽度大约是 15 厘米,但他们计划在未来将其压缩到智能手机或其他类似设备当中。

各大移动平台的语音助手服务确实给我们的日常生活带来了不少便利,但是它们的表现确实会影响到用户体验等。如果这些厂商能够在完善算法的同时,也将一部分心思放到麦克风硬件的完善上,或许这会给他们带来更多竞争优势。

,