从2011年苹果在iPhone 4S上集成Siri开始算起,语音助手在智能手机上已经出现快十年了。随着语音识别、AI技术的日益成熟,如今这项功能在手机已经完全普及,并且延展到了智能电视、智能家居等领域中,它的未来前景也被无限看好。
实际上,语音AI技术带来的功能也不再局限于简单的虚拟助理,发展出了语音输入、语音翻译等更多实用的应用,它对我们生活的渗透进了方方面面。
苹果语音助手Siri刚刚推出时,曾经引起过一阵不小的热潮。当时甚至有民间开发者制作出了相应的Cydia插件,让没有得到官方支持的iOS设备,也能在越狱后用上语音助手功能。
语音助手通过语音来实现人机交互,并且具备虚拟助理的功能,这种形式当时显得非常新颖,一下子引起了很多用户的好奇心。
苹果开了头,加上市场需求的强烈驱动下,其他科技厂商也纷纷发力语音助手功能。2011年,谷歌在Chrome浏览器的搜索引擎中加入了语音搜索功能,以满足广大使用者语音输入的需求。
2013年,微软的语音助手Cortana在Windows Phone系统上线。Cortana展现出了微软在语音识别领域多年累积的技术优势,就使用体验而言,“小娜”的语音效果极为接近真人发声,几乎能达到以假乱真的效果,一下子拥有了无数拥趸。
与此同时,国内的语音AI公司也在积极推出类似的产品。例如科大讯飞就推出过语音助手App,而且它也是魅族、OPPO等国产手机厂商的合作商,很多用户手机上的语音助手或智能助理都在用科大讯飞的语音识别技术。
不过,当语音助手在手机上快速普及并且日渐成熟时,大家对它的热情却似乎在慢慢退却。就我个人的体验而言,在公开场合极少能看到有人用手机的语音助手功能,尽管越来越多的厂商在大幅度地提升语音助手的优先级,比如增加独立的AI实体按键,把AI语音助理的开关放在桌面显眼的位置等。
很多人包括我自己在内,不喜欢用语音助手,原因要么是不好用要么是不方便用。现在主流语音助手的语音识别能力普遍比较强,但仍然会有翻车的情况发生,尤其当环境比较嘈杂、语音语义存在歧义(也可能是普通话发音不准)的情况下。很多时候,直接手动操作,会比呼出语音助手帮忙方便不少。
不方便用,就很好理解了。在公开场合下用语音助手,一方面要克服在大庭广众下对着手机说话的羞耻感,另一方面要可能要顾及自己的隐私不被暴露。
就现在来说,智能手机相当普及,我们对这种必需品的操作熟练度已经非常高,很多时候不太需要语音这种交互形式来实现各项功能。这种情况下,手机上的语音功能有时候的确会给人一种比较鸡肋的感觉。
语音功能在IoT中大放异彩
语音AI技术并没有止步于智能手机,而是拓展到了其他产品上。现在,不管是智能音箱,还是智能电视,以及各类层出不穷的智能硬件产品,只要被冠于“智能”这个头衔,就少不了语音控制的功能。
有意思的是,到了家庭环境中,语音AI技术的优势似乎被更加充分地释放出来了。更加私密的场景下,我们使用语音交互的意愿被大大增强。在相对封闭的环境下,用户不用担心隐私的问题,心理防备也会降低,自然尝试语音交互的可能性也会增加。
像电视音箱这类产品,传统的操控工具无非是实体按键或者遥控器。相比之下,语音的优势在于解放了使用者的双手。家庭环境里,用户在做家务等腾不开手的场景下,直接用语音命令来实现影音播放、家居控制等功能,无疑极大地提升了效率,使用体验也更进一步。
近年,不管是智慧屏还是部分品牌的高端电视,都增强了大屏设备的拾音效果,通过增加收音麦克风等方式,让用户随时随地都能唤醒作为智能控制中枢的电视设备。目前业界普遍认为,未来5G、大宽带的普及,以及AI技术的进一步发展,会把我们带入到一个万物互联的时代。
当所有我们能接触到的电器、设备都能连上网并且具有智能功能后,如何方便地操控它们,会成为最关键的问题。目前来看,语音是学习成本最低、使用最为便捷的交互方式。
5G、AI、IoT、万物互联……关于未来,有点野心的科技厂商都不想错过,苹果、谷歌、小米等公司,不断加强语音AI技术在手机系统中的存在感,很大程度上是在提前布局,持续培养用户习惯,让目标群体在不知不觉中,融入厂商建立的生态圈中。
对特定人群而言,语音是革命性的技术
另外,不可否认的是,对部分特定人群而言,语音AI相关技术在推动移动互联网和智能生活上,发挥着举足轻重的作用。
对很多“高龄”用户来说,在手机上用虚拟键盘打字,学习成本太高、难度太大。也正因为如此,很多长辈在聊微信时,非常喜欢发送一长段一长段的语音信息,这让很多人不胜其烦,恨不得让微信砍掉语音功能。
但现在,微信等社交应用,以及部分第三方输入法,已经支持语音输入功能,可以把语音转成文字。以目前的技术水平来看,主流语音输入的识别准确率和可用性已经相当高。像智能手表等小屏设备,语音控制很多时候也比触控操作要方便得多。
此外,对部分视觉障碍人群而言,语音AI技术的发展,很大程度上降低了他们使用智能设备、享受移动互联网生活的门槛。我们之前曾经测试过一些日常生活中的主流应用,通过语音和实体按键交互,盲人群体也能比较方便地完成很多操作、使用不少功能。
不管你愿不愿意接受,近年互联网技术的发展,是一个不断侵占用户隐私空间的过程。即使是向来标榜尊重用户隐私的苹果,也在2019年被曝出隐私问题,Siri上传的用户语音数据,可能会被人工获取和分析。
隐私和技术之间的平衡,对研发语音AI的公司来说也是一个难题。理论上来说,想让语音功能变得更加好用和智能,必然需要对用户的语音数据进行分析和优化。而关键问题在于,这些被收集的信息,被泄露、非法利用的可能性有多大。
去年,咨询公司埃森哲曾对中国用户进行过一次调查。数据显示,中国用户对语音助手的满意度高达97%,但信任度依然不高。中国用户对语音助手的最主要的担忧分别为安全顾虑、用户需求不被理解和隐私。
而且,在发生过网络摄像头被窃取、开房数据被贩卖等负面事情后,国内消费者对隐私问题的警惕性并不低。
2018年,欧盟通过了史上最严苛的个人数据保护条例GDPR,明确了用户对个人数据拥有绝对的掌控权,对企业违规的惩罚也极重,最低罚款1000亿欧元。
站在用户角度来看,这可能是好事,能遏制住企业对用户数据滥用和对隐私的侵犯行为。但是,过于严格的限制,也会让科技公司在推动语音AI等需要用到大数据的技术进步上,面临更大的困难。
如果把眼光放得更加长远的话,我们相信,未来科技生活中,语音在人机交互中的重要性将会大大增强,在智能家居等场景下,甚至会成为最主要的操作方式。只是,在这个过程中,我们希望自己的个人数据,也能得到更加妥善的处理。
,