作为智能语音的一种载体,它是否能获得更大空间,还是逐渐被消解掉,成为智能语音的初代形态,还需要时间检验。

文 | 陈梅希

编 | 园 长

此时此刻,不用抬头,问家里的小爱同学、小度小度或者天猫精灵一个问题,它会告诉你答案吗?

不一定,这取决于你的问题是否复杂,语法是否标准,它有没有听懂关键词,或者它有没有这首歌的版权。

所以你可能会听到一个简短的正确答案,一长段语调诡异的来自某个浏览器的长篇大论,一首从来没听过的歌,或者一句干脆利落的道歉。“哎哟喂,这个问题我不知道哦。”

几年前,国内互联网巨头竞相杀入智能音箱市场,仿佛谁占领了这块高地,谁就能拿到通往智能语音时代的船票。一番厮杀后,阿里、百度和小米留到了决胜局,但智能音箱产品却在连续几年快速增长后迎来平台期。

占据市场,然后呢?这是智能音箱巨头们需要回答的问题。

智能音箱三足鼎立,腾讯提前退场

智能音箱最初出现在市场时,背负着很多关于未来的期待。——新一代交互终端、深入家庭空间的流量入口、环境智能化的开启者……

对红火多年的人工智能技术而言,智能音箱是一个诞生于AI时代的绝佳实验品。不算太高的价格,让它迅速占据普通人的客厅和床头,甚至成为一名隐身的“家庭成员”。

2014年,亚马逊发布首款智能音箱Echo,两周内出货量破百万台。美国著名科技记者詹姆斯弗拉霍斯曾引述苹果公司对于这一事件的反应:“先傲慢地藐视,而后又陷入惊慌失措。”随后,多家互联网科技公司下场,智能音箱市场陷入混战,最终占据头部份额的是亚马逊和谷歌,苹果公司紧随其后,Facebook则仍在苦苦追赶中。

如同重复过很多遍的故事那样,智能音箱产品的战火也在后续几年燃到中国市场。

2017年7月,小米在生态大会上发布智能音箱产品。五年后的今天,国内的智能音箱市场呈现阿里、百度、小米三足鼎立的态势,三家公司占据的市场份额已超过95%,且彼此之间尚未分出明显胜负。

人们更习惯用唤醒词来指代这些产品,这些活跃在家庭生活空间中的小爱同学、小度小度和天猫精灵。

巧合的是,国内的智能音箱市场格局几乎可以和国外市场形成一组默契的对照。——一家靠电商起家的公司、一家以搜索和浏览器立足的公司和一家手机厂商,正在占据有利身位;而一家充满社交基因的互联网巨头被甩出一段距离。

小米的优势在于硬件领域多年的积淀,三足鼎立的竞争中,它是在自建智能硬件生态道路上走得最远的一家。在整个生态中,音箱是控制器,将小米空调、烤箱、扫地机器人、洗衣机、台灯、冰箱等种类繁多的家电,纳入同一个家庭智能系统中。

你的智能音箱有多可怕(你的智能音箱为什么这么傻)(1)

图源小米商城官网

严格意义上来看,小米发展智能家居的动作早于小爱同学的诞生。2013年9月,小米发布智能电视产品,同年11月,小米智能路由器问世。直到此时,智能音箱产品仍在酝酿期,亚马逊的工程师们还没从50多个备选唤醒词中选定“Alexa”。

四年后,小爱同学“出生”,在智能音箱市场的成功,加速了小米扩张硬件版图的野心和步伐。小爱同学和其他智能家居产品产生联动效应,为用户选择加码。

2021年10月,小米董事长雷军在微博宣布小米之家门店突破1万家。根据财报信息显示,2021年前三季度,小米IoT业务收入占比为25%。随意走进一家商场里的小米之家,手机柜台几乎只占据两三排,烤箱、空气净化器、电视摆在显眼位置,让人误以为置身于一家微型电器城。

阿里的优势在于渠道和供应链。相比小米的自建生态,阿里依托外部强大的智能设备合作网络,将天猫精灵接入更多非阿里旗下的智能设备。2021年,天猫精灵官方公布的接入品牌超过1000个,智能产品超过5000款。

而电商平台的渠道优势,则为在营销推广过程中产生极大助力。2017年8月,首款天猫精灵音箱发布,在当年双11期间,天猫精灵销售量突破100万台,就此完成用户的原始积累。根据大数据服务提供商奥维云网的报告,2017年国内市场全年智能音箱出货量仅176万台,按照这一数据,天猫精灵在双十一卖出的数量占据当年总出货量的56.8%。

你的智能音箱有多可怕(你的智能音箱为什么这么傻)(2)

图源天猫官方商城

从产品层面来看,三家公司中,百度是起步最晚的。我们熟悉的小度小度并非百度推出的首款智能音箱,2017年11月,在小爱同学问世四个月后,前总裁陆奇在百度世界大会的舞台上隆重地把公司首款智能音箱raven H 带到聚光灯下。然而,这款定价1699元、瞄准中高端市场的产品很快收获市场泼来的一盆冷水。2018年6月,百度不得不调整产品战略,推出售价仅为89元的小度智能音箱,也就是我们所熟悉的小度小度。

你的智能音箱有多可怕(你的智能音箱为什么这么傻)(3)

百度的首款智能音箱raven H,图源渡鸦官网

此时,小米和阿里已经起跑很久。根据市场研究机构Canalys公布的数据,2018年第二季度,天猫精灵和小爱同学已经在全球智能音箱出货量榜单中分列三、四位,仅落后于Google home 和亚马逊Echo。

摆在百度面前的,是每年数百万台出货量的差距。

百度打出的第一张牌是低价。相较于第一代智能音箱产品raven H的高价路线,第一代小度音箱的定价是89元,不到前一款产品的6%。价格甚至低于小米稍早前发布的低价系列音箱小爱mini。

第二张牌则是依托于搜索和知识体系的信息交互与内容供给能力。对于百度来说,在搜索模型中运用的海量用户行为信号和算法能力,可以成为小度音箱算法调优的基础;而百科、百家号等体系沉淀下的文本内容,则能够成小度小度回答问题时的海量召回池。

第三张牌是起步较早的带屏音箱。虽然在智能音箱的早期战略决策中出现失误,但百度是三家公司里最早推出带屏音箱产品的一家,比阿里早10个月,比小米早将近一年。这一张牌帮助百度在没有占据智能音箱市场先发优势的情况下逆转战局,到2020年底,百度智能屏出货量已在全球范围内占据30.5%的份额,且智能屏销量已占据百度智能音箱整体销量的70%。(数据来自市场研究机构Strategy Analytics的相关报告。)

三家公司各自占据有利地形后,留给腾讯的空间非常狭窄。腾讯曾在2018年4月发布一款名为腾讯听听的智能音箱,售价699元,远高于竞争对手。在没有先发优势的情况下,价格不占优且没有特殊优势让这款产品失去竞争力,上市不到一年后,腾讯内部暂停了这个项目。

海外市场上,Facebook尚未放弃。2021年9月,他们推出便携式智能带屏音箱portal go,主打视频通话功能和便携能力。国内市场,腾讯未来是否还会携新品杀回战局,还是一个未知数。

你的智能音箱有多可怕(你的智能音箱为什么这么傻)(4)

图源网络

但摆在智能音箱巨头们面前的,是另一个重要问题。

根据洛图科技(RUNTO)《中国智能音箱零售市场月度追踪》报告,2021年中国智能音箱市场销量为3654万台,同比下降3.5%。市场颓势在2022年初并未好转,2022年1月中国智能音箱市场销量为305万台,同比下降19.4%,环比下降3.5%。

和很多C端产品一样,智能音箱似乎触碰到自己的增长天花板了。

增长平台期背后的三重障碍

智能音箱产品在增长平台期面临的挑战来自于多个方面。

首先,阻力来自技术层面尚未被攻克的难题。从事嵌入式开发的工程师于杨认为,智能音箱最关键的技术是语音识别和NLP(自然语言处理)。“如果追求音质的话,音响本身也挺关键的。”

语音交互的过程中,首先需要用户输入的信息被机器识别,而后对识别后的文本进行处理和理解,才能对外输出新的语音,或完成用户表达的指令。

但在中国市场,方言是语音识别绕不过的问题。南方有很多方言区,吴语、粤语、闽语、客家话等方言大类都有数千万人口使用。方言群体中,很多常驻家乡的中老年人很难用标准普通话和智能音箱对话。对方言区不擅长普通话的中老年人,智能音箱当前不具备可用性。

你的智能音箱有多可怕(你的智能音箱为什么这么傻)(5)

智能音箱开始对方言交互的艰难尝试,图源小爱同学官网

而方言大类内部的语法、词汇、语调不具备统一性,例如福建同一省内就有七个不同的方言区,不同方言区的当地居民如果用方言交流也很有难度。众多复杂因素,导致方言的语音识别和语音交互技术始终没有突破性进展。

普通话环境中,语音识别难度较低,但准确理解语句的停顿、含义乃至情绪,进而做出恰当的反应和回复,仍是一个不小的难题。2018年底,雷军在小米AIoT开发大会上试图向外界展示小爱同学真正的实力,结果在提问“三个木是什么”后,小爱同学突然高歌一曲:“你是电,你是光,你是唯一的神话。”

智能音箱的翻车不分场合,管你是老板还是普通用户,它绝对一视同仁。

尚未成熟的技术,使得智能音箱的形象更接近于蠢萌而非聪慧,更多用户倾向于让家中的小爱同学或是天猫精灵完成机械性的指令。这些机械系指令包括唱歌、开灯、定时等,因为指令明确且往往只有一两个词汇,智能音箱很少会在完成这些指令时犯错。

于杨称,小爱同学对他的唯一作用,是可以躺在床上开关灯,他甚至很少用它放音乐。“因为得事先想好要说啥,手机上点可以(在)菜单里浏览。我想听歌打开软件,听什么歌都可以浏览后再点,但是语音说的话只能一次把指令说完。”

智能音箱的形象和用户的使用习惯,决定了它不是一件迭代需求很强的商品;长期处于室内固定环境中,则意味着它的损耗周期很长;静态的功能,让它不会像手机产品一样存在内存不够的换机理由。

于杨的小爱mini购于2018年,那时他还在为小米工作,一直到今天,他从北京跳槽到上海,家里用的还是这台智能音箱。毕竟对于他这样的用户来说,让一位出生于2018年的小爱同学开灯,还是让一位出生于2022年的小爱同学开灯,根本没有任何区别。

技术层面未被解决的问题,一方面让存量市场很难产生迭代需求,另一方面又让方言地区增量市场的开拓遇到阻碍。触碰到增长天花板,只是一个时间问题。

其次,联动的市场环境决定了许多想象中的产品价值暂时无法发挥作用。

在很多关于智能语音的畅想中,人们将其视作家庭空间智能化的总指挥,坐在沙发上就可以控制窗帘、打开电视,甚至煮上咖啡烤起面包。但在现实空间里,大部分音箱都和于杨家的小爱mini一样,只接入台灯、电视等少数设备。甚至对很多家庭来说,音箱就只是音箱而已。

以智能窗帘为例,接入智能控制系统的窗帘轨道目前单价在500到700元不等,如果一层纱帘一层布帘,则需要两条轨道,成本在1000到1400元。短期来看,愿意为此买单的用户多集中在一、二线城市,智能家居在下沉市场的普及还需要时间。

成套智能家居系统更多出现在酒店空间里,全季、亚朵、秋果等商务连锁酒店的部分门店,纷纷以智能音箱为核心,建立起一整套智能居住系统。作为售卖空间和服务的酒店,居住环境智能化的浪潮显然早于家庭居住空间。

也许在不久的未来,全套智能家居会成为普通人家装的必备选择,到那时候,对于“总指挥”的需求才会更加强烈。

对企业来说,除开底层技术和市场环境,另一个需要面对的难题是商业模式。众多大厂押宝智能音箱产品时,看重的潜力在于它可能是新一代的流量入口,就像曾经用户的时间从PC迁移到移动端一样,流量也可能从移动端部分迁移到智能音箱。

在互联网商业思维中,得流量者得天下,不管后续如何变现,先卡住身位再说。等到局面稳定,增长逐渐步入平台期,变现的手段却还在探索中。

首先是硬件出售本身的收入。为抢夺市场,各家都曾对智能音箱产品进行过大额补贴,百度、阿里、小米都曾推出过百元以下的产品。一位硬件发烧友曾将小爱音箱大卸八块,核算出硬件部件的价格总和大概为170元,不包括组装费、包装费、软硬件研发成本、运输成本等。在硬件设备上,智能音箱的盈利空间很小,甚至很难打平成本。

移动互联网时代,流量带来营收的方式不外乎增值服务、广告、直播和电商。而这几条路,目前看来都在智能音箱这一入口面临暂时的水土不服。

会员和付费内容/功能是较为常见的一种变现手段,也是许多工具类产品的营收方式首选。但智能音箱产品在搭建会员体系的过程中,首先需要挑战的是用户早前建立起的心智。——原本免费可以用的东西,现在付费才能用了;原本手机音乐app里已经购买过的会员,音箱需要再买一次会员才能播放歌曲。

你的智能音箱有多可怕(你的智能音箱为什么这么傻)(6)

明星在综艺中与智能音箱互动,图源芒果TV《向往的生活》截图

对于用户来说,这不是一种能轻易接受的转变。在此前大部分综艺植入中,智能音箱的形象是一个好玩有趣的内容提供者,它能与人对话,和人玩游戏,给人播放指定音乐。一旦建立付费体系,意味着音箱的身份更多地转向工具和内容载体,跟用户原本的预期产生落差。手机端的付费习惯尚在培养期,智能音箱作为一个更低频的工具想直接建立起用户的付费心智,显然还需要拿出更高阶的差异性体验。

至于许多C端产品不可缺少的广告收入,智能音箱目前还无从谈起。一方面,相较短视频或图文信息流等产品形态,智能音箱的内容展现需要很强的交互动作,由用户点对点触发,这种交互形态下,广告信息很难有展现时机;另一方面,广告在智能音箱产品中的展现可能会引起用户更强烈的抵触,在私密的家庭空间,由一台号称人工智能的音箱播报某些符合用户画像的广告,或许会增加用户对于隐私问题的焦虑。

总而言之,底层技术和市场环境拖慢了智能音箱产品的增长步伐,而商业模式仍在探索期,尚无公司提供出标准答案。但挑战也是机遇,不管是当前的三巨头还是未知的新玩家,谁能更早地越过障碍,或许谁就能率先松动当前的市场版图。

智能语音,颠覆性时刻尚未到来

跟踪报道语音技术十多年,和多家互联网科技公司高层打过交道的詹姆斯弗拉霍斯,曾在2019年出版的著作中兴奋地断言:“每十年左右,人与技术的互动方式就会有一个根本性的转变。智能语音时代的到来是人类历史的转折,因为运用语音是我们人类这个物种的特质——这一能力把我们和其他物种区分开来。”

他把语音称为学习成本最低的工具,超越文字和画面,成为人类与机器交互的首选。“人们会抛弃键盘和触摸屏,而选择更自然、更让人自在的语音界面。”

然而事情似乎没有朝着这个方向发展。小度系列通过带屏音箱实现的“逆转”,和各家智能音箱巨头在带屏新品中投入的精力,似乎都在宣称,用户很难放弃屏幕。至少在现在这个阶段,视觉依然是人机交互的重要组成部分。

如同詹姆斯所言,语音确实是学习成本最低的工具,对大部分人来说,这是在生活中天然习得的技能,没有额外学习成本。但同时,语音交互也存在低效问题。在需要更高效接收信息,帮助自己做决策时,人们会像于杨那样直接打开歌单,挑选自己想听的歌曲,而不是自己决定好一切,再准确无误地告诉智能音箱自己想听什么。

归根究底,智能语音技术的发展还未抵达颠覆性时刻,尚不能取代文字/视觉/触觉的交互形态;也有可能视觉/触觉交互和语音交互之间,本就不是演进关系,没有谁会取代谁,不同技术将会相互交融,以满足用户不同场景下对于便捷、效率、舒适等多方面特征的需求。

随着越来越多带屏/触屏音箱配备电池,支持长时间不插电模式,智能音箱开始同样具备便携性。甚至音箱这个名称也只是一种习惯性的延续,一个便携的触屏智能音箱,看起来更像是一块平板电脑安装了喇叭和智能语音系统。

你的智能音箱有多可怕(你的智能音箱为什么这么傻)(7)

百度的可旋转智能屏新品,图源小度商城官网

未来,有很多屏幕都可能完成这样的转变。那块能听懂人说话的屏幕可能是平板电脑、手机、电视、或者冰箱上的液晶显示屏。Alexa只是住在亚马逊Echo音箱里的智能助手,它也会住在任何地方。

从实际使用情况来看,居住在音箱里的各位智能助手,更多承担的是娱乐职能和简单的工具职能。

北京大学信息管理系研究生王艳卿曾在研究中指出,好奇是大部分用户在家中使用智能音箱的最初动机,85%的被访家庭明确表示当初购买智能音箱是出于好奇的目的。通过综艺植入和广告,智能音箱给消费者留下的印象是新奇有趣,在低价促销的催化下,好奇心最终转化为购买行为。

与之对应的是购买后的使用行为。根据艾瑞咨询2021年发布的报告,下沉市场用户使用量最高的功能是播放音乐,占比高达69%;其次是询问天气、播报新闻/故事和设定闹钟;控制家电排名第6,占比是34%。

这些被高频使用的功能,都是国内智能音箱在诞生之初就具备的。五年后,并没有出现颠覆性的新技术,足以让用户改变“新奇有趣”的初印象,用更严肃的目光看待这些每天被唤醒的智能助手。

从增长和营收的角度来看,智能音箱已经走到十字路口。作为智能语音的一种载体,它是否能获得更大空间,还是逐渐被消解掉,成为智能语音的初代形态,还需要时间检验。

而智能语音同样也走到了十字路口,截至目前,詹姆斯口中的智能语音时代尚未到来。如何让用户真正无障碍地实现人机对话,让取着人类名字的语音助手们表现得像是个成年智人,而不是时常闯祸、偶尔逗乐或完成简单任务的孩童,我们需要的也许不止十年。

(应受访者要求,文中于杨为化名)

参考资料

1.王艳卿,刘畅.家庭环境下智能音箱用户的信息行为研究[J].文献与数据报,2021,3(03):116-128.

2.[美] 詹姆斯·弗拉霍斯,苑东明,胡伟松译.智能语音时代[M].电子工业出版社,2019年.

3.带屏下沉 “下沉”专题系列报告-智能音箱消费行为报告2021年[C]//.艾瑞咨询系列研究报告(2021年第5期),2021:610-634.

,