ai语音和ai声控(被嫌弃的AI语音)(1)

大家好,我是最近对智能语音意见很大的 Mr.Yu。

不久之前,我们在这个专题的第一期《被嫌弃的 AI 语音(一)——不只是因为它像个傻子》里,对语音的现状、槽点、伪需求和背后的成因进行了一番探讨。

总地来说,智能语音是个被打包得很好的产品概念,同时也存在太多需要祛魅的地方。

正因为一开始就认识到了这一点,所以我们也没有将讨论的空间局限在车内。

这次我们依然会就 「既然都说智能语音好,为什么还是有这么多人不喜欢它?」 的问题,以及更多的背后故事进行讨论。

ai语音和ai声控(被嫌弃的AI语音)(2)

为了更多维地了解问题的全貌和本质,我约了来自汽车行业不同链条的朋友们,抛开偏见和刻板印象,一起聊聊。

为了尽量保持内容的全面和易读,这个系列将会采用还原对谈内容的方式进行呈现。不是正式的专访,交流中也会有一些我个人的观察和思考。

文章涉及很多人的从业经历和个人观点,所以被强烈要求匿名,这次依然称他为 Mr.K。

这次的主角第二位 Mr.K,是一位在汽车语音领域深耕的人士。根据他的自述,在进入汽车行业之前,在语音行业头部大厂做过许多年的车载语音运营。

借用一下梁文道先生《八分》节目的 slogan—— 不保证成功,不一定有用。对于从业者来说,不停止思考才更重要。

以下是对谈的实录,Mr.Yu@GeekCar 是我,另一位是 Mr.K。

ai语音和ai声控(被嫌弃的AI语音)(3)

图片来源:Unsplash

Mr.K:

我看了你们写的一期讨论智能语音为什么智障的文章,还挺有意思的。

上一位 Mr.K 是位资深的座舱产品经理是吧?那这次我就以一个在语音大厂的车载业务运营岗位上工作过的人,来跟你讨论这些问题,我可能跟上一位 Mr.K 在很多观点上会不太一样。

Mr.Yu@GeekCar:

你肯输出不一样的观点就太好了。

其实上一位 Mr.K 也私下跟我说过,希望看到这个系列做下去,看看来自行业不同链条的大伙儿会有什么样的真知灼见。

Mr.K:

你们是从讨论什么是智能语音开始话题的,那我更直接一点:我认为倚重语音的车,不算智能汽车。 也就是说,智能语音不会是智能汽车的一个必备条件。

讨论汽车智能的大前提是什么?是自动驾驶吧。

你想想,L4 甚至 L5 级别的自动驾驶都上来了,服务于驾驶的交互都没了,我要语音干什么?

ai语音和ai声控(被嫌弃的AI语音)(4)

Mr.Yu@GeekCar:

你的意思是,眼下我们之所以倚重语音,甚至将语音好当做卖点,是因为用户无法脱离驾驶行为,才衍生出来的。

之前我在写 Robotaxi 报道的时候提到过,商用自动驾驶的座舱里面空无一物,甚至设备高度定制化,也是一种可能性。本质上是以「我爱干什么就干什么」为核心,而不是别人决定我在座舱里面干什么。

ai语音和ai声控(被嫌弃的AI语音)(5)

图片来源:Unsplash

Mr.K:

对。顺着你的话说,到时候连那块屏幕都没有了,我在车里坐着就可以拿手机来做事情,所有的交互和需求都可以通过手机来完成,我还要语音干什么?

在上一个十年,我们会把车上放个支架、夹上手机当做很平常的事情。到现在语音已经成了新车标配,我们或许可以一定程度上放下手机了。

所以说,语音到底是一个阶段性产物,还是趋势?

你要让我说的话,语音是趋势,而且很明确。但现在语音的性质变了,被人们当做了一个时髦的东西。这里面要区分清楚,时髦跟趋势是两个完全不同的概念。

Mr.Yu@GeekCar:

时髦和趋势,我觉得这个话题可以展开说说。

大家能明显感觉到,有的内饰设计师倾向于把无线充电板「藏」到不显眼的地方,大概就是想让你开车的时候少碰手机,多用车机。

Mr.K:

咱们后面总结的时候再讨论,聊下来你就明白了。

回到文章想讨论的核心议题,语音为什么看起来像个傻子?

很多车厂和语音供应商在规划产品的时候,他们开发的核心其实是依赖场景的,就是基于场景来开发功能。语音如果没有场景化,对用户来说是很难区分的。

ai语音和ai声控(被嫌弃的AI语音)(6)

你们上次提到了能力边际的问题,这就很准确。很多普通用户对车上的语音,尤其新车的语音是没办法掌握能力边际的。所以大家对车的期待,浅层心理上就变成了对活人的期待,觉得语音能听得懂我所有的话,并且落实。

一个特别典型的例子,我可能上一秒还在让语音助手给我导航,下一秒我就问它「你爸爸是谁」。也就当前的行业水平上来了,对这类交流还能应付。

其实这种不确定性,就是人类之间交流最自然的状态之一。你有什么办法呢?

一旦不好用的话,中国有句话怎么说来着?好事不出门,坏事传千里。一旦有一点不能满足我的诉求,我就会觉得你不好,我就会觉得语音不聪明,像个傻子。

所以咱们认真地说,语音的好与坏,它有量化标准吗?

ai语音和ai声控(被嫌弃的AI语音)(7)

图片来源:Unsplash

Mr.Yu@GeekCar:

也许没有标准,但是大家都在追求,或者说追逐。

就像咱们人类的日常交流里很自然的东西,车厂会将之特意标签化,而且会一定要说出来。

Mr.K:

对。宏观上来看,其实人们自然而然地把终极目的变成评断语音好用不好用的标准,就是能不能达成使用者的目的。《一代宗师》里叶问怎么说的来着?「功夫,两个字,一横一竖。对的,站着。错的,倒下。只有站着的才有资格说话」。

语音作为工具来说,不可能在最开始就开发出所有的场景。所以厂商智能针对高频的场景和应用去打磨,导航、听歌算吧?打电话、问天气算吧?尽可能地在他们觉得高频的场景上面去做、去打磨。

但是我们需要正视一点,做了相应的工作,并不意味着开发的东西上了车就一定好用。

Mr.Yu@GeekCar:

这是为什么?

Mr.K:

咱们把买车的人统统叫做「用户」,但用户也是十分细分的。

比如说有开卡车的,有开皮卡的。有开豪车甚至坐豪车的,也有自己一个人开迷你小车短距离通勤的。不同的群体对语音的诉求不一样,关注的点也不一样。

所以我想表达的第二个观点就是,其实好的语音产品是需要运营的。

举一个很简单的例子,科大讯飞以前有个类似智能音箱的东西叫阿尔法蛋,你有印象吗?

Mr.Yu@GeekCar:

我记得像是个早教机那样的智能音箱。

ai语音和ai声控(被嫌弃的AI语音)(8)

科大讯飞 阿尔法蛋 S

Mr.K:

对,这个东西现在卖得还很好,只不过不是卖给成年人的。对象是谁?从小小孩儿到义务教育阶段的孩子都是目标用户。

它有个核心功能,就是小孩子会每天问它问题,那它肯定会有答不上来的时候对不对?

所有这些答不上来的问题,都会返回平台。平台里面就会有人针对这个问题去编辑,告诉 AI 以后怎么回答。

比如有人问 GeekCar 的 Mr.Yu 是谁,它今天没有回答上来。然后过两天有人去编辑了一下,之后所有问这个问题的人都会得到答案。

Mr.Yu@GeekCar:

我想到了上一篇我们说的那句话,有多少智能就有多少人工。

Mr.K:

对,我要说的就是这个。

我当然知道大家都是当笑话或者自嘲来说的,但要是当真的话,我会觉得并不是特别恰当。

因为要是这样的说法被当真了,就相当于抹杀了做算法的科技工作者们的价值和辛苦。

其实语音运营的本质,就是和用户一起,在调教好一个像小孩子一样的语音。你告诉它什么是正确的,它会记住,然后在再次碰到的时候告诉所有人。实际上,这个效率是不低的,而且并不是说特别深层次的人工介入才能完成。所以,我要反驳下上一位 Mr.K 的观点。

语音就像个小孩子,你越教它,它就越聪明,越好用。 所以为什么说运营很重要?运营其实就是在教它,后面可能是几十甚至上百人的团队在运转,在教语音怎么去做事。

行业都说小鹏、蔚来的语音做得好,为什么?因为背后有人在处理这些细节。

ai语音和ai声控(被嫌弃的AI语音)(9)

Mr.Yu@GeekCar:

听起来非常的养成系。

Mr.K:

对,很准确的形容。能看得见的流程,就包括了录制、转写、语义理解这些步骤,每个步骤都有自己的难点。

尤其语义,后面有大群的人去做语义理解,要靠人工去标,包括很多语言学家。

就像你们都知道的语音头部大厂里面,有大概十几位语言学家在跟他们一起工作。

为什么?因为语言太复杂了,要靠语言学家才能总结出规律。单纯的靠人力一个一个去搞,那不会提升,也总结不出规律。语言学家要去发现这里面的规律。

说个很好理解的例子。「妈妈」这个音在全世界都是妈妈的意思,这就是规律。

语音团队的语言学家就是要去发现和定义这些规律,让程序员去实现它。

然后就是上下文的环境和理解,这就很有意思了。比如说,合肥方言里的「麻个」就是明天的意思,这叫特质。单独拎出来不好理解,但要是把语义理解做好了,就有可能实现。所以能够成体系地做方言的语音,是件很厉害的事情。

ai语音和ai声控(被嫌弃的AI语音)(10)

Mr.Yu@GeekCar:

听你说的这些我突然想到一个笑话,就是北京人说的「卧槽」到底是什么意思。不同的语调和语气,不同的重音,到底是骂人?还是表示惊叹?还是不屑?就很复杂了。

Mr.K:

对,这个例子很典型。帮 AI 弄清楚这些,就是团队里的语言学家要做的事情。

咱们接着说,AI 已经理解语义了,接下来要做的就是下发指令。语音要想跟整个座舱连接起来,要去给所有相关的零部件发送指令。这中间的关键问题是语音能够访问哪些控制器,哪些访问不了。就像有些车型为了安全,会主动屏蔽车机传递指令或访问控制器的权限。

比如语音绝对访问不了方向盘、变速箱、刹车,你也不能跟它说「换挡」,对吧?

我们能看到, 跟安全相关的东西,语音是无法触及的,这才合乎基本逻辑 ,也是为什么说语音不是万能的。基于这点,为什么有时候你们做座舱评测说的语音功能不完整,往往就是语音没能触及应该触及的部件。

我再举个例子。现在大家工作生活节奏都很快,很多人喜欢在车里午休。你看包括新势力在内,很多车都早早地推出了午休模式,对吧?想要休息的时候,我会跟语音助手说进入休息模式;而不是一项一项地跟它说,关上车窗、座椅放倒、空调多少度、播放舒缓音乐等等这些碎片化的繁琐指令。

从这里就可以看出, 语音的核心目的还是要做好「助理」这个角色,调配车上相应的软硬件资源,特别是座舱的资源。 是不是有的人说,智能化就是车上夹个手机?我当然知道这是调侃,但即便作为玩笑,这句话也是禁不住推敲的。

ai语音和ai声控(被嫌弃的AI语音)(11)

图片来源:Unsplash

Mr.Yu@GeekCar:

照你这么说的话,为什么语音能实现的效果又是参差不齐的?

Mr.K:

原因很多,我举一个简单的例子。

人们觉得语音没有大用的原因,很大一部分是供应商开发出了一个标准版,然后给到主机厂。主机厂也不投入力量去运营,反正就是把它作为功能往车上一装,然后就不管了。「反正我有了」,其实这是个不负责任的做法。

于是就变成什么了?两年前出的车,语音就是那个鸟样子;两年过去了,一点儿都没变,一点儿提高都没有。没有与时俱进,这种僵化的思维实际上相当坑人。

Mr.Yu@GeekCar:

理解。你说的这个现象,让我想起了很多办「正经事」的网站。设计陈旧就不说了,框架也不怎么合理。有的时候你要想把流程走完,还会对浏览器版本有要求,不能太新,不然的话不兼容,指不定就在哪个步骤那里卡住,前面的东西全都白白填写和上传。

Mr.K:

对,你倒推几年再看,主机厂还有一套思维很有意思,就是有些主机厂会把语音当做一个时髦的东西去运营。友商没有的我可以没有,但友商有的我也得有,这就是时髦。

就好像我看到有人染了一撮绿头发,我也要染,但为什么染绿的,我不会去深究。代入到汽车行业的话,你可以看到特斯拉搞的一体化车身,国内很多车厂也有样学样地开始搞起来。

的确这样会提高生产性,省了很多模具跟焊接的成本。但大家想清楚为什么要这么干没有?特斯拉的智能驾驶已经很厉害了,它能规避掉很多小磕小碰,所以它搞一体化车身完全没问题。我们的传统车可以吗?具备这个能力吗?大家都搞一体化车身,撞了怎么办?也像特斯拉一样,三十万的车,撞一次修起来就要二十多万?

说回到我们讨论的问题上,语音的核心目的是什么?

Mr.Yu@GeekCar:

你这么问的话,我觉得

肯定不是因为不用动手。毕竟语音没有上车之前的上百年里,人类开车都这么开过来了。

ai语音和ai声控(被嫌弃的AI语音)(12)

图片来源:Unsplash

Mr.K:

这是你们第一期对谈的时候没有聊到的一个点,咱们今天可以说说。

也不卖关子了,我认为是核心价值是提升效率,交互的效率,指令的效率。其实语音是个组合技,这是个很游戏化的说法。以前我要好几步操作的交互,现在一句话就达成了,这就是效率的提升,也是它真正产生价值的部分。

为什么说做语音要谨慎,不能大吹特吹?你跟车载 AI 说,声音大一点、小一点,不如你自己动动手指来得更快和准确。你让座椅放倒或立起来,这东西怎么用语音量化?还是物理按键更加方便和直观,对吧?

说到这里,大家又会把语音跟所谓的虚拟形象搞到一起去了。

Mr.Yu@GeekCar:

车载 AI 的虚拟形象难道不也是一种时髦吗?我一个不用抖音跟小红书的人,都能经常看到社交网络上流传的,一些蔚来车主精心打扮 NOMI 的图片,很有意思。

Mr.K:

那么你觉得车载 AI 为什么要具象化呢?

Mr.Yu@GeekCar:

我可以引用下蔚来最开始做 NOMI 时候的说法,是解决了人在车内冲着空气喊话的尴尬。

Mr.K:

要让我说的话,还是为了让人喜欢。你看现在是个车就有车载 AI 助手,就有虚拟形象,车厂们花了几十上百万去做设计,甚至用户还能跟 QQ 秀似的玩定制,一个比一个精美。

但是 NOMI 有个讨巧的地方,就是它都是表情符号,足够简单,留出了足够的想象空间,而且能让人以最快的速度 get 到点。用郭德纲相声里的话做,叫做「一想之美」。不用特别具体,你觉得他怎么好看,他就是你觉得好看的那个样子。

因为人的审美是特别特别细分化。有人喜欢粉色,就有人喜欢蓝色;有人喜欢长脸,就有人喜欢圆脸。越具象化的东西,就越难让更多的用户真正地去喜欢它。所以说 NOMI 这种形态占了个便宜,就是用表情符号来表达感情,对应了用户很容易在头脑中自然而然地产生对他自己来说最美好的场景。

咱们在比如说,有人喜欢二次元美少女,就有人喜欢看帅哥,还有人喜欢拟人化的非人类形象,大家的审美都非常具体。但是当车里出现一个特别具体的形象在那里,就意味着要舍弃掉模糊的形象带来的神秘感,也要舍弃掉不喜欢这个形象的那部分人的好感。

所以我今天为什么一直说 NOMI 很讨巧,是因为这类设计不会进入细分的审美区间。 用户可能并不 care 车里的语音助手长什么样子,但用户明确知道,自己不喜欢什么样子的 。

我这里只是举个例子,通过这个例子来发现主机厂做语音的时候,为了赶时髦而做出的一些选择。 现在又把虚拟形象和语音结合到的一起,甚至强调虚拟形象,实际上也是脱离了本质。语音的本质还是像我刚才说的,简单、高效、一键直达。

ai语音和ai声控(被嫌弃的AI语音)(13)

Mr.Yu@GeekCar:

那你对通过语音炫技是什么看的呢?车厂总会有传播层面的诉求,炫技是个制造话题的利器。

Mr.K:

我们刚才聊了时髦。炫技就是你时髦,我要比你更加时髦,就好像街面上那些穿着夸张的衣服改了车辆排气管「炸街」的人一样。

当然我的比喻可能有点偏激,但差不多就是这个意思。既然语音是强调效率和准确性的工具,那我们去实现细节和功能不好吗? 真正地去识别车里需要用到的场景是哪些,把这些场景做精,比起把所有场景都做一遍更加靠谱, 就是你们上次在讨论伪需求的话题时讲的:小而精,而不是大而全。

比如北京有簋街,合肥有罍街,读音有些相近,字也都很难写。但语音发起导航,是不会把这两个地方搞混的对不对?就是这种细节上的不断完善,高频场景做好了,大部分人的需求得到满足,用的人才会越来越多,后台运营人员收到的正常情况才会越来越多。

用户用得越多,运营人员遇到的问题越多,越会去解决和优化,之后的体验就会越好。体验越来越好,用户会越来越信赖,用得就越多,这是一个慢慢建立起来的正向循环的模式。

相反,我的智能语音什么场景都有,什么场景都做不精。用户试了两次,不是反应很慢,就是表现得像个智障,那也就不会再用了,后台什么数据也没收到,运营更加无从谈起了。

Mr.Yu@GeekCar:

你觉不觉得智能语音之所以在国内走得快,跟车企之间的竞争,和他们对于产品力的行业焦虑有直接关系?

Mr.K:

我最近还看到一篇文章,说中国的车企现在很疯狂。疯狂到什么地步?不是几年出一款车,而是一年出几款定位相近的车。现在中国六七万的车型里面,有的都已经能达到外国中端车的电子配置。什么 L2 级别的辅助驾驶、什么语音、大屏,能上的都给他整上去。

这些东西都做上去了,然后现在的年轻用户会觉得,你这个东西连个变道辅助都没有,连个语音都没有,扯淡呢吧?

对于现在的 90 后甚至是 00 后,这一波人马上就要步入汽车高消费主力群体的时候,你会发现他们的关注点已经跟以前的用户不一样了。

ai语音和ai声控(被嫌弃的AI语音)(14)

Mr.Yu@GeekCar:

你说到这里,我就想起来之前的一个词叫做「千元机」,现在这个说法很少用了。

就智能手机来说,我们现在经常会说高端品牌、旗舰机型这些定位。两千元以内的手机,消费者对它的预期和要求,就没有高端机型那么苛刻。不要求它有很强的性能,或是很好的设计。该有的都有,用起来不掉链子就行。

然后我们看到随着时间的推移,硬件性能的提升,品牌对体验的理解也在提升。现在的千元机可能跟几代之前的旗舰机型相比,用户能获得的体验实际上差不多太多了。

Mr.K:

所以说,中国车企和外国汽车品牌走的路已经岔开了。中国的汽车市场的确大,很多外企觉得这边只是它们赚钱的地方,而不是创造需求的地方。

国内的用户基数大,这样的市场环境决定了,产品形态的诞生和发展速度都很快,在法律法规框架允许的范围内,有很多东西也更容易玩儿起来。正因为这样,智能化是中国车企弯道超车的利器,这点不容否认。

OK,大家都卷起来。一个功能一个产品形态,一家主机厂有了,一个自主品牌有了,跟这家品牌接近的三家主机厂很快就来了,然后再远一点的主机厂也来了,然后整个行业都有了。

现在我们的手机可以导航,车机可以导航。以前的导航什么样子?车里有 I-Call 的话,打电话给呼叫中心的人工坐席,让人家在电话里给你导航,或者给你推荐餐厅。当然,性质跟 E-Call、B-Call 这种重要且紧急的远程支持还是不太一样,也不是所有品牌都能做。

Mr.Yu@GeekCar:

某种程度上就这一部分的讨论来说,其实现在的用户是行业内卷的受益者?

ai语音和ai声控(被嫌弃的AI语音)(15)

Mr.K:

对,时间倒推一下,好多年前,先是上汽荣威的某款车搭载了语音,很快奇瑞、江淮、长安、广汽这些传统品牌都有了。等 4G 通信时代来的时候,流量超级便宜,然后我们开始上在线的语音。因为能调用云端的算力,更高的识别率、更好的效果、更丰富的体验都有了。

稍稍回顾一下这个发展过程就会发现,语音的价值,第一是解决用户刚需,第二是让用户的用车体验更好。只有实现了这些,不管是作为交互形态,还是作为产品,它才能铺开。

所以现在行业把语音的基础能力卷完了之后,就是咱们现在看到的多音区、可见即可说、情感丰富拟人等等这些了。

Mr.Yu@GeekCar:

所以总结下,我们所说的智能语音,本质上来讲其实和鼠标键盘游戏手柄这些一样,是用户和系统沟通的手段,并不是说谁比谁高明许多。

当然我并不是否认语音的技术含量。我知道语音和计算机视觉一样,都是人工智能这门综合科学里最高深的部分。

只是过度鼓吹某种交互的价值,或是向用户传达无法实现的不合理期待,这些是需要慎之又慎的。没有无缘无故的爱,也没有无缘无故的很,用户不会一直无端地给予你信任。

Mr.K:

对, 我们看到了炫技和基础能力之间的矛盾,这其实是时髦和趋势之间的博弈。

对于炫技和能力,我们到底应该选择哪一个?那我们肯定选择能力,而不是炫技。

因为炫技不产生任何价值,能力才产生价值。茶叶的包装再精美,茶叶本身品质不行,你也卖不上价。你卖上去价,用户也只会觉得你骗了他。所以最后还是个如何实现价值的探索。

写在最后

感谢看到最后的每一个人,这次的内容不算短。

说实话,我也没想到一句作为自嘲而流传甚广的「有多少智能,就有多少人工」,会被提出异议。

在这个年代的我们,已经太习惯于被故事打动。但事实上就像这次对谈里聊到的,用户没有那么宽容,好与不好,用或不用,没人在乎背后的故事。所以,讲了那么多故事,到底是感动了用户,还是感动了自己?

跟第二位 Mr.K 关于时髦、趋势和价值的讨论,是否更加接近这个系列话题的本质了?

对于这些问题,我在第二位 Mr.K 这里得到的也不是答案,而是代表了一位从业者基于自己的经验和思考,而得出的结论。

我想,我仍然更期待在下一位聊起这些的 Mr.K 身上,听到些不一样的声音。

ai语音和ai声控(被嫌弃的AI语音)(16)

,