“说话不就是再平常不过的事情嘛?”特雷弗·考克斯(Trevor Cox)说,“我们将聊天视为理所当然,但在生活中,它扮演的角色是如此重要,又是如此复杂。”

人工智能可以识别人的大脑(从尼安德特人到人工智能)(1)

考克斯是英国索尔福德大学的声学工程教授,是一名声学专家,著有《这才像话:从尼安德特人到人工智能——人类对话的故事》(Now Youre Talking: Human Conversational from Neanderthals to Artificial Intelligence)。

美国科技媒体The Verge围绕人类语音、人工智能和耐人寻味的“心声”等话题采访了考克斯,访谈内容如下:

首先,您能否谈谈人类语言的进化?按您书中所述,我们至今都不清楚人类语言究竟何时产生,以及它是如何产生的。

考克斯:对于口头语言是如何出现的,我们并不确知。目前的争论焦点在于:

智人是唯一能说话的人类吗?

还是说,尼安德特人也会说话?

证据日益表明,曾经的尼安德特人也会说话。

人工智能可以识别人的大脑(从尼安德特人到人工智能)(2)

考克斯

我认为尼安德特人很有可能是会说话的,而我估计,语言或许滥觞于50万年前。

有研究人员在寻找关键事件——是什么触发了语言的产生——而最重要的触发点似乎就是人脑的扩容。这也可能跟语言无关,可能是为控制手部活动,结果促进了智力的发展,成为语言诞生的契机。我们的灵长类祖先只会啼叫、呼啸,我们本来可能也是这样。

人声有何特殊之处?又有什么欠缺?

考克斯:当然,一些动物,比如鸟类,就有一些相当特别的本领。

人类区别于跟我们亲缘最近的灵长类之处在于,人脑可以进行十分复杂的控制。人脑很擅长控制讲话需要动用的百来条肌肉。我们的语速可以快得惊人,而这都来自对这些肌肉的控制。这一方面是因为人脑的改进,另一方面也有生理原因。人类喉咙相对较低,使舌头得到解放,从而能在不同的音之间,实现快速转换。

您谈到过声音的保养。这可以用手术实现,但有没有非侵入性的选项?

考克斯:人声有一个特点:衰老得很慢。我刚过50岁,头发都发白了,但声音跟年轻时差别不大。我想,关键就是要不停地讲话。

真的,只要不大喊大叫,你的声音相当强健。它牵涉到很多肌肉,还有脑部连接这些肌肉的神经,它需要保持运转——常用常新。这跟去健身房举铁是一个道理。

加入合唱团就是不错的主意,不但能锻炼发声系统,还能避免因为年纪大了,跟人聊天少了,而变得很孤立。

您的书中,有一部分篇幅是探讨“心声”的。能深入谈谈这个吗?

人工智能可以识别人的大脑(从尼安德特人到人工智能)(3)

考克斯:心声是很神奇的,它跟随我们一生,但很少被我们关注。

我就了解到这样一个有趣的项目:研究人员找到一批作家,探讨他们在创作时,对人声的使用情况。作家们表示,他们的感觉就像“偷听”作品中人物的对话,找到他们的“声音”,才能将对话写出来。因此,这并不是简单的听写。你得先在脑海之中,听到人物的声音,这可不简单——仿佛你在述说自己的想法,但有时候,那个人又不尽是你。

您参与了一个项目,主题是话剧、电视和电影的台词清晰度问题。为什么会出现这类问题?

考克斯:近120年间,表演与演唱的风格变了。人们不再追求字正腔圆。一旦抛弃表演腔,你就可以表演轻声细语,以及不同的口音。这解放了演员,但也让对白无法听清或听懂。所以,现在的表演更自然了,但对白却更难听清。

大多数日常对话中,你都会有一些听不清楚的字词。但看电视听不清某些对白就会很难受。我所参与的,就是一些电视剧的混音。

人工智能会如何改变人声,以及改变我们跟技术交互的方式?

考克斯:你一旦赋予技术一种声音,它似乎就有了自己的形象。

我想,我们看待计算机的方式会因此改变。它似乎有了自己的性格。我们会像对待人类一样对待它们。我们不会将计算机视为呆头呆脑的奴隶。或许,它们会更像是宠物。

人工语音正在不断改进,也会日益被作为诈骗工具。一些电话听上去像是人类打来的,但其实是计算机所为。

比如那些钓鱼诈骗,你朋友打电话来说:“我在乡下迷路了,你能帮帮我吗?”如果这是一条电话留言,就会显得相当可信。它肯定会出现诈骗用途,被用来骗取钱财。日后,这方面的后果会有很多。

翻译:雁行

编辑:李莉

来源:The Verge

造就:剧院式演讲,发现创造力

更多精彩内容,敬请点击蓝字“了解更多”。

,