近日,在一篇名为《Towards a Human-like Open-Domain Chatbot》的论文中,谷歌的研究人员介绍了一个名为“Meena”的模型,它是一个包含了 26 亿参数的端到端训练型神经对话模型。

谷歌机器人进化史(谷歌发布世界上最好)(1)

在论文中,研究人员表示:与现有的最新聊天机器人相比,Meena 可以进行更聪明、更具体的对话。


他们针对开放域聊天机器人提出了一项新的人类评估指标——敏感度和特异性平均值(SSA),该指标捕获了人类对话的基本但重要的属性。


值得注意的是,研究人员证明了“困惑度”是一种易用于任何神经对话模型的自动指标,与 SSA 高度相关。


最新聊天机器人“Meena”


Meena 是一种端到端的神经对话模型,可以学会对给定的对话环境做出更加聪明的反应。


谷歌机器人进化史(谷歌发布世界上最好)(2)

Meena(左)与人类的对话


据介绍,Meena 模型具有 26 亿个参数,并经过400亿字的模型——341 GB 的文本训练,这些文本是从公共领域的社交媒体对话中过滤出来的。


与现有的最新生成模型 OpenAI GPT-2 相比,Meena 具有 1.7 倍的模型容量,并且受过 8.5 倍的数据训练。因此Meena不仅可以保证连贯的对话体验,甚至还能自己讲出笑话。


该模型训练的目标是最大程度地减少“困惑度”,即预测下一个标记(会话中的下一个单词)的不确定性。


它的核心是 Evolved Transformer seq2seq 体系结构,这是一种通过进化神经体系结构搜索发现以改善困惑性的 Transformer 体系结构。


谷歌机器人进化史(谷歌发布世界上最好)(3)

同时Meena还具有一个编码器模块和13个译码器模块,编码器负责处理对话的上下文,帮助Meena理解对话的内容,而译码器则使用编码器处理过的信息,产生实际的回应,Google提到,经过他们调校超参数后发现,强大的译码器是提高对话质量的关键。


敏感性和特异性平均值(SSA)


首先,要声称Meena胜过其他聊天机器人,需要一些评估标准。 Google引入了一个新的指标来帮助解决这一问题,称为“敏感性和特异性平均值”或SSA。


此分数带来的创新之处在于,它既可以衡量机器人的答案是否合理,也可以衡量人对合理答案的合理评价,也可以确定答案是否具体。


通常,漫游器会使用“技巧”来使你认为他们正在跟你对话,而在实践中,它们只是给出不一定特定于上下文的通用响应。例如,可能会进行如下对话:


人类:我真的很喜欢间谍电影!


机器人:神奇!请告诉我更多内容!


这是一个明智的回应,但并不具体,同样的答案适用于任何人的任何数量的陈述,更具体的答复是:


人类:我真的很喜欢间谍电影!


机器人:神奇!我喜欢所有的谍中谍电影,你最喜欢哪一个?



为了计算 SSA,研究人员与参与测试的聊天机器人(Meena 和其他知名的开放域聊天机器人共同参与测试,包括 Mitsuku,Cleverbot,小冰和 DialoGPT)进行了自由形式的对话众包,得分如下:


Meena的SSA得分为79%,Mitsuku和Cleverbot为56%,DialoGPT为48%,XiaoIce为31%。鉴于该指标也可用于评估人类对话,因此Google测算的人类SSA平均值为86%,Meena非常接近这一标准。


谷歌机器人进化史(谷歌发布世界上最好)(4)


总结


总而言之,Meena可以在几回合的交谈中聊天,但是无法教给你靠谱的东西。Meena并不是尝试帮你完成一项任务或学习新东西,它没有明确的目标或目的。


虽然我们可能会花时间去谈论一些无关紧要的事情,但在与一个以机器人进行数字服务交互时,我们倾向于寻找一些特定的东西。


例如,预定机票或解决客户支持问题、想要得到一个特定领域的准确信息,或者在面临的挑战时寻求情感或心理支持。


谈话类产品是有目的的,即使他们在开放式问题上失败了,它们也会尝试和你一起完成一项任务。


Meena在谈话过程中把人性化放在了首位,然而,对于不同类型的任务,什么是合适的会话方法,我们还有很多需要学习的地方。


有研究表明,在某些情况下(尤其是涉及敏感个人信息的情况下),更适合做出“机器人”般的反应,而像人类一样的世界并不是机器人的终极目标。


Meena从社交媒体互动中学到了什么?如果将其插入对话中,如何保证不会说出不恰当的话?对于Meena来说,数百万个公共领域的社交媒体对话是适合的数据集吗?


谷歌在博客中确认,聊天机器人尚未进入应用阶段,目前谷歌更多专注在如何让Meena变得感性这一问题之上,未来会考虑其他属性,如个性和事实性。


同时还要解决模型中的存在的安全性和偏差性,鉴于目前仍面临多个方面的挑战,因此Meena目前并未对外公开演示。


参考链接:


venturebeat/2020/02/01/just-how-big-a-deal-is-googles-new-meena-chatbot-model/


ai.googleblog/2020/01/towards-conversational-agent-that-can.html


arxiv/abs/2001.09977

,