9月26日消息,Alphabet旗下的DeepMind推出了人工智能驱动的聊天机器人Sparrow,被称为该行业努力开发更安全的机器学习系统的里程碑。

Deepmind 编程(DeepMind推出新型聊天机器人Sparrow)(1)

据DeepMind称,与早期的神经网络相比,Sparrow可以更频繁地对用户的问题给出合理的答案。此外,这款聊天机器人还包括一些功能,可以显著降低偏见和有毒答案的风险。DeepMind希望它用于构建Sparrow的方法将促进更安全的人工智能系统的开发。

DeepMind的研究人员使用一种被称为强化学习的流行人工智能训练方法开发了Sparrow。该方法包括让一个神经网络重复执行一个任务,直到它学会正确地执行任务。通过反复的试错,网络可以找到提高精确度的方法。

在开发Sparrow聊天机器人时,DeepMind将强化学习与用户反馈结合起来。Alphabet部门让一组用户向Sparrow提问,以评估该聊天机器人的准确性。该聊天机器人为每个问题生成多个答案,用户选择他们认为最准确的答案。

据DeepMind称,其研究人员利用用户对Sparrow回答的反馈来改进聊天机器人。Alphabet部门表示,这种方法大大提高了聊天机器人的准确性。

当用户要求Sparrow检索某一主题的信息时,比如天文学,聊天机器人就会使用谷歌搜索找到所请求的信息。然后,Sparrow会提供给用户答案,并附带一个链接,链接到检索答案的网站。据DeepMind称,用户认为Sparrow用这种方式生成的答案中有78%是合理的,这比使用传统方法开发的AI系统有了显著改进。

DeepMind为Sparrow配置了23条规则,旨在防止聊天机器人产生偏见的答案。在测试期间,DeepMind要求用户试图欺骗Sparrow打破规则。用户成功骗过它的次数只有8%,Alphabet部门表示,这明显低于使用其他方法训练的AI模型打破规则的频率。

DeepMind的研究人员在一篇博客文章中详细写道:“在对抗性探测下,Sparrow更善于遵守我们的规则。”“例如,当参与者试图欺骗我们的对话模型时,我们最初的对话模型违反规则的频率大约是Sparrow的3倍。”

DeepMind利用用户反馈改进Sparrow的方法是该Alphabet子公司多年来开发的一系列先进人工智能训练方法中的最新一种。2021年,DeepMind详细介绍了一种自动化人工智能训练中涉及的一些手工任务的新方法。最近,DeepMind的研究人员训练一个神经网络执行600多种不同的任务。

,