以下文章来源于CAAI认知系统与信息处理专委会 ,作者夏子炜
为了在各种日常任务中发挥作用,机器人必须能够与人类进行身体互动并推断出如何最有帮助。一种用于交互式机器人控制的新理论允许机器人学习在到达动作期间何时协助或挑战人类。
如果机器人可以与人类进行物理互动,与我们一起工作并帮助我们执行日常任务会怎样?这种机器人可以通过协助完成诸如举重物等困难任务来充当助手,或者通过提供适度的身体挑战来更有效地锻炼来充当私人教练。这种自适应机器人会在物理交互过程中感知力和运动,并推断我们的目标、运动能力和努力程度,以产生最佳的交互行为。虽然我们距离看到机器人在我们的办公室和健身房提供常规帮助还有很长的路要走,但 Y. Li 及其同事的新研究发表在Nature Machine Intelligence 上,深入了解机器人如何通过物理交互来理解我们的行为并调整它们的行为以帮助我们实现目标。
有学者使用博弈论机器人控制框架解决人机交互问题。在博弈论中,多个玩家在游戏中互动、竞争或合作完成一项任务。每个玩家都有自己的策略——他们如何根据当前的游戏状态选择下一步行动——所有玩家都试图优化他们的表现,同时假设他们的对手也会发挥最佳。如果您曾与计算机下过国际象棋,那么您可能已经使用竞争性博弈论控制器与机器进行了交互。在这里,计算机会评估游戏的状态(棋盘上棋子的排列)并选择能够最大限度地抓住你的国王的机会,同时也会考虑你将来可能会采取的行动。
在 Li 等人的研究中,游戏是一项到达任务:人类握住机器人末端执行器的手柄,然后移动到平面内的预定目标位置。游戏的状态是错误:人的手离目标位置有多远,它移动的速度有多快。人类可以直接向手柄施加力以将其移向目标,机器人可以驱动其关节来移动手柄。然而,由于人和机器人同时动作并通过物理接触耦合,来自人的力会导致机器人偏离其期望的运动,反之亦然,从而在手柄的实际运动和计划的运动之间产生差异由人类或机器人。
作者的主要创新在于使用博弈论来确定机器人如何响应与人类互动的影响。在典型的物理机器人与人类交互中,机器人已经超越了人类以减少错误,这可能会意外伤害人类。或者他们允许人类轻松移动机器人,这可能会增加任务中的错误。作者介绍了一种新方法:机器人利用其预期和实际运动之间的差异来估计人类的策略——即人类如何利用任务中的错误来产生新的动作。通过估计人类的策略,机器人可以改变自己的策略作为回应。例如,如果人类的策略不足以完成任务,机器人可以加大力度来帮助他们。
通过改变机器人看待任务中错误的方式,Li 等人的机器人。根据需要提供帮助,这在之前已经完成,并且还挑战和训练人类(图1)。不需要的帮助可以使人们保持参与并防止他们懈怠。在这种情况下,机器人会容忍一些错误,需要人类加大努力才能完成任务。机器人还可以通过增加错误来挑战人类——即将手柄从目标上移开,其策略类似于错误增强。
图 1:博弈论控制器允许机器人以多种方式与人类进行物理交互。机器人可以与人类合作执行艰巨的任务,例如搬运冰箱。同一个机器人可能会给人类带来挑战,就像在拔河比赛中一样。在这两个极端之间,机器人可以混合提供帮助和提供适度的身体挑战,充当教练或私人教练。
作者在模拟和人类受试者实验中测试了他们用于物理人机交互的博弈论框架。在模拟中,作者测试了他们理论的局限性。他们表明,机器人可以适应人类策略变化缓慢的情况,就好像人类正在恢复力量一样;当人类的策略变化很大时,比如受伤后的情况,人类并不总是能保持稳定。进步。在人体实验中,他们表明,当用户太虚弱而无法完成任务时,机器人可以通过增加帮助来帮助健康个体完成任务。有趣的是,随着人类在任务中的改进,机器人也会自动从辅助行为转变为竞争行为。
Li等人提出的方法,代表了物理人机交互的重大进步。博弈论框架允许机器人通过根据运动错误估计人类的策略,在各种交互行为之间平稳过渡。包含多种行为的单一理论框架允许机器人以灵活的方式响应用户,创建针对每个人量身定制的控制策略和行为,这些策略和行为会随着用户的能力而变化。最佳控制的使用还允许对保证稳定性的条件进行正式和严格的分析,这对于人机交互的安全性至关重要。
这项研究有助于为人机交互与物理接触的理论和实验工作奠定基础。未来的研究可能会扩展该框架以包括两个以上的代理,例如调解多个人之间的物理交互的机器人,或帮助人类完成危险或困难任务的机器人团队。未来将该理论推广到具有非线性或未知动力学的系统对于与人类多个关节交互的机器人(例如机器人步态训练器和外骨骼)很有用。
这项研究的结果表明,机器人与人类之间的物理交互可以帮助人类不仅实现目标,而且还可以超越目标。通过解释我们的行为,这些机器人可以与我们一起适应并进行个性化,以不断提供每个人需要改进的帮助或挑战。未来的机器人可能会向我们伸出援助之手,让我们的工作生活更轻松,但它们也可能会挑战我们成为更健康的个体。
本文由CAAI认知系统与信息处理专委会供稿
,