元宇宙概念技术生态(元宇宙006你不了解的)(1)

Hello,

大家好,这里是壹脑云科技圈,我是卷卷~

大家看过胖嘟嘟,活泼可爱的小婴儿吗?大家又知道近几年兴起的人工智能话题吗?两个看起来完全没有联系的两种事物在最近的研究当中产生了惊人的联系。

元宇宙概念技术生态(元宇宙006你不了解的)(2)

图源网络

对于一个陌生的概念——“直观物理”,如果举个例子来对一般人解释的话,就是人们自己了解了自己身处的物理环境,并与环境中动态变化的各种物体、物质的相互作用,以及在观察到的一系列事件发展趋势后做出近似性的预测。

比如过马路的时候一辆横行的水泥车挡住了迎面走过的人,但你能大概预测水泥车走过之后此人离你的距离。

元宇宙概念技术生态(元宇宙006你不了解的)(3)

图源网络

又比如在和朋友玩飞盘的时候,你一边预测飞盘飞到的位置,一遍挪动脚步,或准备跳起接飞盘。

描述这些活动背后,其实就是直觉物理学的简单阐述。

从发展心理学角度上来说,直观物理学可以被拆分成五个方面:

1)连续性(Continuity):在物体从一个地方移动到另一个地方时,在时间和空间中都有一定的连续性轨迹可循

2)对象持久性(Object Prsistant):在物体被遮挡、看不见的时候不会消失

3)固体性(Solidity):物体之间不会相互渗透

4)不变性(Unchangeableness):物体的属性不会更改

5)定向惯性(Directional inertia):物体运动的轨迹、路径与惯性原理保持一致

这些概念是容易理解的,属于常识性概念范畴。所以当我们看到违背了这种直观物理学的一些现象,我们会对其表现出惊讶,因为他们“不符合常态”,而这种又可以在心理学领域中称作“违反期望(VoE)效应”。

那么,深度学习又是如何学习直观物理学的呢?

Google旗下的人工智能DeepMind最新建立了一个学习直观物理学的全新AI系统,这个系统被他们命名为PLATO,是Physics Learning through Auto-encoding and Tracking Objects(通过自动编码和跟踪对象进行物理学习)的缩写。

PLATO模型包含的系统受婴儿如何学习的启发,使用立方体和球等简单物体的动画视频对神经网络进行训练,面对“不可能”事件的预测差异产生“惊讶(surprise)”行为,可用于研究人类学习“直观物理”。其中这些视频来自DeepMind提出的一个视频语料库——Physical Concepts数据集。该数据集包含VoE探测视频(针对五个直观物理学概念),展示了各种程序生成的物理事件。

01

方法介绍

首先科学家们从发展心理学的角度评估了对于“连续性”和“对象持久性”物理概念的学习。图1探测了对于连续性物理图像(上)和不连续性物理图像(下)对于PLATO的反应。

元宇宙概念技术生态(元宇宙006你不了解的)(4)

图1

其中,方格红黄背景被用作视觉深度的线索,并刺激视觉多样性。

上方图片中,小球从两个立方体后方滚动,屏幕前的你是否能想象出此图的动态经过呢?即使球被立方体遮挡,我们也都能想象出球的连续滚动。而下方图片是在不符合连续性物理规律下做成的。

元宇宙概念技术生态(元宇宙006你不了解的)(5)

图2

图2是训练PLATO模型的“自由形式”数据中的视频,场景是通过可组合的交互进行程序构建的:添加到场景中的对象要么是完全随机初始化的,要么是针对场景中已存在的对象。其探测了PLATO对于“固体性”的学习。经过28小时的不间断学习,在视频播放的同时模型的预测会变得更加准确。对于像图一中“不可能”事件视频播放时,PLATO出现了一种“惊讶”。在VoE范式下,通过比较两种探针类型的惊喜来量化物理概念获取。

为了量化计算“惊喜”,我们为每一帧计算模型的预测误差,定义为系统的像素级预测的平方和误差。然后,我们对视频中所有帧的预测误差相加。对于一个物理概念的5000个探针元组中的每一个,我们计算可能的探针上的惊喜的总和,称为物理上“可能”的“惊喜”,并类似地计算物理上“不可能”的“惊喜”。

有了这个数据集和评估框架,研究人员现在转向目前研究的主要目标:建立一个能够学习直观物理的模型,并剖析是什么使这种能力得以实现。

02

模型架构

首先是对象个性化的过程。对象个性化将视觉的连续感知输入分割成一组离散的实体,其中每个实体都有一组相应的属性。在PLATO中,每个分割的视频帧通过一个感知模块分解为一组对象代码(图3a-c),从而实现了从视觉输入到个性化对象的映射。

元宇宙概念技术生态(元宇宙006你不了解的)(6)

图3

图3是PLATO应用感知模型和动力学模型预测物体运动。为了实现以对象为中心的方法,模型包括两个主要组成部分:一个前馈感知模块(图3a、c)和一个具有每个对象记忆的循环动态预测器(图3d)。

对于婴儿认知问题,发展心理学的学者们产生了“先天”和“后天”两种争议,而PLATO的系统可以被用作试图测试深度学习系统是否能通过学习视觉动画来获得对于直观物理学的理解。如果“后天”理论成立,说明在智力发展阶段可以通过处理大量的数据和经验进行锻炼。

03

实验结果

在测试时,对于使用不同五种随机种子进行训练时,PLATO在所有五个物理探测类别中都显示了强大的VoE效果。

元宇宙概念技术生态(元宇宙006你不了解的)(7)

图5

图5显示了在数据集中显示出来稳健的探测效果。

元宇宙概念技术生态(元宇宙006你不了解的)(8)

图6

图6表示PLATO在28小时的视觉体验下表现出强大的效果。

元宇宙概念技术生态(元宇宙006你不了解的)(9)

图7

图7表示PLATO在没有任何再训练的情况下,对不可见的物体和动态表现出的鲁棒效果。

在PLATO训练之后得出的最重要的结果是,该模型能够将期望概括为一组新的对象和事件,这些对象和事件与训练集中呈现的不同。除此之外,该模型也能成功向我们演示学习,尽管是在一个相对小的视觉动画集上训练。

也就是说,尽管有了这些进展,在现实世界中遇到的对象相比,我们数据集中的对象和事件类型的范围仍然很窄。在增加丰富度和生态效度的同时能够保持实验控制对不管是人工智能还是心理学研究都是一种挑战。

在研究团队的总结工作中,他们都强调了来着发展心理学的见解和指导对于本研究有着很大的作用。结合理论运用在人工智能上,其实是一个巨大的挑战。期待未来人工智能在深度学习方面能与心理学更进一步联系,取得突破。

参考文献来源:

Intuitive physics learning in a deep-learning model inspired by developmental psychology - PubMed (nih.gov)

内容 | 卷卷

排版 | 卷卷

校对 | Ting Zhang 喵君姐姐

注:文章为原文献作者观点,不代表壹脑云科技圈立场。

,