人工智能与vr有什么关系(对话首席研究员童欣)(1)

童欣博士现任微软亚洲研究院网络图形组首席研究员。1993年毕业于浙江大学计算机系,获工学学士学位;1996年获浙江大学计算机系硕士学位;1999年获清华大学计算机系博士学位,同年加入微软亚洲研究院。目前主要从事计算机图形学方面的研究。

记者:您是研究图形学的,您最早开始接触VR(虚拟现实)和MR(混合现实)是在什么时候?为什么20世纪6-70年代就有VR这概念,但一直没有发展起来,这中间技术的掣肘点在哪里?

童欣:早在图形学开始发展之初,VR和AR(增强现实)这些概念就已经存在了。1990年代初,图形学里高端的VR系统叫做CAVE System,由EVL研发,由几个显示屏组成屋子的墙,提供一个沉浸的环境,每个屏幕后面有图形能力很强的图形工作站。用户戴上立体眼镜,通过一些穿戴上的跟踪设备和数据手套,就可以在里面自由地走动,旁边的内容会随着交互而改变。这在当时是一个非常高端、售价非常昂贵的系统。那时VR更多还是面向工业应用(比如美国的航天系统)或者是军事应用。PC出现之后,大家开始用PC代替原来的超级计算机,用PC把所有显示屏搭起来就能做成一个CAVE系统。这是VR发展的一条线索。另一条线索则是供单个人使用的头戴显示器这样的VR系统。

AR方面也很早,但主要还是面向非常专门的工业应用。一是军工。比如说,一家军工厂需要修理一颗导弹,有了AR就可以知道先打开什么地方、需要执行什么样的操作,极大地提高效率,减少失误。对军工来说,只要能提高效率,这成本就是值当的。一个是飞机制造和维修。波音公司很早就采用了AR的系统,就是小的半透明显示器置于眼睛前面,显示的内容叠加在真实场景中——无论是装配飞机或者是修理飞机,都是非常高难度和复杂的任务,需要借助维修指南,哪怕只是显示你在手册上需要查哪儿,这显示器的用处也很大。

至于最近这一波VR/AR浪潮的兴起,一个原因是手机产业过去这几年的发展,让所有的传感器和显示器小型化,且价格真的能让大家接受,同时,随着个人计算机计算能力的增长和图形处理器的发展,使内容显示的计算能力跟得上。所有这些条件结合在一起,终于可以用一个普通用户也能接受的价格为大家提供比较好的VR体验。

VR其实一直都在,但之前很小众、很昂贵,现在慢慢终于发展到了可以面向普通用户的时候。

记者:在这一波VR/AR浪潮里,计算图形学、人机交互和传感有什么技术突破?

童欣:有几个最重要的进步。首先,在硬件上,过去的传感器已经非常精确,但售价非常昂贵。智能手机普及后,传感器大量生产,价格变得非常便宜,传感器的发展也让很多定位技术有所进步。GPU的发展也很快,在这么高的分辨率下,能做到非常真实的显示——当然,在这所有的背后,还要有很多实时算法进行支持,能结合传感器数据进行实时的定位,同时把真实感很强的内容显示出来。另方面是交互技术的进展。目前在VR中,大家的交互基本上还是依靠设备,现在可以通过传感器帮助用户确定在虚拟环境中的位置和头的朝向,还有输入,用游戏手柄或者依靠语音、手势进行,提供很好的自然的交互体验。这也是一个很大的突破。

以微软的HoloLens为例,微软一直在自然交互,VR和AR领域中进行重点投入和研发。在真实感实时现实方面,微软研发了很多算法并通过Direct3D提供给用户,与GPU的发展相互推动,带给用户更真实的内容体验。自然交互方面是Kinect,这是第一次把很自然的体感交互体验推给用户,用价格便宜的深度摄像头,结合最新的算法,来达到用户姿势的实时识别和跟踪。近来推出的全息眼镜HoloLens就是把所有的交互、显示的最新技术与硬件集大成了。不仅仅是硬件上的波导显示、全息处理器(简称HPU,HolographicProcessing Unit),以及整个计算平台的可穿戴化和小型化,更有软件上的实时定位与场景重建技术、语音识别和手势识别的技术……所有这些组合在一起才能让混合现实的技术真正落地和活起来,才能给用户带来全新的体验。

记者:透过HoloLens可以看到近几年技术发展的哪些层面?

童欣:我觉得其实很多。首先是硬件层面,这么小的重量却要包括一台头戴显示器。HoloLens就做到了,配备一个See-Through屏幕,半透的,能看清外面,同时内容要显示在上面,分辨率要足够高。另方面,HoloLens就是一台头戴式的计算机,所有的计算单元包括电池都集成在上面,这些并不是理所当然地往里塞,而要平衡很多方面。硬件集成进去,需要保证它高质量地工作,续航能坚持足够长的时间,比如说3到4个小时……所有这些都依赖于硬件的进步和工艺的进步。有了这些还不够,还要有最基础的软件去支撑硬件。对混合现实来讲,最核心的技术叫做SLAM(SimultaneousLocalization and Mapping),就是实时定位和场景建模的技术。这是什么意思呢?当我做VR的时候,由于整个视野沉浸在虚拟环境中,我只需要根据计算的位置,显示整个虚拟的场景。现在我在一个真实的世界里,虚拟的东西可以按照我计算的视点移动,但真实环境的物体并不会。所以我要知道你的头在真实世界中的精确位置,这样,虚拟的东西和真实的东西混合才会真实。

比如,我想显示一个虚拟的杯子在桌子角上,我现在一转头再看回来,真实世界的桌子和杯子还在那儿,但如果我的计算位置不精确,虚拟的杯子的位置就移动了。但在虚拟的世界中,我怎么知道你看的是原来的位置,我应该把这个东西显示出来在原来的位置呢?这就要求计算机必须知道在真实的世界中,我现在在哪儿、我在看哪儿,这个东西必须要实时算出来,同时必须非常稳定、不能有扰动,不然用户就会觉得显示的内容在空中飘……这个挑战是非常大的。微软通过HoloLens上的摄像头和非常先进的算法,包括专用的HPU来进行所有的计算,把所有的位置信息能实时地提供给你。这些东西是所有做增强现实,特别是混合现实(MR)最关键的技术。

同时,我们也认识到混合现实这一全新体验背后需要一系列的技术做支撑,无论是内容生成方面、智能交互方面,还是最上面的内容的智能理解交互方面,都需要专业的算法,门槛很高。如果只有几个大公司做内容、做开发,可能还是不能满足大家的需要。最好的办法就是我们建立一个生态系统,我们不仅提供像HoloLens这样一个标杆的硬件,而且提供Holographic这样一个软件平台,通过把不同的算法和服务变成普通用户都能用的API,想开发某些应用的人就能用我们的工具和服务来开发应用,最后可以做到HoloLens上去,也可以用到其他虚拟现实、增强现实设备上去。

人工智能与vr有什么关系(对话首席研究员童欣)(2)

记者:虚拟现实和混合现实开启了一个沉浸式的三维图形显示的时代,在三维图形领域,还有哪些问题是需要解决的?

童欣:光影技术在图形学里叫“绘制技术”,实时的、光影真实的三维场景绘制技术一直是研究的热点。在微软研究院,我们第一次尝试用机器学习的方法处理这一问题,第一次把一些原来非常难做到的复杂光影效果做成实时。我们相信,随着这些技术的发展,会有更多的酷炫的光影效果,可以在VR和MR中呈献给大家。

还有一个问题在于怎么更方便地产生更真实的三维场景和交互内容。传统上我们需要艺术家去造型,但另一个方法是从真实世界中直接拍摄捕捉。比如,我想做一个咖啡馆,以前艺术家要用三维造型软件手工去做,包括所有细节,这是一种方法。还有一种方法,是拿一个深度相机或普通相机,把一个咖啡馆里所有的桌子和墙的几何形状、材质完全捕捉下来,把它放在三维场景里,真实感一下就提高了,所有桌面的材质都会很真实。有了这个技术,艺术家就不是无中生有了,他可以在这个场景的基础上把材质改改,比如让桌子生点锈,把它变得更有质感。因此内容捕捉技术是非常重要的技术路径。微软研究院在这个方向做了非常多的研究工作,我们的目标也是希望通过我们的推动,能让普通的用户享受这项技术,通过比如Kinect这样的深度相机,甚至像手机或者是普通相机拍摄的东西,把用户感兴趣的三维物体和几何形状表面的丰富材质、光影效果都捕捉下来,完美再现在虚拟的世界里。一旦这个问题解决了,所有普通用户都能产生高质量的三维内容,那虚拟世界、混合现实的世界就会变得丰富多彩,用户的体验也会提升一个数量级。

记者:混合现实真的要变得实用,还需要解决哪些问题?

童欣:首先从交互的角度来讲,要有定位,要有语音和手势、表情等自然的交互方式,这方面技术还需要进一步成熟。如果高质量的输出和用户的输入方式不匹配,用户就会觉得这个东西不好用、不自然。一个常被大家忽略的问题出在智能感知层面,为了让混合现实的体验变得更好,我们需要有更好的下一步的人工智能技术和识别技术。

比如说,在一个场景中,当我戴上AR眼镜想操作这个东西。定位技术告诉计算机我在盯着这个东西,可是这个东西是什么呢?可能需要通过识别技术“知道”这是一个遥控器。然后系统知道用户想使用遥控器了,把遥控器的操作信息从数据库中拿出来传递给用户,变成一些可视的指南,交给用户说,你先按这个键吧,根据用户操作的手势和出现的问题,再给用户进一步指南——你可以看到,在这个简单的例子里,自然交互,显示,识别,所有这些都要加在一起,这个场景才行得通。如果里面缺任何一样,最后都会变成,听起来很美好,用户刚开始也觉得很新鲜,但很快会发现,操作比原有的设备和方法更费事,那么自然带来用户期望和实际效果之间的巨大落差。所以微软希望能从各个层面开展研究,提供解决方案,缩小落差,让混合现实变成对用户真正有用的东西。

长远看,从应用范围来讲,AR远比VR广泛得多,将来会渗透到生活各个方面。当你戴上VR的时候,你看不到真实环境,完全是在虚拟世界的体验。混合现实更多地可以想象成视觉助手一样的东西,极大增强和方便你在真实世界的生活。但是AR技术的门槛更高,因此大家觉得AR的普及可能会比VR晚很多。以前大家会说AR怎么也得等10年,我个人乐观估计可能会来得更快。原因有两个:第一,AR很多基础层的智能感知技术,其成熟速度比我们以前想的要快;第二,随着AI技术的成熟,识别感知层成熟得更快,比如说物体识别的技术就在日新月异地发展。这些技术的进步能对AR的场景产生非常大的推动作用。这些东西如果比以前成熟得快,AR的场景应用就会更快地来到,但具体的时间我觉得很难预测,因为技术的发展真的是太快了。

人工智能与vr有什么关系(对话首席研究员童欣)(3)

你也许还想看:

【二十一世纪的计算首尔现场直播】

“二十一世纪的计算”学术研讨会是微软亚洲研究院的年度学术盛会。作为中国及亚太地区规模最大最具影响力的计算机科学教育与研究盛会之一,该大会已在中国、日本、韩国、新加坡等多个国家和地区成功举办了17届。2016年11月3日,大会将来到韩国首尔举行。

在本次大会上,微软亚洲研究院的研究院人员将与包括2002年图灵奖获得者Adi Shamir在内的学术界领军人物们一道,深入探讨人工智能与人类智慧的结合下,从而改变社会的无限潜能。我们将对本次会议以微信群分享的方式进行现场直播。名额有限,快扫描下图二维码第一时间收看直播吧!

感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。

微软小冰进驻微软研究院微信啦!快去主页和她聊聊天吧。

,