互联网的演进历程是从中心化、开放的网络空间,逐步变成去中心化、碎片化的虚拟世界。其中交互技术的不断发展,让传统用户输入和机器输出,升级成结合视频和人工智能(AI)的多元化人机交互,将人与人之间的连接重构成为元宇宙分布式社区中的虚拟关系。虽然面临着诸多挑战,但这一技术趋势无疑将引发网络空间中资源与利益的重新分配。

人与人之间的交互是通过捕捉声音、动作、文字等信号完成信息传输的。自人类发明计算机起,人人交互很大一部分被人机交互所代替。而主流人机交互方式的发展,可大致划分为三个阶段。

多元智能理论的原理(人机交互技术的演进历程)(1)

第一、互联网时代

在互联网时代,人机交互主要是通过手指操作鼠标、键盘,眼睛查看显示屏内容完成。为何如此?因为手指是人类完成精细动作最直接的器官,眼睛是能够最大化、直接接收外界信息的五官之一。自然地,人类会选择手指操控鼠标键盘完成人类对机器的输入,眼睛查看显示器内容完成机器对人类的输出。

第二、移动互联网时代

在移动互联网时代,人机交互主要是通过手指操控触摸屏完成。这种交互技术在全球范围内的第一次大规模商用,始于2007年的苹果手机,至今仍然是所有移动设备的主要交互方式。与第一代交互方式不同,这样的方式回归了人类婴幼儿时期的最基本动作,即用手指在屏幕上指向、点击、滑动,交互设备由触摸屏替代了鼠标、键盘。

第三、元宇宙时代

在元宇宙时代,现实世界中的人类可以和虚拟世界中的智能体(虚拟人、数字财产、数字物品等)进行交互。在元宇宙构建初期,人类仍然通过手指和眼睛与虚拟世界进行交互,就像在玩一场“身临其境的沉浸式视频游戏”。与第二代交互方式的区别在于,其交互设备的多样性将得到极大扩展。例如,摄像头、惯性传感器将捕捉到的人类身体动作、语音等指令展示在视频游戏中,游戏剧情反馈也会通过智能眼镜、智能头盔展示给人类。在不远的未来,当AI技术不断发展,特别是脑机交互技术可以准确读取人脑信息时,人们就可以不通过动作、语音、打字等其他信号发送指令,而可以直接将意念所想传达给设备,解锁AI技术中这一最神秘的难关。因此,交互的终极方式是视频和AI——人类通过AI将指令输入到虚拟世界,同时又通过沉浸式视频展示将交互结果输出给人类。

多元智能理论的原理(人机交互技术的演进历程)(2)

去中心化、碎片化的连接

人机交互的方式,不仅关系到人类获取信息的渠道,同样也决定了人与人之间在网络空间中的连接形式。伴随着人机交互方式的改变,人与人之间的连接形式也将被重新定义和构建。

我们正在探索的互联网Web3.0时代,则是一个去中心化、碎片化连接的时代,其主要目的是支持人与人通过虚拟世界智能体之间的交互,产生某种虚拟关系。这样一种新型虚拟关系,将再一次重构元宇宙框架下人与人间的连接形式。用户在元宇宙中可以创建属于自己的唯一虚拟身份以及若干虚拟资产和虚拟物品,用户只需通过虚拟身份在某虚拟社区进行授权操作,就可以与该社区中的其他用户产生虚拟关系。这些虚拟世界的操作,可以通过传统的点击、触控等交互动作完成,也可以通过虚拟现实智能眼镜、沉浸式AI视频中的交互动作(眼神、肢体动作)完成,虚拟社区捕捉到这些交互动作之后,所产生的结果也会通过交互设备(智能眼镜、智能头盔)以虚拟视频方式展示给用户。同时,这一系列的动作和结果也将会记录在区块链上,从而保证数据安全。

显然,这样一系列的虚拟操作是以用户为中心,且完全的分布式和不可预测,不存在任何一个网站或app可以要求用户必须重新注册一个ID,也不存在一个超级网站或app可以收集绝大多数用户的个人数据。人与人之间的连接与否,取决于双方是否存在虚拟关系,是否授权虚拟身份在虚拟社区中进行了某个操作。

多元智能理论的原理(人机交互技术的演进历程)(3)

面向未来 充满机遇与挑战

元宇宙时代,在去中心化、碎片化的虚拟世界,以往互联网中的资源和利益都会重新分配,产生了很多新的机遇。当然,实现这样的愿景也存在诸多挑战。

在构建元宇宙的初级阶段,交互方式仍然不可避免地依赖于手和眼睛。沉浸式的交互设备,使得输入、输出可以更加逼真,除了视觉、听觉,还可以包括触觉、嗅觉等其他多个维度的感官体验。而当AI交互技术进阶到高级阶段时,我们就可以脱离手、眼等器官,AI可以读取人的意念,通过脑机接口,完成人类与虚拟世界的交互,即人们将自己的指令通过脑电波直接输入给虚拟世界,同时虚拟世界也将反馈结果直接发送给人脑。

,