AI换脸,以假乱真。一直以来,我们判断事件真假的标准之一就是眼见为实,但随着AI技术的进步,这一准则很有可能失灵。近来,一项被誉为近十年来机器学习领域最有趣的突破——生成式对抗网络,很有可能因为误用而扰乱我们的认知。

“P”出一个完全不存在的人的照片

英伟达公司是一家美国人工智能计算公司,他们目前在GPU领域(GPU即图形处理器,是一种专门在个人电脑、工作站、游戏机和一些移动设备上进行图像运算工作的微处理器)的绝对垄断性,和英特尔在CPU领域的地位相似。

2017年6月,英伟达对外公布一项AI技术:他们的研究人员建立了一个全球性的生成对抗网络,让两个人工智能系统通过“创造图像”和“判断图像”去制作一批不存在人的照片。

ai能够读取你现在的想法(知了眼见不再为实)(1)

在研究中,他们先是给人工智能提供了真实的人物照片进行制作,从一幅模糊的照片开始,让AI逐步提高照片的分辨率,直到能够制作出高分辨率的逼真人物照片。在这个过程中,通过不同人物照片的组合,最终它会“P”出一个完全不存在的人的照片。

该系统之所以能用AI创建人脸,是因为其使用了一种相当新型的算法,这就是GAN(生成式对抗网络)。人造神经网络是为模仿人脑中神经元活动而开发的系统。而在生成式对抗网络中,两个神经网络本质上是相互对立的。其中一个网络起到生成算法的作用,另一个则挑战第一个网络的结果,发挥对抗作用。

基于该模型的交互应用程序被命名为GauGAN(发音似“高更”),以致敬后印象派画家高更(Gauguin)。

GauGAN所采用的技术比作 “智能画笔” ,它能够填充粗略分割图(即显示场景中物体位置的大致轮廓图)中的细节。

借助于GauGAN,用户能够绘制自己的分割图并构建场景,并用沙子、天空、海洋或雪等标签对每个部分进行标记。该深度学习模型接收过一百万张图像的训练,能够对风景画进行填充,从而呈现精彩绝伦的效果:让你仿佛置身一座池塘中,附近的树木和岩石等元素都倒映在水中。如果将分割标签从“草”切换为“雪”,整个图像也会随之会变为冬季场景,之前青葱的绿树也将凋谢。

ai能够读取你现在的想法(知了眼见不再为实)(2)

这就像一本填色图册里的图画,其中描绘了树木、太阳和天空的位置,然后神经网络会根据其对真实图像的了解,为图片填充所需的细节和纹理,以及反射、阴影和颜色。

尽管GAN对真实的物理世界缺乏理解,但它却能够产生足以假乱真的效果。在生成式对抗网络中,包含了生成网络和判别网络。生成网络会创建图像并展示给判别网络;判别网络接受过基于真实图像的训练,能够逐像素地为生成网络提供反馈,并对其进行指导,教会其如何提升合成图像的真实感。

接受过真实图像训练的判别网络知道真实的池塘和湖泊会产生反射,通过判断网络的反馈,生成网络也将习得如何模仿这一效果,从而创建出令人信服的图像。用户还能够使用这一工具添加样式过滤器,更改生成的图片的风格,模仿特定的画家画风,或将一幅白昼场景转化为日落景象。

AI被用来模拟人声、利用音频生成视频

真人与机器仿真的界限越来越模糊,是人工智能领域目前热议的话题。英伟达的GAN也并不是第一个模仿人类的人造系统。此前已经有研究人员教会AI来模拟我们的声音、把平面图像变为3D图像,甚至利用音频生成视频。

科学家们正在“创建”一个真实的人。就像科幻片《银翼杀手》中所描述,未来我们甚至很难区分人类和AI。

2016年7月,华盛顿大学的科学家研发了一个机器学习系统,不仅能够合成一个人的声音和发声机制,同时还能将人工生成的口型与视频整合到一起。

这个系统能伪造任何人的声音,并与视频整合,让任何人说你想说的任何东西。

研究者利用奥巴马的演讲视频训练这个机器学习系统,让系统的神经网络学会如何将各种语音特征与对应的口型联系在一起。他们先生成模型的唇动方式,在3D姿态匹配的帮助下,将唇动与总统的视频整合在一起,最终生成的视频令人难辨真伪。

毫无疑问,这项技术存在被滥用的风险,但也有很多积极用途。研究人员指出:对于听力受损的人,这种视频合成技术能够让他们具备另一种意义上的“读唇”能力,进而获取电话音频的信息。此外,在游戏、电影制造行业中,“数字人”的应用也至关重要。

除了华盛顿大学,其它高校也将目光投向类似技术。2016年,斯坦福大学的一支研究小组发布了Face2Face系统。华盛顿大学的技术是利用音频生成视频,Face2Face则是利用视频生成视频。该系统利用网络摄像头捕获用户的面部表情和口型,而后利用这些信息让锁定视频发生实时“变异”,与用户的表情和语音完美匹配。

基于人工智能的音频-视频转化是一条双行道。华盛顿大学的系统利用音频生成视频,麻省理工学院的CSAIL团队反其道行之,利用无声视频生成音频。这项技术性能出众,足以愚弄人类观众。研究者接受采访时说:“当你用手指滑过酒杯,所发出的声音能够揭示杯中的酒量。通过算法模拟这些声音,我们能够获取物体形状和材质的关键信息,以及它们与世界交互时产生的力和运动。”

麻省理工学院的研究小组表示他们可以利用这项技术,增强机器人的态势感知能力。欧文斯说:“看到一条人行道,机器人本能地知道混凝土很硬,草很软,也因此知道踩上去会发生什么。如果想预测与周遭世界进行物理互动可能产生的结果,具备预测声音的能力无疑是非常重要的一步。”

如何识破人工智能“造假术”

据统计,大量的合成信息占据了互联网,如合成声音、生成图像、AI合成不存在的人像等,约占网络信息的30%。“眼见为实”很可能已经靠不住了。在一些电商网站上,机器人水军已经很成规模了。例如商品评价已经由机器自动生成,不再需要雇人“灌水”。

GAN的魔力在于两个神经网络之间的竞争,通过让两个神经网络对抗,人工智能深度学习从识别事物升级到有能力创造事物。就像活字印刷术、无线电和互联网一样,人工智能系统也能生成逼真的内容,为我们的生活带来各种便利和卓越体验。

但技术都有两面性,人工智能的“造假术”也可被加以利用。别有用心者可以用这套系统编造真假难辨的谎言、骗局和制造假冒商品。过去出现的假新闻多利用似是而非的图片配上错误的文字内容,或是利用现有的 Photoshop或合成技术,就已经造成严重影响。而今,GAN之类的AI技术将使得这件事变得愈加复杂,让人更难以分辨真假。

有专家认为,利用GAN生成假视频有可能在三年内实现,AI会改变我们所信赖的证据——图像和音频。不过,GAN还需要更多研究做进一步突破,目前 GAN在生成“单一”图像时可以表现得很好,但无法同时画猫、狗又会画其他影像,它距离制造复杂的数据还有很长的路。

那么,如何预防未来网络上利用GAN流传假新闻,并对数字影像的真假做出判别呢?

目前,国内有研究机构正探索基于深度学习的抗编辑视频水印技术。在这项技术中,水印在视频中是隐藏着的,而且不能够被编辑,人工智能的深度学习技术被用来嵌入这些“入木三分”的水印。

美国国防部高级研究计划局启动了一项名为“Media Forensics”研究计划,希望开发一项技术可以自动评估图像或视频的真实性,识别出是否经过编辑、带有操控目的的影像。

除此之外,麻省理工学院的研究团队还研发出了一种“动作显微镜”的技术,通过放大视频片段,观察像素的颜色变化,就可以查看出一些细微动作,例如脉搏的微小变化。所以,可以检查视频中人脸的色彩差异,去对照这个人是否有脉搏,借此判断是真人还是计算机生成的。

齐鲁晚报·齐鲁壹点 记者 任志方

(壹点号 知了)

,