换脸讲的什么（换脸换声音）

（本文关键词：Deepfake技术人工智能危害性分析）

在人们的心目中，银行是一个管理制度严格、工作细致严谨的地方。我们经常会听到银行职员成功阻止了某位老年人向诈骗分子巨额转账等类似报道。然而这一次，阿联酋一家银行却被一个利用“深度伪装（Deepfake）”技术的诈骗团伙骗取了3500万美元的资金。

换脸讲的什么（换脸换声音）(1)

图片来源于互联网

一、事件始末

2020年初，阿联酋的一位银行经理接到了一家大公司董事打来的电话。该董事声称其所在的公司正在进行一项大型收购，所以需要这家银行授权向美国的几个账户转账3500万美元，并表示已经发送一封来自律师的电子邮件来确认这笔转账。该银行经理能够分辨出这位董事的声音，因为他们之前交谈过，并且在收件箱中看到了来自董事和律师的电子邮件，他认为一切程序看起来都是合法的，于是确认了这笔转账。

然而这位大公司的“董事”的声音实际上是诈骗团伙利用一种名为“深度伪装（Deepfake）”的人工智能技术合成的，听起来很像本人的声音。阿联酋有关部门目前正在寻求美国警方的帮助，以追回丢失的资金。据悉，这些资金已被诈骗分子转移到他们在全球各地的至少17个账户上。

这并不是Deepfake语音技术第一次被用于网络诈骗犯罪。无独有偶，2019年3月，一家总部位于德国的英国能源公司的管理者也曾被Deepfake技术所骗，损失了约25万美元。诈骗团伙利用Deepfake技术生成了德国母公司CEO的声音，并命令英国分公司的经理紧急汇款。可笑的是，攻击者在第一次诈骗成功得手后，故技重施，两天后再次给这名经理打电话，并指示其追加10万美元汇款。但这次，英国分公司经理察觉到了一些可疑之处，并阻止了再次被骗。

换脸讲的什么（换脸换声音）(2)

图片来源于互联网

二、何为Deepfake技术

到底什么是Deepfake技术？这种技术为什么如此厉害，连银行经理、公司高管都会被蒙骗上当？

Deepfake是由“deep machine learning”（深度机器学习）和“fake photo”（假照片）组合而成，本质是一种深度学习模型在图像合成、替换领域的技术框架，属于深度图像生成模型的一次成功应用。

其实该技术的最初版本在2017年底就被提出了，当时在构建模型的时候使用了Encoder-Decoder自编解码架构，在测试阶段通过将任意扭曲的人脸进行还原，整个过程包含了：获取正常人脸照片—>扭曲变换人脸照片—> Encoder编码向量—> Decoder解码向量—> 还原正常人脸照片五个步骤。后来，在Encoder-Decoder的框架之上，又引入了GAN（生成对抗网络）技术，不但降低了同等条件下的模型参数量和模型复杂度，同时使生成的人脸更为清晰，大大降低了对原图的依赖，显著提升了换脸的效果，从而形成了目前基于GAN技术的Deepfake改进版。

简而言之，只要提供足够多的照片或声音素材，Deepfake就能够实现以假乱真的变脸或变声，还自带动态捕捉，可以直接在视频甚至实时影像中进行面部更换。

三、Deepfake技术被滥用究竟有何威胁？

每项新技术的产生都具有两面性。一方面，Deepfake技术应用在影视文化行业等领域的想象空间极大；另一方面，利用Deepfake技术实施诈骗、用于政治争斗和诽谤他人等，使该技术从诞生之初就伴随着肖像权、版权和伦理层面的争论。

一是用于网络诈骗

就像前面提到的这两起网络诈骗事件一样，预计，今后网络犯罪分子将会积极利用Deepfake技术实施诈骗活动。在使用 Deepfake技术制作的视频中，可能会检测到细微的奇怪之处，但以目前的技术水平生成的声音文件与真实声音非常相似，真假难辨。

安全公司Cato Networks的网络安全高级主管伊泰·毛尔（Etay Maor）表示：“目前已经出现了很多类似Deepfake技术这种可以生成深度伪装语音的开源工具。网络犯罪分子的目的是赚钱。只要能赚钱，他们愿意肆无忌惮地学习和使用任何新技术。如果Deepfake技术被反复用于这种大规模的诈骗技术，那么这些开源工具也将会如此，攻击者没有理由不使用它们。虽然Deepfake技术合成的视频尚不完善，但语音合成技术已经足够成熟，且使用起来并不难。”

二是用于政治目的

在Deepfake技术刚出现时，专家们就担心它们会被恶意用于政治活动中。也就是说，他们担心别有用心者模仿政客的脸和声音制作出虚假视频，散布不负责任的言论，从而引发社会轰动。

换脸讲的什么（换脸换声音）(3)

图片来源于互联网

2018年4月，美国网络媒体Buzzfeed在Youtube上上传了一条视频，令人大吃一惊。视频的内容是前任美国总统奥巴马辱骂时任美国总统特朗普。在该视频中，前美国总统奥巴马称特朗普是个十足的笨蛋。其实，这是Buzzfeed为了警示人们Deepfake技术的危险性而与电影导演乔丹·皮尔（Jordan Peele）一同制作的视频。该视频制作得十分巧妙，一般人很难辨别其真伪。因此，如果Buzzfeed没有公开该视频的真实意图，此事件将会引起轩然大波。

三是用于诽谤他人

利用女明星、成功人士等公众人物的脸制作虚假色情视频引发关注，这是Deepfake技术的惯用伎俩，任何熟悉互联网的人都不会对此感到惊讶。2019年10月，荷兰网络安全公司Deep trace发布了一份统计报告显示，利用Deepfake技术制作的视频中96%都涉及色情，并且大部分受害者都是娱乐圈女星。

四是损害大众的信任

Deepfake技术可能构成的最大威胁是，它们的存在令人们对合法视频和真实新闻增加了一份不信任感。Deepfake技术具有前所未有的篡改内容的能力，这对消费者、品牌方、决策者、政治家和所有作为信息提供者的媒体蒙上了一层“不信任”的阴影。并且随着AI和深度学习技术的不断发展，虚假音视频的制作也将变得更加容易、更为“真实”。因此，Deepfake技术破坏信任和传播假消息的潜力也前所未有地增强了。

换脸讲的什么（换脸换声音）(4)

图片来源于韩国安全新闻网站

四、我们该如何预防此类诈骗

此次阿联酋银行诈骗事件不是Deepfake语音技术第一次被用于网络诈骗犯罪，也不会是最后一次。类似的事件将来还会发生，而且规模可能会更大。那么，我们该如何预防呢？

一是引入零信任

安全公司Cato Networks的网络安全高级主管伊泰·毛尔将这两次利用Deepfake技术成功诈骗的事件描述为“最终与信任相关的事件”。他表示：“对于冒充认识的人发送电子邮件要钱和直接打电话要钱的人来说，这是两件完全不同的事情。因为语音中包含的信息比文字多得多，除了说话的内容外，还有声音的音色、语调、语气等其他信息。如果连这些信息都和原始信息相似，则它更有可能被信任。没有人能不上当受骗。”

毛尔认为，在Deepfake技术变得如此普遍的当下，别无他选，只能在所有环境下引入零信任。毛尔强调：“这不只是与引入新技术或最新技术相关要素的问题，而是必须在我们所有的情况和环境下建立一种‘确认并相信’的文化。”

二是运用人工智能识别

有专家认为，由于Deepfake技术仍在不断改进，最终会变得更加强大，以至于人类无法正确识别。但经过训练的人工智能可能会识别出深度伪造的行为，因为克隆受害者的面孔和声音往往包含一些错误，例如数字噪音或人类不可能发出的一些声音等。

三是加强个人信息保护

有人认为，现在只需要5分钟的样本音频，即可制造出合成语音；但也有部分人持不同意见，认为至少需要2至3个小时的音频样品，才能合成出像样的深度假声。这可能仅是一种对判断Deepfake声音的完成度存在分歧而已，归根结底，虚假音视频的制作都必须以一定数量原声素材为基础。只要我们注意保护好个人信息，不要将个人的音视频资料外泄，就会降低被利用的风险。

四是立法保护

仅在技术层面打击这一技术的滥用是不够的，我们还需要法律的支持。我国《民法典》之人格权编规定，任何组织或者个人不得以丑化、污损，或者利用信息技术手段伪造等方式侵害他人的肖像权。这意味着即便没有营利目的和主观恶意，未经本人同意的AI换脸和模仿声音同样有可能构成侵权。

另外，我国《网络音视频信息服务管理规定》中，作为网络视频规范强化的要点，明确规定利用Deepfake或假想现实等技术进行的虚假音视频传播的行为是非法的。

（资料来源：韩国安全新闻网站、软件测试网、简书等相关文章。本文参考内容均来源于网络，仅供读者了解和掌握相关情况参考，不用于任何商业用途。如果相关作者认为摘选不妥，请联系我们删除。）

换脸讲的什么（换脸换声音）

最新推荐

热门推荐