以假乱真的AI换脸技术，真的毫无破绽吗？

【栏目导航】

Navigation

【期刊信息】

Message

刊名：环境技术
主办：中国电器科学研究院股份有限公司
主管：中国机械工业集团有限公司
ISSN：1004-7204
CN：44-1325/X
影响因子：0.189802
被引频次：9816
数据库收录：
统计源期刊(2018);期刊分类：环境与安全

现在的位置：主页 > 综合新闻 >

来源：环境技术 【在线投稿】栏目：综合新闻时间：2021-06-20

作者:网站采编

关键词:

【摘要】从在围棋界战无不胜的“阿尔法狗”，到铺天盖地的“人脸识别”，机器学习给人们的生活带来了翻天覆地的改变。但随着AI技术的不断发展，以“智能换脸”为主要展现结果的Deepfak

从在围棋界战无不胜的“阿尔法狗”，到铺天盖地的“人脸识别”，机器学习给人们的生活带来了翻天覆地的改变。但随着AI技术的不断发展，以“智能换脸”为主要展现结果的Deepfake技术，却给大家的生活带来了更多困扰。

2018年，加蓬总统Ali Bongo因中风在公共视野中消失了数月。政府为了安抚民心，在新年时公开了一段总统录制的新年致辞。这段新年致辞使用了Deepfake技术进行生成，但这个视频非但没有起到安抚民心的作用，反而让军方的资深大佬发现异常，最终导致了兵变。在这个事件中，“AI换脸”技术成为干扰政治选举，降低政府公信力的一大推手。

在很多人的印象中，Deepfake技术除了能让有需求的人看到AI换脸的色情小视频外，似乎都走在社会的阴影里。

对普通人而言，Deepfake技术可谓是以假乱真，毫无破绽。那面对网上流传的真假不一的视频，我们真的无法分辨吗？

不用担心，正所谓“魔高一尺，道高一丈”。在专业人士手中，通过细致的计算机分析，可以辨别出照片、视频的真假，让Deepfake技术处理过的内容“现出原形”。

Deepfake技术的原理就是学习学习再学习

要了解Deepfake技术如何被识破，首先就要了解什么是Deepfake技术。Deepfake是使用深度机器学习（deep machine learning）和假照片（fake photo）组合而成的一个词，可以理解为机器进行深度学习而制造的假照片、假视频等虚假产物。其中最常见的应用就是“AI换脸”，也就是将一个人的脸部移植到另一个人脸上。

在进行换脸时，机器首先需要识别出人脸的位置。人脸的识别与校准在自动驾驶等领域也有着广泛的应用，目前的发展已经非常成熟，识别率在98%以上。

换脸用的素材，与待换脸的视频中的人脸，他们的面部朝向、面部表情往往不同。因此，识别出人脸位置之后，机器要进一步对人脸进行校准。通过寻找面部具有鲜明特征的区域，机器可以确定每一帧中人脸的朝向、表情，进而将待换脸视频中需要插入的人脸与素材匹配起来。

匹配完成之后，换脸技术也不是简单地就把换脸素材贴在了待换脸的人脸上。简单地贴图，可以轻松地被肉眼识别，难以达到“以假乱真”的效果。Deepfake技术进一步地学习原理可以用人的行为来类比。

如果你盯A脸看上100小时，接着去看B脸的照片；接下来让你凭记忆画出B的脸，那不管你的技术水平多高，最终都会画的跟A脸很像。所以，当我们训练机器，让机器学习用A脸的元素画出B脸时，就可以将A脸逼真地“画到”B脸上。

逼真的Deepfake技术也有小破绽

机器学习出的换脸视频、照片那么逼真，那Deepfake技术的破绽何在呢？

中国有句古话叫做“若想人不知，除非己莫为”。换脸技术的破绽，就出在人脸素材的细节上。Deepfake技术使用A脸的元素来画出B脸，这一过程是对A脸元素的精巧拼接。而这一拼接的过程，势必不能完美地符合真实情况。

纽约州布法罗-布法罗大学的计算机科学家，就从“眼睛”——这一人脸上最精致的元素入手，实现了对Deepfake技术的甄别。

这一技术的核心原理基于眼球的反射。当外界环境的光照射到眼睛上时，就会产生反射，在角膜上生成图像。在真正的照片中，两只眼睛看同一物体，会具有非常相似的反射模式。但在Deepfake合成的照片中，两只眼睛的反射内容往往并不协调。很可能出现左眼“看见”一只小狗，右眼“看见”一辆卡车的情况。检测机器首先提取两只眼睛反射的内容，然后检测左右眼的反射内容、反射光强度等参数是否协调统一，就可以识别出照片、视频是否经过了合成。这一方法已被证明具有94%的实验有效性。

除此之外，常见的检测方法还包括：

（1）根据视频的2D图像估计三维姿势。使用Deepfake技术合成的视频，三维姿势可能会突然发生较大的突变。比如视频中的人，如果在上一帧胸口还是鼓起正在吸气的状态，下一帧就迅速变成胸口下沉吐气的状态，那就说明这个视频铁定是合成出来的。

（2）捕捉Deepfake技术在处理视频时对图像进行扭曲而在环境中产生的“伪影”。

（3）捕捉左右虹膜异色、光照与阴影不协调、几何建模错误等瑕疵。

（4）针对名人的行为习惯，检测视频中是否有对应的特有行为特点（例如摸鼻子、歪嘴等）。

文章来源：《环境技术》网址: http://www.hjjszz.cn/zonghexinwen/2021/0620/1785.html

上一篇：《向往5》进程过半，张艺兴凭技能圈粉，网友却
下一篇：低调的中国科技巨头，打破技术垄断，跃居世界