计算机可以学做很多事情,掌握很多技能,包括日臻完善的绘画技能,这能够生成从人脸到景观几乎一切事物的逼真效果。如今,“深伪”(DeepFake)技术引发了社会各界的担忧,执法部门不得不出面,而商业图片供应商也面临着由此产生的新竞争。
深度学习是“深伪”这项AI新技术的核心,因为此类合成媒体的使用者通过添加对抗循环,让两个神经网络相互对抗和博弈来完善视频或图像效果。这为常规的有监督和无监督的机器学习模式增加了一个新维度。
生成对抗网络技术
上述技术用到的架构名为生成对抗网络技术(GAN),上文提到的两个对抗神经网络分别是生成网络(生成器)和判别网络(判别器)。生成网络通过其数据库生成候选方案(图像),然后判别网络会判断候选方案的真假,找出其中的瑕疵并反馈给生成网络,生成网络得到这些反馈后再自行校正。以上循环不断重复,直到判别网络对候选方案的真伪辨别只有50%的把握。最后完成的作品可能是一张人脸照片,大部分人都将无法辨别其真伪。
生成对抗网络技术的提出者是Ian Goodfellow。2014年,他在蒙特利尔大学攻读博士学位期间,与他的一些同学及导师Yoshua Bengio一起开发了这一突破性技术。
GAN不只用于合成媒体,但其在这一领域的运用最为广泛,既有商业运用也有非商业运用。其中,最著名也最令人反感的应用便是生成“深伪”影像,即把图像或视频中原来的人脸替换为电脑生成的人脸。这样做可能是为了好玩,但也能被假冒者用于网络犯罪、发布虚假信息或人身攻击。这些算法在带来潜在风险的同时,也帮助迪士尼工作室创作更多CGI动画。由于运用深伪技术的高分辨率App已经相当普遍,Snapchat和Instagram的用户可通过GAN将自己置于电影剪辑片段或将他们的宠物置于卡通动画中,也可以进行高级照片编辑、实验面部老化等。该技术本身是中性的。
网站machinelearningmastery.com上列举了一长串GAN的积极用途,包括将卫星照片转换为谷歌地图,将照片从白天转换为晚上或将黑白转换为彩色,甚至将简单的素描转换为逼真的彩色照片。
如果想提高照片的分辨率,SRGAN模型可以将图像转换为更高像素的超分辨率图像,或者使用GP-GAN对不同照片的元素进行高分辨率图像融合,更令人惊奇的是,StackGAN可以仅根据文本描述就能生成鸟或花朵等小物体的逼真照片。
GAN在商业中的应用包括制作培训和演示视频,如将文本转换为语音、实现视频中面部表情与语音的同步。在广告方面的应用更是突破想象,从为时装展示生成个性化的合成模特,到广告角色如画家伦勃朗肖像的动画效果创造,极为广泛。
“深伪”技术的其他应用
此前包括有些现在也很流行的应用程序(如Reface、Zao、FAGAN)能够在静态图像或视频中进行换脸操作,允许用户把任何人的自拍插入电影或者电视节目片段中;如果适当调整朋友照片中的年纪和发型,你甚至可以让他们“穿越”到一战后凡尔赛条约签署现场,化身为签署人。中国的换脸应用程序“Zao”允许用户对名人声音进行“变声”操作,将自己的脸合成到演员身上。Zao刚推出时,在一周内就蹿升为中国国内下载次数最多的免费应用程序。
“深伪”技术引发了一个值得关注的法律问题:如果有人在社交媒体平台上抓取其他人的头像照片并对其任意处理,那么被抓取人的肖像权归属于谁?被抓取人又拥有哪些权利?美国部分州与一些国家开始着手解决这些问题,但美国参议院提出的《2018恶意伪造禁令法案》和美国众议院提出的《深度伪造问责法案》目前尚未成为正式法律。
Michael Castelluccio
于婕 译,郭强 校