关键词:风靡全球|换脸|兵马俑|属性|风格迁移|自主研发人脸|信息|图片|换脸|生成|特征7193|4401|24|14|4410|1501

换脸新时尚:BIGO风靡全球的面部风格迁移技术性

换脸新时尚:BIGO风靡全球的面部风格迁移技术性

1974年,在我国的考古工作者在陕西西安挖掘出了兵马俑,并被其神情各不相同栩栩如生的脸部情绪所震撼人心。同一年,一篇名叫《A Parametric Model for Human Faces》毕业论文迈开了面部属性编写这一行业的第一步。而半世纪后的今日,BIGO自主研发的FaceMagic的换脸技术性给你无拘无束地变为兵马俑,世界名画,或是影片里的漫威英雄, 商品一发布即风靡全球。 

BIGO以便把此项自主创新技术性带来全世界客户,研发人员摆脱了各种各样挑戰。技术性挑戰关键来自三个层面:第一是面部特点转移技术性,大家创新能力地试着把风格迁移的构思用以面部特点转移中,摆脱了那时候流行的deep fake、 三d计划方案等技术性的不够。 第二是经济全球化难题,由于BIGO客户来自全世界全国各地,以便处理不一样种族的皮肤颜色、五官构造的差别难题,大家搭建了干万重量级的经济全球化的人脸数据集,巨大地包含皮肤颜色、性別、年纪等差异,务求把全世界每一位客户的实际效果保证最好 。第三是多属性,多情景的实际效果提升,我们在持续优化网络构造的另外试着面部属性、面部姿势等管束,并全力提高规模性数据信息的训炼高效率,充足发掘数据信息的多元性特点,把换脸实际效果保证更为鲁棒、真正、当然。FaceMagic仍在吸引住愈来愈多的人的参加,自发布至今,全世界生产制造总产量贴近一亿。作用发布后,每日有超出上百万级的內容总产量。

 

情况

面部属性编写是人工智能算法行业的一项关键技术性,普遍用以內容生产制造,制作电影,娱乐视频中。初期的面部属性编写关键集中化在面部的小表情上,例如根据改动张开嘴巴或是闭上眼来反映人的所有喜怒哀乐。伴随着算率的提高,此项技术性接着便升化为及时的小表情编写或转移,也就是将一张脸的小表情做为键入,来操纵另一张脸的小表情做为輸出,时下大家见到的三维动画或是虚拟偶像都会普遍地运用此项技术性。

殊不知只是换一个小表情显而易见早已不行科技人员的脑洞大开,Volker 一行人在毕业论文《Exchanging faces in images》[1]中初次明确提出了在当然图象中换置面部的定义。文章内容中应用了一种比较初始的三d实体模型计划方案来粗估姿势与光源,并将总体目标面部更换至源人脸部。此项技术性因为必须人工服务参加校准关键环节,关键被运用于图片编辑工具等工作中。在悠长的学术研究发展趋势全过程中,换脸技术性发生了翻天覆地的转变,慢慢衍化出来根据三d面部模型,及其抵抗转化成互联网(GAN) [2]的2个流派。

三d面部模型的计划方案较为形象化,即先对源照片和目标图片开展关键环节检验并开展3D建模,随后获取目标图片中的身份证信息(ID)更换源照片中的相对一部分。Dmitri Bitouk et al.[3]对于[1]中必须开展人工服务参加,另外也不可以解决小表情的难题,明确提出了一个全新升级的计划方案,能够处理自动化技术及其小表情的难题。而近现代根据3D建模来完成换脸的祖先,Face2Face [4]则根据线性拟合一个三dMM[5]实体模型来进一步转移小表情。做为第一个能即时开展脸部变换的实体模型,Face2Face的准确度和真实性塑造了业内榜样 。接着的一些科学研究也多根据此,对转化成面部的当然度开展加强,比如Suwajanakorn et al.[6]对唇部的实体模型开展调整,促使唇部的姿势更为当然。Nirkin et al.[7]融合面部切分,根据一个固定不动的三维面部来开展换脸,防止线性拟合三维面部样子。这种方式 尽管能获得一定的换脸实际效果,可是要不测算量很大,要不便是转化成换脸后的照片依然不当然,且没办法解决挡住等难题。

近些年,伴随着规模性的GPGPU算率的出現,根据GAN的换脸计划方案迅猛发展,一举击败了根据传统式三d换脸计划方案的本营。这一提升最先出現在Pix2pixHD [8]中,Ting-Chun等应用了一个多限度的cGAN构造开展照片对图片的转变,比如给出一个面部的轮廊信息内容,cGAN则能将其转化成一个真正面部。随后GANimation[9] 明确提出一个双支系生成器来处理面部小表情的难题,在其中一个支系根据重归专注力图来操纵小表情,另一个支系则出示情况和光源信息内容。GANnotation [10]则在加上线性组合的路面上更进一步,根据管束面部关键环节来驱动器转化成相匹配的面部。除此之外,学术研究们也在试着着与传统式计划方案融合,亦或是根据先验知识来具体指导GAN的转化成品质。Kim等人到 Deep video portraits [11] 融合了传统式三d与GAN的技术性来开展面部的转化成;RSGAN [12]明确提出一种解耦面部和秀发的方式 来换脸;FSGAN [13]根据融合面部切分来评定挡住地区,在一定水平上解决了换脸之中的挡住难题。根据GAN的方式 转化成的换脸照片对比三d方式 更为真正当然,可是没办法造成超清的换脸实际效果,此外源照片姿势较为大时没办法兼具姿势的一致性和换脸的ID转移工作能力。

BIGO的优化算法团体历经探寻,明确提出了根据风格迁移 ID引入的FaceMagic计划方案,在转化成超清当然面部的另外可以维持面部姿势、属性一致。现阶段FaceMagic已在线上运营,每天客户需求量过上百万级。

风格迁移的风过

这一切要从风格迁移的科学研究多元性讲起。2017年ECCV的一篇《Image Style Transfer Using Convolutional Neural Networks》[14] 给一张阿姆斯特丹的旅游照再加了夜空的觉得。文章内容明确提出的根据Gram matrix的方式 ,也就是神经元网络的特点图每个安全通道的关联性,将真实照片与风格图片结合。这促使生成后的照片具备初始照片的内函,可是视觉效果上又会感受到不一样的设计风格。

图1. 风格迁移案例

自然,这类计划方案的付出代价也是极大的,每一组不一样的content到style的变换,都必须训炼一个专用型的神经元网络,这在具体的运用之中显而易见不是实际的。17年的另一篇毕业论文《Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization》(AdaIN)[15]则对于此事难题作出了答复。本文确认了一个尤为重要的依据:style信息内容掩藏在特点层中每一层的统计量中。因此,文章内容根据定项更改Instance Normalization(IN)层后特点的平均值及其标准偏差,来获得风格迁移实际效果。这一方式 要是根据训炼一次互联网,即能够完成随意content至随意style的风格迁移。

图2. 經典的根据AdaIN的风格迁移互联网

把面部作为一种设计风格

今年英伟达显卡发布了毕业论文《A Style-Based Generator Architecture for GAN》[16],也就是赫赫有名的StyleGAN,这类互联网結果转化成最大1024*1024像素的面部,且非常的真正与当然,震撼整场。而这身后的关键,则是根据深层次全连接神经元网络,将一组随机编码的空间向量转化成一组平均值μ和标准偏差σ,再送进不一样限度的AdaIN控制模块,最后转化成超清面部。

StyleGAN的工作中让我们产生的不但是新的网络架构、训练法,更关键的是逻辑思维上的颠复:“面部特点还可以做为一种设计风格来叙述”。那麼,究竟什么叫content, 什么叫style?

在造型艺术风格迁移中,content 做为真实照片中的商品样子、轮廊,style则是艺术大师美术作品中的色彩、画笔、风格等与众不同的艺术特点。在StyleGAN中,则沒有content,一切的面部特点皆为style。从这一视角再次思考风格迁移,大家会下结论:针对content跟style的定义,沒有统一的规范,彻底在于你怎样区划!运用时,必须保存的一部分做为content,而必须更改的一部分则做为style。

从风格迁移到换脸

大家再一次返回换脸这一话题讨论,StyleGAN在转化成面部的情况下,应用了随机编码的空间向量做为種子,转化成了需要的面部style,那麼大家能否应用相近的观念,提取总体目标面部的style,用于更换源面部的呢?回答当然是毫无疑问的。

接下去大家将根据四步演变来论述大家的FaceMagic实体模型:1)化我来我;2)化我来他;3)融进彼此;4)止于均衡。

化我来我

优化算法的第一步当然是明确大家的content,也就是脸部姿势与小表情等属性信息内容,这一总体目标大家根据让实体模型学好转化成自己来达到。全部步骤选用了如图所示3图示的經典Encoder-Decoder构造,互联网的输出对同一张面部图象I,根据累加了双层的ResBlock构造的Encoder,获得特点图F。实践活动上大家采用了很大的d值来储存大量的content信息内容。

图3. 根据自编码器来获得面部的content信息内容

化我来他

当实体模型明确了源面部中的content信息内容,大家下一步的总体目标就是将总体目标面部的ID信息内容,以style的方式引入至content之中。这一总体目标能够进一步拆卸为总体目标面部的ID获取及其引入二步。ID获取一部分,大家使用了应用VGG-Face[17]数据预训炼的面部识别互联网ID-Net。根据ID-Net获取的特征向量G可以非常好地域分面部中间的类似水平,因而能够很紧实地定性分析一个人的真实身份特点,另外不容易导入别的影响信息内容。而在尤为重要的信息内容引入一部分,大家的理论依据,则是最先根据全连接层,将总体目标面部的G_Tar转换为所需的平均值与方差μ_Tar,σ_Tar,再按照AdaIN的方法将style引入content。

殊不知在操作过程中,大家留意来到下列2个难题:I)训炼互联网时的收敛性速率比较慢;II)非常容易造成人工服务导致的不当然缺点(artifacts)。这两个难题我们一起再次思考换脸难题的实质:总体目标面部的ID虽然能够依照style的构思引入源面部的content中,可是这类计划方案很类似传统式的3D/三d视觉效果中的“敷面”对策——彻底选用总体目标面部的ID信息内容而抛下源面部的;而要达到“换脸”,大家事实上只必须关心一个从总体目标面部的ID到源面部ID信息内容的转变。

因此,大家彻底改变了要引入进AdaIN的style为“信息内容增减”,以下式图示:

在其中ε是一个较小的量以平稳标值。按照这一构思,大家设计方案了根据AdaIN-ResBlock的设计风格结合控制模块Style Mix Block,在好几个室内空间限度上把ID的信息增减根据AdaIN引入至从源人脸中提取的content之中。大家此外也选用了一种根据信息增减的死斗模式:根据渗入一部分源与总体目标人脸对同一张图片的训炼数据信息,使引入的style信息稳定为μ_diff =0,σ_diff = 1。这一计划方案极大地提高了实体模型在学习培训重新构建损害时的收敛性速率,而且抑止了绝大多数由于“敷面重新构建”造成 的artifacts。图16为Style Mix Block的详尽构造。

图16. Details of Style Mix Block

殊不知到这儿,BIGO优化算法团体对总体目标人脸的ID引入计划方案的思索,依然沒有完毕。真正情景中的换脸,原人脸及其总体目标人脸毫无疑问不容易像证件照片一样干净整洁规范,而常常会涉及尺度大上的pose变换或是被遮阳帽近视眼镜挡住的状况。在这类状况下,信息增减自身存有一个不精确的难题,这便会造成 一个在预期效果中依然存有“换脸的結果并不象总体目标人脸”的状况。在历经猛烈的探讨以后,大家干了一个胆大的决策:将初始用于叙述ID信息的特征G,立即拼凑(Concatenate)到Style Mix Block的特征上,并将这一总体特征送进Decoder来生成最后結果。总体互联网架构如图所示5图示。

图5. FaceMagic换脸的关键构造

融进彼此

小故事讲到这儿,却依然仅仅个开始,接下去一个难题出去哪儿呢?

这就牵涉到抵抗生成互联网的一些实质了,大家常说,抵抗生成互联网本质上是学了真正样版的特征流形,在生成的情况下根据选择一组做为種子的随机变量,选择流形上的点并投射到图象室内空间上。这就造成 了,大家尽管能够确保一张生成的图象“真正且当然”,可是却无法确保在一连串的视頻帧上的持续性。比如,在尺度大上的pose变换的情景下,非常容易出現出示content的源人脸的pose信息“遗失”的状况;此外源人脸的ID信息在视頻中自身也会存有振荡,而这种振荡由会被引入实际操作进一步变大。这种状况都造成 了在对视頻开展按帧换脸的实际操作时,会造成姿势晃动或是皮肤颜色阳光照射颤动等不持续的状况。

这儿大家根据Pose Constraint及其Skipping connection来减轻视頻换脸中存有的持续性难题,如图所示6鲜红色一部分图示:

1)Pose Constraint:大家根据面部的landmark来强管束源人脸及其生成人脸中间pose差别的难题。那样就算源人脸在一些帧出現尺度大的pose变换,生成的也依然会被管束在源人脸的pose上。

2)Skipping Connection:以便让生成的图片可以平稳的保存源图片的特征,大家试着将一些Encoder的基层的特征立即根据Skipping Connection立即嵌入到Decoder的特征之中。

图6. FaceMagic换脸的最后体系结构

止于均衡

大家先做一个小小结,现阶段大家拥有许多的控制模块,大家的total loss能够写出下边的方式:

很显而易见,增加L_recon和L_pose的权重值,能够促使生成的人脸能大量地保存源人脸的特征,增加L_ID的权重值,则会大量地转移大量总体目标的真实身份特征,L_GAN的权重值则用以确保生成的人脸尽量的真正当然。那麼,总算,我们可以刚开始开心地去调主要参数了?

显而易见,最终的均衡并不是调参就可以得到的。BIGO的优化算法同学们在深入分析了L_ID后发觉:针对2个原本看起来就很象的人,换脸后的結果从视觉效果上基本上看不出来转变,缘故取决于她们的ID特征间距原本就小,假如只是应用简易的l2损害或是cos相似性得话,互联网对这些的处罚会不大,可是简易的增加L_ID的权值又会使全部互联网的训炼越来越艰辛。以便处理这个问题,大家明确提出了考量换脸实际效果的相对性ID间距。简易而言,便是比照源人脸在换脸前后左右与总体目标人脸的间距差别。用公式计算能够表述为: 

在其中,为l2损害或是cos相似性。算式的上半部分成初始的ID信息损害,后半段分成比照损害。

结束语

历经BIGO优化算法团体学生们的持续勤奋,大家攻破了各种各样技术性上的困难,成效完成了FaceMagic——即时且高宽比真正当然的视頻换脸专用工具。可是大家绝对不会这里停住歇息,追求梦想与技术性的大家会一直前行。

 

图7:实际效果展现,从左到右各自为:源人脸,总体目标人脸,生成人脸

论文参考文献

1. Volker Blanz, Kristina Scherbaum, Thomas Vetter, and Hans-Peter Seidel. Exchanging faces in images. In Computer Graphics Forum, volume 23, pages 669–676. Wiley Online Library, 2004. 1, 2, 3 


2. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems (NPIS), pages 2672–2680, 2014.

3. Dmitri Bitouk, Neeraj Kumar, Samreen Dhillon, Peter Belhumeur, and Shree K Nayar. Face swapping: automatically replacing faces in photographs. ACM Trans. on Graphics (TOG), 27(3):39, 2008. 


4. Justus Thies, Michael Zollhofer, Marc Stamminger, Chris- tian Theobalt, and Matthias Nießner. Face2face: Real-time face capture and reenactment of rgb videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2387–2395, 2016. 


5. Volker Blanz, Sami Romdhani, and Thomas Vetter. Face identification across different poses and illuminations with a 3d morphable model. In Int. Conf. on Automatic Face and Gesture Recognition (FG), pages 192–197, 2002. 


6.Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4):95, 2017. 


7. Yuval Nirkin, Iacopo Masi, Anh Tran Tuan, Tal Hassner, and Gerard Medioni. On face segmentation, face swapping, and face perception. In Automatic Face & Gesture Recognition (FG), 2018 13th IEEE International Conference on, pages 98–105. IEEE, 2018.

8. Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 


9. Albert Pumarola, Antonio Agudo, Aleix M Martinez, Al- berto Sanfeliu, and Francesc Moreno-Noguer. Ganimation: Anatomically-aware facial animation from a single image. In Proceedings of the European Conference on Computer Vision (ECCV), pages 818–833, 2018.

10. Enrique Sanchez and Michel Valstar. Triple consistency loss for pairing distributions in gan-based face synthesis. arXiv preprint arXiv:1811.03492, 2018. 


11. Hyeongwoo Kim, Pablo Carrido, Ayush Tewari, Weipeng Xu, Justus Thies, Matthias Niessner, Patrick Pe ́rez, Chris- tian Richardt, Michael Zollho ̈fer, and Christian Theobalt. Deep video portraits. ACM Transactions on Graphics (TOG), 37(4):163, 2018.

12. Ryota Natsume, Tatsuya Yatagawa, and Shigeo Morishima. Rsgan: face swapping and editing using face and hair representation in latent spaces. arXiv preprint arXiv:1804.03447, 2018.

13. Nirkin Y, Keller Y, Hassner T. Fsgan: Subject agnostic face swapping and reenactment. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2019: 7184-7193.

14. Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR). 2016: 2414-2423.

15. Huang X, Belongie S. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2017: 1501-1510.

16. Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 4401-4410.

17. Parkhi O M, Vedaldi A, Zisserman A. Deep face recognition[J]. 2015.

 

猜你喜欢