人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失

2018-10-26 13:12:59投稿人 : 青岛本地网围观 : 3217 次0 评论

人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失(特约点评:人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失对于视频图像同步变脸提供了新的思路,这个创新点趣说人工智能必须推荐。来自网友笑笑的推荐!)

人工智能视频图像同步换脸术结合空间和时间及内容风格对抗性损失摘要:我们引入了一种数据驱动的方法,用于无监督的视频重定向,将内容从一个域转换到另一个域,同时保留域中的原生样式,即,如果将John Oliver的语音内容转移到Stephen Colbert,则生成的内容/语音应该在斯蒂芬科尔伯特的风格。我们的方法结合了空间和时间信息以及内容翻译和风格保存的对抗性损失。在这项工作中,我们首先研究利用时空约束空间约束进行有效重定向的优势。然后,我们展示了针对空间和时间信息的问题的建议方法,例如面对面翻译,花到花,风和云合成,日出和日落。

人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失简介:我们提出了一种用于视频重定向的无监督数据驱动方法,该方法能够将顺序内容从一个域转移到另一个域,同时保留目标域的样式。这样的内容翻译和样式保存任务具有许多应用,包括从一个人到另一个人的人体运动和面部翻译,从人类演示教授机器人,或者将黑白视频转换为颜色。该工作还可用于创建在现实世界设置中难以捕获或标记的视觉内容,例如,将两个人的人体运动和面部数据对准用于虚拟现实,或者标记用于自动驾驶汽车的夜间数据。最重要的是,内容翻译和风格保存的概念超越了像素到像素的操作,成为更加语义化和抽象的人类可理解的概念。

人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失贡献:目前重新定位的方法可大致分为三类。第一组是专为人脸等领域设计的[5,41,42]。虽然这些方法在面部完全可见时效果很好,但在应用于遮挡面(虚拟现实)时会失败,并且缺乏对其他域的概括。关于配对的图像到图像转换[23]的工作试图跨域推广,但需要手动监督标记和对齐。该要求使得难以使用这样的方法,因为在许多领域中不可能进行手动对准或标记。第三类工作尝试无人监督和不成对的图像翻译[26,53]。它们对不成对的2D图像强制执行循环一致性[51],并学习从一个域到另一个域的转换。但是,单独的不成对的2D图像不足以进行视频重定向。首先,它无法对优化构成足够的约束,并且经常导致不良的局部最小值或感知模式崩溃,使得难以在目标域中生成所需的输出。其次,仅在2D图像中使用空间信息使得难以学习特定领域的风格,因为风格信息也需要时间知识。

在这项工作中,我们做了两个具体的观察:(i)时间信息的使用为优化将一个域转换为另一个域提供了更多的约束,并有助于达到更好的局部最小值; (ii)空间和时间约束的综合影响有助于学习特定领域中身份的风格特征。重要的是,时间信息可以在视频中免费获得(在网上有大量可用),因此无需人工监督。图1显示了人脸和花朵的每个翻译示例。在没有任何手动监督和特定领域知识的情况下,我们的方法使用来自两个域的网络上的公共可用视频数据来学习从一个域到另一个域的重定向。

我们的贡献:我们引入了一种新的方法,将时空线索与条件生成对抗网络[15]结合起来进行视频重定向。我们展示了时空约束优于图像到标签的空间约束以及不同环境设置中的标签到图像的优势。然后,我们提出了所提出的方法来学习两个域之间更好的关联,以及它对视觉数据的自我监督内容对齐的重要性。受到时空不断存在的启发,我们定性地展示了我们的方法对于各种自然过程的有效性,例如面对面翻译,花到花,合成云和风,对齐日出和日落。

人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失相关工作,存在涉及图像到图像翻译[11,17,23,40,53]和样式翻译[4,10,19]的各种工作。事实上,计算机视觉和计算机图形学的大量工作是关于图像到图像的操作。虽然主要的工作是推理语义[30],几何[1,9]或低级别线索[48],但是通过引入生成性对抗网络,使用数据驱动方法合成图像​​再次引起了人们的兴趣[15] ]。该公式已被用于从线索生成图像,如低分辨率图像[8,28],类标签[23]和各种其他输入先验[21,35,49]。然而,这些方法需要输入 - 输出对来训练模型。虽然为一些图像到图像操作标记数据是可行的,但是有许多任务为生成用于训练监督的输入 - 输出对是非常重要的。最近,朱等人。 [53]建议在对抗性学习框架中使用循环一致性约束[51]来处理这种不成对数据的问题,并证明各种任务的有效结果。循环一致性[26,53]可以实现许多图像到图像的转换任务,而无需任何昂贵的手动标记。类似的想法也以无人监督的方式应用于学习深度线索[14],机器转换47],形状对应[20],逐点对应[51,52]或域适应[18]。

Cycle-GAN [53]的变体已应用于各种时间域[14,18]。然而,他们仅考虑2D图像中的空间信息,并忽略用于优化的时间信息。我们观察到两个主要限制:(1)。感知模式崩溃:无法保证循环一致性会为输入产生感知上唯一的数据。在图2中,我们展示了为唐纳德·特朗普为巴拉克·奥巴马培训的模型的输出,以及图像到标签和标签到图像的示例。我们发现,对于唐纳德特朗普的不同投入,我们得到了巴拉克奥巴马的感知相似的输出。我们观察到这些输出具有一些独特的编码,使他们能够重建类似于输入的图像。我们在图2-(b)中看到了图像到标签和标签到图像的类似行为; (2)。空间连接到输入:由于输入本身的重建损失,优化被迫学习与输入紧密相关的解决方案。虽然这对于只有空间转换很重要的问题(例如马到斑马,苹果到橙子或绘画等)是合理的,但对于合成需要时间和风格信息的问题来说这很重要(突出地说面对面的翻译)。在这项工作中,我们提出了一个新的公式,利用空间和时间约束以及对抗性损失来克服这两个问题。在图2-(c,d)中,我们显示了使用提出的配方生成的输出,克服了上述问题。我们认为这是由于可用于约束不足优化的更多约束。

使用GAN [15]和变分自动编码器[27]也找到了合成视频和时间信息的方法。沃克等人。 [45]使用时间信息来预测来自单个图像的未来轨迹。最近的工作[16,44,46]使用时间模型从单个2D图像预测长期未来姿势。 MoCoGAN [43]分解运动和内容以控制视频生成。类似地,Temporal GAN [39]采用时间生成器和图像生成器,分别生成一组潜在变量和图像序列。虽然相关,但此前的工作重点是在测试时从单个图像预测未来意图或从随机噪声生成视频。同时,MoCoGAN [43]展示了使用其配方进行图像到视频翻译的示例。与这些方法不同,我们的重点是一般的视频到视频转换,其中输入视频可以以类似于图像到图像转换的精神控制输出。为此,我们可以使用我们的方法生成任意长度的高分辨率视频,而之前的工作[39,43]仅生成16帧64×64。

空间和时间约束:已知空间和时间信息是指导人类行为的整体感官成分[12]。对于各种计算机视觉任务,例如学习更好的物体检测器[34],动作识别[13]等,存在大量利用这两种约束的文献。在这项工作中,我们迈出了利用时空约束进行视频重定向和不成对图像的第一步。到图像翻译。

学习协会:计算机视觉的大部分是关于学习关联,无论是学习高级图像分类[38],对象关系[32],还是逐点对应[2,24,29,31]。然而,在学习关联以协调不同视频的内容方面的工作相对较少。在这项工作中,我们使用我们的时空约束训练模型,以自我监督的方式对齐两个视频的语义内容,并自动对齐视觉数据,无需任何额外的监督。

人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失实施细节:我们采用了来自Cycle-GAN [53]的大部分训练细节来训练我们的空间翻译模型,并采用Pix2Pix [23]作为我们的时间预测模型。生成网络包括两个卷积(用stride-2缩减),六个残余块,最后两个上采样卷积(每个都有一个步长0.5)。我们对ttX和ttY使用相同的网络架构。所有实验的图像分辨率设置为256×256。鉴别器网络是70×70 PatchGAN [23,53],用于对70×70图像块进行分类,如果它是真实的或假的。我们设置所有λs= 10.为了实现我们的时间预测器PX和PY,我们将最后两个帧连接为网络的输入,其网络结构与U-Net架构相同[23,37]。

人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失实验,我们现在研究时空约束对空间循环约束的影响。因为我们的关键技术贡献是在学习非配对图像映射时引入时间约束,所以自然基线是Cycle-GAN [53],这是一种广泛采用的方法,用于单独利用空间循环一致性来进行不成对的图像转换。我们首先在输入和输出视频之间的地面真实对应的域上呈现定量结果

已知(例如,每个帧与语义标签映射配对的视频)。重要的是,此对应配对不适用于Cycle-GAN或Recycle-GAN,但仅用于评估。然后,我们将在不同的视频中展示具有未知对应关系的定性结果,包括不同人脸的视频翻译和自然界中发现的时间错综复杂的事件(鲜花盛开,日出/日落,时间流逝的天气进展)。

人工智能视频图像同步变脸术结合空间和时间及内容风格对抗性损失讨论与未来工作,在这项工作中,我们探讨了时空约束对学习视频重定向和图像翻译的影响。不成对的视频/图像转换是一项具有挑战性的任务,因为它是无人监督的,并且缺少来自输入和输出空间的训练样本之间的任何对应关系。我们指出,许多自然视觉信号本质上具有时空特征,这为自由提供了强大的时间约束。这导致明显更好的映射。我们还指出,不成对和无监督的视频重定向和图像转换是一个受限制不足的问题。使用来自可视数据本身的辅助任务的更多约束(用于其他视觉任务[33,50])可以帮助学习更好的转换模型。

Recycle-GAN学习映射函数和循环时间预测器。到目前为止,我们的结果仅使用映射函数,以便于与以前的工作进行公平比较。但是,通过利用单图像翻译模型和时间预测器来合成目标视频是很自然的。此外,通过使用时空生成模型可以更精确地合并视频重定向中的样式概念,因为这将允许甚至学习生成输出的速度。例如。两个人可能有不同的内容传递方式,并且一个人可能需要比其他人更长的时间来说同样的事情。真正的风格概念应该能够产生甚至传递语音/内容所需的时间变化。我们相信更好的时空神经网络架构可以在不久的将来尝试这个问题。最后,我们的工作也可以利用Huang等人的并发方法。 [22]学习一对多的翻译模型。

原文标题:Recycle-GAN: Unsupervised Video Retargeting

青岛本地网-免责声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载或引用的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除!