当前位置：首页 > news >正文

提高网站的权重的最佳方法昌吉市建设局网站

news 2026/5/8 19:05:06

提高网站的权重的最佳方法,昌吉市建设局网站,高端网站设计找哪个公司,手机网站设计公司哪家专业EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成 1所有的材料都可以在EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model网站上找到。摘要尽管音频驱动的对话人脸生成技术已取得显著进展#xff0c;但现有方法要么忽…EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成 1所有的材料都可以在EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model网站上找到。摘要尽管音频驱动的对话人脸生成技术已取得显著进展但现有方法要么忽视了面部情感要么无法应用于任意主体。在本文中我们提出了情感感知运动模型EAMM通过引入情感源视频来生成一次性情感对话人脸。具体来说我们首先提出了一个Audio2Facial-Dynamics模块该模块能够从音频驱动的无监督零阶和一阶关键点运动中渲染出对话人脸。然后通过探索运动模型的特性我们进一步提出了一个隐式情感位移学习器将情感相关的面部动态表示为先前获得的运动表示的线性可加位移。综合实验表明通过结合两个模块的结果我们的方法能够在任意主体上生成具有逼真情感模式的满意对话人脸结果。 1 引言音频驱动的对话人脸动画任务能够实现多种应用涵盖视觉配音、数字化身、远程会议以及混合现实等领域。尽管该领域已取得显著进展[Fried等人2019Thies等人2020Zhou等人20212020]但其中许多方法依赖于源肖像的长视频录制来生成面部表情[Edwards等人2016Karras等人2017Yao等人2021]而在大多数情况下这样的长视频录制并不可用。另一方面仅驱动一帧图像的方法[Chung等人2017Mittal和Wang2020Zhou等人2019]仅关注合成与音频同步的口型而未考虑情感这一实现逼真动画的关键因素。因此如何在一次性对话人脸设置下实现富有表现力的情感编辑仍然是一个悬而未决的问题。以往的方法要么从固定数量的标签中识别情感[Abdrashitov等人2020Li等人2021Wang等人2020b]要么仅从小范围的标记音频数据中识别情感[Ji等人2021]。然而固定标签只能以粗粒度的离散方式表示有限的情感难以实现自然的情感过渡。此外仅从音频中确定情感可能导致歧义。人们有时难以感知隐藏在言语中的不同情感且情感识别模型对于一般言语的情感识别性能并不令人满意。因此这两者都限制了情感对话人脸模型的适用性。与此不同我们认为动态情感可以被转化为从额外情感视频中提取的可传递运动模式。因此我们的目标是设计一个一次性对话人脸系统该系统接受四种输入包括具有中性表情的身份源图像、语音源音频、预定义姿势和情感源视频。然而实现这样的系统并非易事。1) 生成情感信息需要对非刚性面部结构进行变形这些结构虽隐含但强烈地与身份和口型运动相关联。以往的方法通常采用人脸的强先验如特征点[Kim等人2019Wang等人2020b]和3D模型[Anderson等人2013Richard等人2021]。然而这些方法因模型不准确而导致误差累积。2) 提取情感模式也颇具挑战性因为情感模式与其他因素相互交织。为了应对这些问题本文提出了一种名为情感感知运动模型EAMM的新方法。我们的直觉是无监督的零阶和一阶运动表示[Siarohin等人2019abWang等人2021b]能够对面部局部流场进行建模这非常适合于操控情感变形。关键在于将局部情感变形通过自学习的关键点和局部仿射变换转移到音频驱动的对话人脸中。具体而言我们首先通过一个简单的音频到面部动态A2FD模块实现从单张图像生成对话人脸。该模块将音频表示和提取的姿势映射到无监督的关键点及其一阶动态上。然后一个额外的流估计器和一个生成器处理这些表示以进行图像重建。为了进一步从外观中分解出局部情感动态我们对运动模型的内在工作机制进行了实证探索。我们发现了两个有趣的特性。1) 面部区域的动态运动仅受特定关键点和仿射变换的影响这些被称为与面部相关的表示。2) 与面部相关的表示的相对位移通常是线性可加的。然而与面部相关的位移也包含不期望的口型运动和结构变形这使得它们无法直接应用于我们当前的模型。为此我们设计了一个隐式情感位移学习器以在A2FD模块的与面部相关的表示上仅学习情感相关的位移。特别是我们利用了一种有效的情感源增强策略来减轻不期望因素的影响。然后我们推导出一个以情感特征为条件的隐式函数该函数将A2FD模块中的所有运动表示映射到期望的与面部相关的表示的位移上。通过线性组合两个模块中的所有运动表示我们的模型互补地涵盖了口型和情感动态。大量实验表明我们的方法可以在具有真实情感模式的任意主体上生成令人满意的对话人脸结果。我们的贡献总结如下1) 我们提出了音频到面部动态A2FD模块该模块通过简单的方式预测无监督的运动表示来生成中性的音频驱动对话人脸。2) 基于两个实证观察我们提出了隐式情感位移学习器该学习器可以从情感源中提取与面部相关的表示的位移。3) 我们提出的情感感知运动模型EAMM成功地实现了具有情感控制的一次性对话头部动画生成。据我们所知这是该领域最早的尝试之一。 2 相关工作音频驱动的对话人脸生成。这是一项旨在从音频片段生成对话人脸视频的任务[Brand 1999; Bregler et al. 1997a,b; Lu et al. 2021; Wang et al. 2012; Zhou et al. 2018]。这些方法主要可以分为特定人物方法和非特定人物方法。尽管特定人物方法能产生更好的动画效果但其应用场景有限。为建模一个人物所需的训练时间可能长达数小时[Suwajanakorn et al. 2017]或几分钟[Lu et al. 2021; Thies et al. 2020]。Suwajanakorn等人[2017]使用17小时的视频进行训练从奥巴马的声音轨迹中合成了高质量的对话人脸。Thies等人[2020]和Lu等人[2021]则提出使用约3分钟长度的特定人物视频进行训练以生成逼真的对话视频。但这些方法无法应用于单张图像。另一方面Chung等人[2017]首次以一次性方式生成对话人脸。随后Chen等人[2019a]和Zhou等人[2020]通过利用面部特征点作为中间表示来改进了这一过程。Zhou等人[2021]进一步将姿态控制融入一次性设置中但这些工作都没有实现情感控制。情感对话人脸生成。情感[Cole et al. 2017]是在逼真动画中起重要作用的因素。由于在生成情感动态方面存在困难因此在对话人脸生成中考虑情感因素的作品很少。Sadoughi等人[2019]从一个设计的条件生成对抗网络中学习情感与唇动之间的关系。Vougioukas等人[2020]为时序生成对抗网络引入了三个判别器。然而这两者都未能生成语义表情并实现情感操控。最近Wang等人[2020b]收集了MEAD数据集并将情感设置为独热向量以实现情感控制。而Ji等人[2021]则提出将语音分解为独立的内容和情感空间然后从音频中合成情感动态。不过他们的方法无法应用于未见过的角色和音频。与他们不同我们借助源视频并分离出情感信息以实现一次性设置中的情感控制。视频驱动的面部动画。视频驱动动画利用视频来重新演绎面部运动这与音频驱动的对话人脸生成高度相关。传统方法需要动画目标的先验知识或手动标签如3D可变形模型[Kim et al. 2018; Thies et al. 2016; Zollhöfer et al. 2018]或2D特征点[Burkov et al. 2020; Chen et al. 2020; Huang et al. 2020; Isola et al. 2017; Tripathy et al. 2021; Wu et al. 2018; Yao et al. 2020; Zakharov et al. 2020; Zhang et al. 2020]。最近一些不需要先验知识的方法[Siarohin et al. 2019a,b]得到了探索。它们采用自监督框架并在密集场中建模运动从而实现外观和运动的解耦。我们的模型也是基于类似的思想构建的。 3 方法图2我们的情绪感知运动模型概述。我们的框架包含两个模块Audio2Facial-Dynamics模块用于一次性音频驱动的说话头部生成以及隐式情绪迁移学习器用于提取情绪模式。我们的情感感知运动模型EAMM的概览如图2所示其中不同类型的信号被作为输入来生成带有情感的对话人脸。我们的EAMM主要由两部分组成一个Audio2Facial-Dynamics模块该模块能从单张中性帧中实现音频驱动的中性表情对话人脸生成第3.1节以及一个隐式情感位移学习器该学习器涉及情感动态第3.2节。在以下部分我们将详细介绍每一部分。 3.1 Audio2Facial-Dynamics模块实现音频驱动的情感对话人脸的第一步是构建一个能够合理整合表情动态的一次性系统。为此我们设计了Audio2Facial-DynamicsA2FD模块该模块首先对面部运动进行中性表情建模。受[Siarohin et al. 2019b; Wang et al. 2021a]启发运动被表示为一组无监督的关键点及其一阶动态。基于这种运动表示可以计算变形场来考虑局部面部运动从而进一步促进情感对话人脸的生成。训练公式。由于缺乏成对的数据直接监督不可用因此我们采用了自监督训练策略[Chen et al. 2019b; Zhou et al. 2021]。对于每个训练视频片段V {1, ..., ...}我们随机选择一帧作为身份源图像并取对应语音音频的梅尔频率倒谱系数MFCC[Logan 2000] 1:作为语音源音频表示。考虑到头部姿态也是一个关键组成部分且很难从音频中推断出来我们使用现成的工具[Guo et al. 2020 Towards fast, accurate and stable 3d dense face alignment]从训练视频片段中估计姿态序列1:并将其作为额外的输入。每个帧的姿态用一个6维向量表示即3个用于旋转2个用于平移1个用于缩放。请注意在测试阶段身份图像、语音源音频片段和姿态序列1:可以来自不同的来源。 A2FD的流程。如图2所示我们首先使用三个编码器即, 和从三个输入中提取相应的信息这些信息分别表示为身份特征f、音频特征f和姿态特征f。然后我们将这三个提取的特征组合起来并输入到一个基于LSTM[Hochreiter and Schmidhuber 1997]的解码器中以循环预测整个序列的无监督运动表示。每个时间步的运动表示由个隐式学习的关键点 ∈ R及其一阶运动动态即雅可比矩阵 ∈ R组成其中每个雅可比矩阵表示每个关键点零阶表示位置附近区域的局部仿射变换。在本文中我们默认设置关键点数10。为了导出与局部动态相关的变形场需要提供初始帧的标准位置的零阶和一阶表示。我们认为如果我们与预训练的视频驱动的一阶运动模型[Siarohin et al. 2019b]共享涉及音频的关键点分布那么我们的A2FD模块将更容易学习而不是从头开始学习所有表示。因此我们采用[Siarohin et al. 2019b ]中的预训练关键点检测器来从源图像预测初始运动表示和。然后我们采用一个流估计器来生成一个密集的变形场该场描述了从源图像到目标视频帧的非线性变换。具体来说在每个时间步我们首先根据预测的关键点、和雅可比矩阵、计算个变形流以及一组掩码M。然后通过将掩码M加权组合到变形流上我们得到最终的密集变形场。最后我们将密集变形场与源图像一起输入到图像生成器中以在每个时间步生成最终的输出帧^。更多详细信息请参阅[Siarohin et al. 2019bFirst order motion model for image animation.]。训练目标。如前所述我们希望与基于视觉的模型共享运动表示的分布因此我们利用作为我们基于音频的模型学习的特定教师网络。具体来说从训练视频片段V中提取的关键点及其雅可比矩阵作为中间监督信息。然后我们制定了一个关键点损失项定义如下来训练我们的A2FD模块在第二阶段我们使用感知损失项通过最小化重建帧^和目标帧之间的差异来微调模型其中VGG(·)表示预训练VGG网络[Johnson et al. 2016]的第个通道特征该网络具有个通道。总损失函数定义为其中表示的权重。讨论。在通过音频输入生成中性说话面部之后一个直观的想法是直接将这个情感源纳入这个流程中。然而情感源自然包含所有面部信息包括嘴巴、身份和姿态这会导致不理想的结果。因此这带来了在我们的运动表示和变形场中解耦情感信息的需求。图3面部相关关键点掩膜的可视化。左下角图像展示了学习到的十个关键点右下角图像则显示了组合掩膜。我们还在顶部一行分别可视化了三个面部相关关键点的掩膜。自然面部图像来自CFD数据集©芝加哥大学。我们首先探索了基于关键点的变形场是如何变换源图像的。我们可视化了图3中所示的组合蒙版M并观察到面部区域仅受三个与面部相关的关键点的影响。仅用这三个关键点表示的集合记为(′, ′)。受这一观察的启发我们进行了一个简单的实验以验证我们是否仅通过编辑这三个与面部相关的关键点及其雅可比矩阵就能将情感模式从情感源视频转移到我们的A2FD模块中。一个简单的想法是探究同一个人的情感和中性运动表示之间的偏差是否可以线性相加即通过在其他人面部运动表示上添加位移来施加情感。为了减轻嘴巴的影响我们既利用了提取全脸动态的预训练模型也利用了我们的A2FD模型来生成中性说话面部。理想情况下在表示中他们的嘴巴形状应该是对齐的。具体来说我们首先使用从情感源视频中检测到关键点′和雅可比矩阵′。然后我们将该视频的音频和此人的中性状态图像输入到我们的A2FD模块中以生成′和′。我们计算了偏差(′ − ′, ′ − ′)它被认为包含了情感信息。通过将这个偏差简单地作为位移添加到任意人的运动表示上我们观察到运动动态可以成功地转移到生成的结果上。因此我们可以认为这些表示大致是线性可加的。然而虽然情感信息可以被保留但我们观察到面部边界和嘴巴周围存在许多不希望的伪影。一个可能的解释是计算出的位移不仅包括情感信息还包括其他因素如身份、姿态和语音内容这导致对后续生成的指导不准确。 3.2 隐式情感位移学习器根据上述观察我们基本上可以将情感模式表述为与面部相关的关键点和雅可比矩阵的补充位移。因此我们设计了一个隐式情感位移学习器用于从情感视频V {1, ..., ...}中提取情感信息然后将这些信息编码为位移(Δ′, Δ′)这些位移对应于来自A2FD模块的三个面部相关关键点和雅可比矩阵(′, ′)。数据处理。为了将情感与其他因素分离我们设计了一种特殊的数据增强策略。具体来说为了阻断语音内容信息我们使用填充有随机噪声的蒙版遮挡嘴唇和下巴的运动。此外为了消除姿势和像眨眼这样的自然运动的影响我们引入了一种时间扰动技术。对于每个时间步我们不是使用帧进行情感提取而是从当前时间附近扰动的时间步中选择一帧。而且为了进一步减轻面部结构信息的影响我们应用了透视变换和随机水平翻转[Zhou et al. 2021]。这种数据增强策略也在图2中得到了展示。这张图片展示了一个人脸图像处理的过程。从左到右我们可以看到一系列经过不同数据增强技术处理的人脸图像。首先我们看到一个未处理的人脸图像接着是使用“临时遮挡”Temporal Perturbation技术处理后的图像这个技术会改变面部特征的时序产生不同的表情效果。然后是使用“嘴巴闭合”Mouth Occlusion技术处理的图像这个技术将人脸的一部分遮盖起来。接下来是使用“视角变换”Perspective Transformation技术处理的图像这个技术会改变人脸的角度和大小创造出不同的视觉效果。最后我们看到的是使用“随机翻转”Random Flip技术处理的图像这个技术会随机地旋转人脸图像。这些技术用于增加训练数据集的多样性以提高深度学习模型的性能。学习情感位移。为了将情感模式融入我们的A2FD模块我们首先使用一个情感提取器从处理后的视频帧中提取情感特征f。为了生成与输入音频同步的情感动态我们将A2FD模块预测的关键点1:及其雅可比矩阵1:与情感特征f一起作为位移预测器的输入。位移预测器采用4层多层感知器MLP来预测位移称为Δ1:′和Δ1:′。注意我们执行了一个位置编码操作[Mildenhall et al. 2020]将关键点投影到高维空间从而使模型能够捕获更高频率的细节。最后我们通过将Δ1:′和Δ1:′线性添加到音频学习的表示1:′, 1:′上生成个情感音频学习的关键点1:和雅可比矩阵1:。训练目标。在训练过程中我们遵循第3.1节中所述的自监督训练策略。具体来说对于每个情感源视频V我们使用预训练的检测器来提取个关键点1:和雅可比矩阵1:作为真实值然后通过将等式1中的损失项重新表述为以下形式来最小化情感音频学习的关键点1:、雅可比矩阵1:与真实值之间的差异请注意在训练我们的隐式情感位移学习器时我们还使用等式2中的损失来对A2FD模块进行微调。 3.3 实施细节所有视频均通过居中裁剪并调整大小第一帧中人脸的位置进行对齐并将视频大小调整为256 × 256。视频以25帧每秒FPS的速率进行采样音频则预处理为16kHz。对于音频特征我们使用10ms的窗口大小计算28维的梅尔频率倒谱系数MFCC从而为每个帧生成28 × 12的特征。数据集。我们使用LRW [Chung and Zisserman 2016a] 数据集来训练我们的A2FD模块该数据集没有情感标注。LRW是一个从BBC新闻中收集的野外音视频数据集包括500个不同单词的1000个发音每个发音大约持续1秒。该数据集包含各种说话者和头部运动非常适合我们的训练目标。我们按照LRW的设置分割训练/测试语料库。我们使用情感数据集MEAD [Wang et al. 2020b] 来训练我们的隐式情感位移学习器。MEAD是一个高质量的情感对话脸部数据集其中包括不同演员以8种不同情感说话的录制视频。在这里我们选择34名演员进行训练6名演员进行测试。 4 结果以下我们将展示与其他最先进方法的比较结果、用户研究结果以及我们方法的设计评估。有关实验设置的更多详细信息请参阅补充材料。 4.1 评估我们在LRW和MEAD的测试集上与最先进的方法即ATVG [Chen et al. 2019b]、Speech-driven-animation [Vougioukas et al. 2018]、Wav2Lip [Prajwal et al. 2020]、MakeItTalk [Zhou et al. 2020]、PC-AVS [Zhou et al. 2021]进行了比较。评估指标。为了评估生成的口型与输入音频之间的同步性我们采用了口型地标距离M-LMD[Chen et al. 2019b]和SyncNet的置信度分数[Chung and Zisserman 2016b]。然后我们使用整个面部的地标距离F-LMD来衡量面部表情和姿势的准确性。为了评估生成视频的质量我们还引入了结构相似性指数SSIM[Wang et al. 2004]和峰值信噪比PSNR作为额外的评估指标。定量结果。实验在自动驾驶场景下进行其中我们使用每个测试视频的音频和检测到的姿态序列作为音频和姿态源。请注意对于没有情感的LRW数据集我们仅使用A2FD模块来生成结果其中我们随机选择LRW中每个视频的一帧作为源图像。而对于包含情感的MEAD数据集源图像则是从与测试视频中相同说话者的中性视频中随机选择的。此外我们没有直接将测试视频用作情感源而是采用了与[Zhou et al. 2021]中相同的公平设置来获取情感源。我们首先将所有生成的帧和真实帧调整到相同大小然后检测它们的面部地标进行比较。比较结果如表1所示。我们的方法在MEAD数据集的所有指标和LRW数据集的大多数指标上均取得了最高分数。值得注意的是Wav2Lip是使用SyncNet判别器进行训练的因此它在LRW数据集上自然获得了SyncNet的最高置信度分数。我们的结果与真实值相当这意味着我们实现了令人满意的音视频同步。至于同时考虑姿态和表情的F-LMD我们的方法在LRW数据集上与PC-AVS取得了相当的结果。原因是与MEAD相比LRW中的情感表达变化较少而在MEAD上我们取得了更好的结果。定性结果。在图4中我们还提供了我们的方法与最先进方法之间的定性比较。在这里我们随机选择MEAD中的一个情感视频作为我们方法的情感源。我们的方法能够生成具有自然头部运动和准确口型的生动情感动画而其他方法则无法生成明显的情感动态见红色箭头。具体来说只有Wav2Lip和PC-AVS能够生成与我们相媲美的口部运动。然而Wav2Lip仅关注语音音频与唇部运动之间的同步而没有考虑面部表情和头部姿态。尽管PC-AVS能够控制头部姿态但它在生成逼真动画时忽略了情感动态。SDA能够产生具有变化面部表情的结果但是生成的表情总是不稳定这会影响身份的一致性。 4.2 用户研究我们进行了一项用户研究以比较我们的方法与真实数据以及其他之前提到的最先进方法。我们招募了20名具有计算机科学背景的参与者其中14名为男性6名为女性。参与者的年龄范围在21至25岁之间。我们从MEAD测试集的每个情感类别中选择了5个视频作为情感源视频。对于每个情感源视频我们从LRW和MEAD的测试集中随机选择图像和音频源为每个方法生成40个视频5个视频×8种情感。我们还随机选择了40个具有相应情感的真实视频。因此每位参与者需要参与280次试验7种情况×40个视频并且视频以随机顺序播放以减少疲劳。我们首先向参与者展示了带有八个不同情感类别的真实标注视频以供参考。然后对于每个展示的视频片段我们设计了一个两阶段程序。在第一阶段参与者需要从三个方面即“唇部同步”、“面部表情的自然度”和“视频质量”对给定视频进行评估并为每个方面给出1最差到5最好的分数。此外由于MEAD中的源视频具有特定的情感标签我们在第二阶段进行了一项情感分类任务以评估我们的方法所生成的情感。具体来说我们展示了相同的静音视频并要求参与者从八个类别中选择视频的情感类型。第二阶段展示的视频是静音的因此参与者只能专注于面部表情。通过这种方式可以很好地评估生成的视频和情感。基本上每位参与者完成实验需要大约90分钟。结果如表2所示。除了真实数据外我们的工作在三个方面均获得了最高分数这表明了我们的方法的有效性。此外我们在情感分类中获得了58%的准确率而其他方法的准确率远低于我们因为它们无法生成逼真的情感动态。 4.3 消融研究我们在MEAD数据集上进行了消融研究以证明我们的隐式情感位移学习器第3.2节的有效性并验证其中三个重要组件即数据增强、条件音频驱动的关键点和雅可比矩阵输入以及学习三种面部相关表示的情感位移的贡献。具体来说我们总共设计了五个变体其中前两个变体旨在评估我们的运动模型设计 1A2FD基线我们的EAMM情感动画记忆模型未使用隐式情感位移学习器 2基于特征的在特征空间中表示情感动态。另外三个变体旨在验证隐式情感位移学习器中的组件 3无增强未使用数据增强 4无条件未使用条件音频驱动的关键点和雅可比矩阵输入 5所有点的位移学习所有关键点和其雅可比矩阵的情感位移。请注意基于特征的变体旨在探索情感模式是否可以作为特征而非位移方式来表示。具体来说我们首先使用两个独立的编码器分别提取音频特征f和情感特征f。然后我们引入了风格迁移工作中常用的操作AdaINHuang和Belongie2017年来将情感特征f中的情感风格转移到音频特征f上。最后我们使用一个解码器Siarohin等2019b年来预测最终的关键点和雅可比矩阵。除了第4.1节中提到的指标外我们还额外使用了一个现成的情感分类网络[Meng等人2019年]来评估生成情感的准确性。该分类网络在MEAD数据集上进行训练并在测试集上达到了90%的准确率从而确保了评估结果的可靠性。表3中的定量结果和图5中的可视化展示都表明隐式情感位移学习器及其三个组件是情感生成的有效设计。在这三个组件中数据增强策略对我们的模型尤为重要因为它有助于传递准确的情感动态同时不牺牲身份特征见红色箭头。此外我们观察到基于特征模型生成的人脸形状不稳定情感也不明显这表明在特征空间中无法很好地分离情感。 4.4 局限性尽管我们的方法取得了成功但我们也认识到了在探索过程中存在的一些局限性。首先由于我们的数据增强策略中包含了嘴部遮挡操作导致我们工作中生成的嘴部区域情感动态不明显。其次由于情感是个性化的因素从某个角色提取的情感模式在转移到另一个角色后有时会显得不自然。此外我们的方法忽略了音频与情感之间的相关性而是引入了情感源视频这可能会导致动画结果不一致。这些都将是我们未来工作的一部分。 5 结论在本文中我们提出了情感感知运动模型通过引入额外的情感源视频来生成一次性情感化说话人脸。我们从情感源视频中提取情感动态并将其作为可传递的运动模式应用于任意音频驱动的说话人脸。这使得我们能够合成更逼真的说话人脸在视频会议、数字化身等领域具有巨大的应用潜力。定性和定量实验表明与最先进的方法相比我们的方法可以生成更具表现力的动画效果。我们希望我们的工作能够激发该领域未来的研究。 6 伦理考量我们的方法专注于合成情感化说话人脸动画旨在开发数字娱乐和高级视频会议系统。然而该方法也可能在社交媒体上被恶意滥用从而对整个社会产生负面影响。为了缓解上述担忧在深度伪造Deepfake检测领域已经取得了显著进展。一些工作[Chai等人2020年Güera和Delp2018年Li等人2020年Rossler等人2019年Wang等人2020a年Yu等人2019年]专注于通过检测纹理伪影或不一致性来识别视觉深度伪造。近期研究[Arandjelovic和Zisserman2017年Korbar等人2018年Owens等人2016年Zhou和Lim2021年]还考虑了视频与音频之间的关系并利用这两种模态的同步性来辅助检测。然而缺乏大量真实且富有情感的人像数据限制了这些方法的性能和泛化能力。因此我们也致力于通过分享我们生成的情感化说话人脸结果来支持深度伪造检测社区这有助于改进检测算法以应对更复杂的场景。我们相信只要合理使用这项技术将促进机器学习研究和日常生活的积极发展。

查看全文

http://www.hkea.cn/news/14585249/