免费网站空间有什么用,网站上展示手机页面是怎么做的,wordpress使用什么数据库连接,招聘网站大全58同城1 GAN的应用#xff08;文本生成#xff09;
1.1 GAN为什么不适合文本任务#xff1f;
GAN在2014年被提出之后#xff0c;在图像生成领域取得了广泛的研究应用。然后在文本领域却一直没有很惊艳的效果。主要在于文本数据是离散数据#xff0c;而GAN在应用于离散数据时…1 GAN的应用文本生成
1.1 GAN为什么不适合文本任务
GAN在2014年被提出之后在图像生成领域取得了广泛的研究应用。然后在文本领域却一直没有很惊艳的效果。主要在于文本数据是离散数据而GAN在应用于离散数据时存在以下几个问题
GAN的生成器梯度来源于判别器对于正负样本的判别。然而对于文本生成问题RNN输出的是一个概率序列然后取argmax。这会导致生成器Loss不可导。还可以站在另一个角度理解由于是argmax所以参数更新一点点并不会改变argmax的结果这也使得GAN不适合离散数据。GAN只能评估整个序列的loss但是无法评估半句话或者是当前生成单词对后续结果好坏的影响。如果不加argmax那么由于生成器生成的都是浮点数值而ground truth都是one-hot encoding那么判别器只要判别生成的结果是不是0/1序列组成的就可以了。这容易导致训练崩溃。
1.2 seqGAN用于文本生成
seqGAN在GAN的框架下结合强化学习来做文本生成。 模型示意图如下 在文本生成任务seqGAN相比较于普通GAN区别在以下几点
生成器不取argmax。每生成一个单词则根据当前的词语序列进行蒙特卡洛采样生成完成的句子。然后将句子送入判别器计算reward。根据得到的reward进行策略梯度下降优化模型。
2 GAN在其他领域的应用
2.1 数据增广
GAN的良好生成特性近年来也开始被用于数据增广。以行人重识别为例有许多GAN用于数据增广的工作[1-4]。行人重识别问题一个难点在于不同摄像头下拍摄的人物环境角度差别非常大导致存在较大的Domain gap。因此可以考虑使用GAN来产生不同摄像头下的数据进行数据增广。以论文[1]为例本篇paper提出了一个cycleGAN用于数据增广的方法。具体模型结构如下 对于每一对摄像头都训练一个cycleGAN这样就可以实现将一个摄像头下的数据转换成另一个摄像头下的数据但是内容人物保持不变。 在CVPR19中[9]进一步提升了图像的生成质量进行了“淘宝换衣”式的高质量图像生成如下图提供了更高质量的行人训练数据。 2.2 图像超分辨与图像补全
图像超分辨与补全均可以作为图像翻译问题该类问题的处理办法也大都是训练一个端到端的网络输入是原始图片输出是超分辨率后的图片或者是补全后的图片。文献[5]利用GAN作为判别器使得超分辨率模型输出的图片更加清晰更符合人眼主管感受。日本早稻田大学研究人员[6]提出一种全局局部一致性的GAN实现图像补全使得修复后的图像不仅细节清晰且具有整体一致性。
2.3 语音领域
相比于图像领域遍地开花GAN在语音领域则应用相对少了很多。这里零碎的找一些GAN在语音领域进行应用的例子作为介绍。文献[7]提出了一种音频去噪的SEGAN缓解了传统方法支持噪声种类稀少泛化能力不强的问题。Donahue利用GAN进行语音增强提升了ASR系统的识别率。