asp网站后台管理系统下载,工具型网站有哪些,android下载安装官方免费下载,网站搭建流程图End-to-end Synthetic Speech Detection Based on Attention Mechanism 摘要#xff1a; 五种轻量级注意力模块改为适用于语音序列的 通道注意力机制和 一维空间注意力机制 ASVspoof2019测试集的 等错误率和 最小串联检测代价函数都有所降低 池化层之前嵌入CBAM、ECA的模型测试… End-to-end Synthetic Speech Detection Based on Attention Mechanism 摘要 ·五种轻量级注意力模块改为适用于语音序列的 通道注意力机制和 一维空间注意力机制 ·ASVspoof2019测试集的 等错误率和 最小串联检测代价函数都有所降低 ·池化层之前嵌入CBAM、ECA的模型测试集EER最低且具有较强的泛化性且统计性能较基线模型有显著提升 结论 ·端到端合成语音检测系统 Inc-TSSDNet网络上引用 通道注意力机制和一维空间注意力机制。在 Inc-TSSDNet的合适位置池化层前或后嵌入注意力模块可以提升检测系统的性能 ·ASVspoof2019测试集下的EER为3.28%较基线模型降低了18.8%且模型参数量增加较少该模型还具有优秀的跨库性能其最好结果在ASVspoof2015的验证集和测试集下的EER较基线模型分别降低了67.3%和36.8% ·在池化层之前嵌入ECA模块的IncTSSDNet模型最好结果在ASVspoof2019测试集下的mint-DCF为0.0861较基线模型降低了11.8% 背景 ·语音伪造技术——语音合成TexttoSpeechTTS、语音转换VoiceConversionVC、语音模仿Impersonation、重放攻击ReplayAttackRA和对抗攻击AdversarialAttack ·随着深 度伪造技术的迅猛发展合成语音的自然度越来越高 ·合成语音检测系统一般由 前端特征提取器和后端二值分类器组成 · Xiao 等人研 究 了 高 维 幅 频 特 征 的 表 现 使 用 对 数 幅 度 谱Log Magnitude SpectrumLMS与 残 差 对 数 幅 度 谱Re⁃ sidual Log Magnitude SpectrumRLMS构 建 的 检 测 系 统 得 到 了 理 想 的 效 果XIAO XiongTIAN XiaohaiDU Set al. Spoofing speech detection using high dimensional magnitude and phase fea⁃ turesThe NTU approach for ASVspoof 2015 challenge C//Interspeech 2015. ISCAISCA20152052-2056. ·相 位 特 征 例 如 群 延 迟 Group DelayGD、修 正 的 群 延 迟Modified Group DelayMGD、相对相移Relative Phase ShiftRPS、 基带相位差Baseband Phase DifferenceBPD ·倒谱系数特征如线性频率倒谱系 数Linear Frequency Cepstral CoefficientsLFCC、梅 尔 频 率 倒 谱 系 数Mel-Frequency Cepstral Coeffi⁃ cientsMFCC、线 性 预 测 倒 谱 系 数Linear Predic⁃ tion Cepstral CoefficientsLPCC等 ·基于常数 Q 变换的倒谱特征 Constant-Q Cepstral CoefficientsCQCC常 被 用 作 竞赛中的基线特征 ·基于深度神经网络模型的分类器 ·注意力机制在计算机视觉越来越受到关注然后调整 适用于语音序列的通道注意力和一维空间注意力 主要内容 · 基于注意力机制的端到端合成语音检测网络 Inc-TSSDNet展开详细介绍了注意力机制及其应用、五种常见轻量化注意力模块的原理和实现以及改进后的 Inc-TSSDNet 网络结构设计。 1. 注意力机制概述 核心思想模拟人类对重要信息的关注方式为模型提供选择性地聚焦于输入特征中关键部分的能力。 分类 软注意力对输入不同部分赋予权重适合神经网络的可微化需求。 强注意力硬性选择输入的某些部分。 作用域 通道域强调特定特征通道的重要性。 空间域关注特定时间或空间位置。 混合域同时结合通道和空间信息。 2. 适用于一维语音序列的轻量级注意力模块 文中调整现有注意力模块适配于一维语音数据改进端到端语音检测性能 2.1 SE模块通道注意力机制 原理 通过全局平均池化提取每个通道的全局特征并用瓶颈结构建模通道间相关性。 特点 通过降维减少复杂度权重控制每个通道对最终输出的贡献。
2.2 CBAM模块通道空间注意力 通道注意力 结合全局平均池化和最大池化计算通道权重。 空间注意力 对每个时间点的特征分配权重。
2.3 scSE模块通道和空间注意力并行 通道注意力 与SE模块类似。 空间注意力 通过一维卷积生成权重矩阵强调序列位置的重要性。 创新点 通道与空间注意力加权结果相加综合考量两者作用。
2.4 ECA模块轻量级通道注意力 特点 利用一维卷积实现跨通道信息交互避免降维性能和效率兼顾。 自适应卷积核大小 根据通道数动态确定提升适应性。
2.5 SA模块结合分组和通道混洗的注意力 特点 通过通道分组和混洗结合通道与空间注意力结构轻量适合高效计算。 创新点 通过ShuffleNet的通道混洗操作实现跨组信息交互。 3. 改进的 Inc-TSSDNet 网络
3.1 网络结构 基于Inception模块结合扩张卷积提升感受野控制复杂度。 层级设计 第一层1×7卷积层。 中间层堆叠M个改进的Inception模块每层后跟最大池化层。 最后层全局池化层三层全连接层。
3.2 注意力模块嵌入 在最大池化层前或后引入五种注意力模块SE、CBAM、scSE、ECA、SA优化特征提取。 实验目的验证不同注意力模块的检测性能与模型复杂度的平衡。 4. 优点与意义 针对性优化模块设计考虑了一维语音序列的特点使注意力机制适应语音检测任务。 性能提升通过注意力机制增强特征表示能力提高模型检测准确性。 轻量化设计多个模块采用简化策略降低模型复杂度便于实际应用。 在 Inc-TSSDNet 的合适位 置嵌入注意力模块可以提升检测系统的性能 在池化 层之前嵌入 CBAM 的 Inc-TSSDNet 模型最好结果在 ASVspoof2019 测试集下的 EER 为 3. 28%较基线模型 降低了 18. 8%且模型参数量增加较少该模型还具 有优秀的跨库性能其最好结果在ASVspoof2015 的验 证 集 和 测 试 集 下 的 EER 较 基 线 模 型 分 别 降 低 了 67. 3% 和 36. 8% 在池化层之前嵌入ECA 模块的IncTSSDNet 模型最好结果在 ASVspoof2019 测试集下的 min t-DCF 为 0.0861较基线模型降低了 11. 8% 贡献点 调整并使用了五种注意力模块中的算法