建设部网站建造师管理号,上优化seo,简历怎么制作网站,做折线图网站Effective dual self-attentional residual networks for epileptic seizure prediction
摘要
癫痫发作预测作为慢性脑疾病中最具挑战性的数据分析任务之一#xff0c;引起了众多研究者的广泛关注。癫痫发作预测#xff0c;可以在许多方面大大提高患者的生活质量#xff0…Effective dual self-attentional residual networks for epileptic seizure prediction
摘要
癫痫发作预测作为慢性脑疾病中最具挑战性的数据分析任务之一引起了众多研究者的广泛关注。癫痫发作预测可以在许多方面大大提高患者的生活质量如预防意外事故和减少癫痫发作期间可能发生的伤害。这项工作旨在通过探索从多通道脑电图信号中获得的特征的时频相关性开发一种预测特定患者癫痫发作的通用方法。通过对脑电信号进行短时傅里叶变换(STFT)将原始脑电信号转换为表示时频特征的频谱图。本文首次提出了一种双自注意残差网络(RDANet)该网络将整合局部特征和全局特征的频谱注意模块与挖掘信道映射之间相互依赖关系的信道注意模块相结合从而获得更好的预测性能。我们提出的方法对来自CHB-MIT公共头皮脑电图数据集的13例患者的敏感性为89.33%特异性为93.02%AUC为91.26%准确性为92.07%。实验结果表明不同的脑电信号预测段长度是影响脑电信号预测性能的重要因素。我们提出的方法是有竞争力的并取得了良好的鲁棒性没有病人特定的工程。
在本文中我们通过开发基于深度学习的模型提出了一种患者特异性癫痫发作预测方法以提高癫痫发作预测的性能。该方法所采用的脑电图信号的时频特性对癫痫发作的预测非常重要。一些研究将卷积神经网络应用于癫痫发作的预测并证实了卷积神经网络是一种有效的方法脑电图分类[11][12]。然而由于脑电图信号的复杂性和多样性以及卷积神经网络结构简单许多研究都获得了较低的癫痫预测性能。在本研究中我们利用残差网络来提高癫痫发作的预测性能并首次提出了双自我注意残差网络(dual self-attention residual network, RDANet)来预测癫痫发作。该RDANet通过频谱注意模块和信道注意模块自适应地整合了脑电信号的局部特征和全局特征增强了多通道脑电信号之间的相关性。此外我们使用了省略一个交叉验证来评估预测结果以确保它们是真实情况的代表。总体而言与现有癫痫发作预测算法相比数值实验证明了该算法的有效性。
2材料与方法 数据集 波士顿儿童医院收集的CHB-MIT头皮脑电图数据集包含22名儿童受试者连续844小时的头皮脑电图(sEEG)数据并公开[25]和[26]。采用国际10-20系统的双极蒙太奇技术以256hz的采样率从22个电极采集脑电图信号。Litt et al.[27]证明复杂的癫痫性放电在癫痫发作前7小时是常见的而类似癫痫发作的活动在真正发作前2小时左右。与此同时在癫痫发作前的50分钟内积累的能量会增加。在本研究中我们将痫前状态定义为癫痫发作开始前30分钟的脑电图信号并将发作间期状态定义为癫痫发作结束后4小时至下一次发作开始前4小时之间的时间段。为了进行治疗干预有必要在发作前留出一个短时间窗口。从临床角度来看最好是有足够长的干预时间让有效的治疗干预或预防措施[12]。在本研究中将干预周期设置为5分钟并从训练数据中删除。此外考虑到癫痫发作可能发生得非常接近我们对预测主要危机感兴趣它距离下一次危机[29]大约不到30分钟。基于Truong et al.[12]我们只考虑每天发作少于10次的患者因为对于平均每2小时发作一次的患者来说执行这项任务并不是很关键。基于上述定义和限制表I显示我们从该数据集中选择了13例64次癫痫发作和268.6小时间歇期数据的患者。 数据预处理 为了解决数据不平衡的问题我们在训练阶段使用重叠采样来获得更多的预簇数据。如图3所示。具体来说我们定义发作前信号的长度为M发作间信号的长度为N计算两类数据的长度之比K(公式1)设置采样窗口S为5秒。为了获得相同数量的两类数据在训练阶段以S × K的移动步长收集癫痫发作前的数据以S的移动步长收集发作间期的数据。对EEG信号进行分割分别得到a和b的发作前和发作间期信号片段(见公式2和3)。 在脑电图数据分析中时频域特征是非常重要的通常采用二维图中表示三个参数的谱图进行研究。小波变换和短时傅里叶变换(STFT)是将脑电信号转换为[11]、[12]、[31]的常用方法。我们滑动5秒、15秒和30秒窗口利用STFT将原始EEG信号转换为以时间和频率为轴的二维矩阵(如图3所示)。CHB-MIT数据集中大部分EEG记录受到60hz电力线噪声的污染可以通过排除频率范围在57-63 Hz和117-123 Hz的部件来有效地去除。同时直流分量(0 Hz)也被排除在外。5秒脑电图信号谱图和去噪谱图如图4所示。 c 模型 该模型由残差网络(ResNet)[32]和双自注意机制[33]组成。以图6上部的频谱注意模块为例我们将频谱图作为网络的输入通过ResNet提取潜在的时频特征。然后通过以下三个步骤将特征输入到频谱注意模块中生成新的全局光谱特征。第一步是生成一个频谱注意矩阵来描述任何频谱图之间的空间关系。其次我们对注意矩阵和原始特征进行矩阵乘法。第三我们通过在最后一步的结果矩阵和原始特征之间执行元素和来执行最终的全局光谱特征。信道注意模块的过程与频谱注意模块的过程相似。最后我们将两个模块的特征合并并将其添加到原始特征中以更好地捕获EEG信号的特征。 1)残差网络:CNN[34]已广泛应用于计算机视觉、自然语言处理等领域。根据科学研究为了获得表达能力更好地拟合潜在映射关系加深网络层数或拓宽网络结构是有效的。随着神经网络层数的加深会出现梯度消失的问题随机梯度下降的优化变得更加困难。最近He et al.[35]提出了一种ResNet来解决训练非常深的卷积网络时的上述问题该卷积网络由几个残差块组成。如图5所示残差块通过快捷连接向网络添加了一个身份映射既不增加额外的参数也不增加计算量在一定程度上解决了模型退化问题。每个残差块由两个3 × 3卷积层、批归一化和ReLu组成。此外它有两条路径相加即残差路径F(x)和身份映射x。在本研究中我们使用了4个残差块它们相互连接。 2)双重自我注意机制:
注意机制起源于人类的视觉知觉。人类在感知物体时通常先扫描整体图像然后将注意力集中在特定的部分以获得更详细的信息同时抑制其他无用的信息。随着注意机制研究的深入谷歌机器翻译研究团队[36]提出的自注意机制因其能够学习到某一位置与其他位置之间的关系并捕捉语境依赖关系而受到广泛关注。Liu等[37]使用自注意生成对抗网络完成图像补全任务。Bello等[38]应用自注意机制提高图像分类精度。在癫痫发作预测研究中我们首先提出了一种双重自我注意机制来捕捉脑电信号的全局信息。接下来我们将详细说明这些过程。
a)频谱注意模块: 如图6所示给定一个局部特征X∈RC×H×W我们首先将其馈入卷积层分别生成两个新的特征图Y和Z其中Y和Z的维数都为RC×H×W。然后我们将它们重塑为RC×N其中N H×W。然后对Y和Z的转置进行矩阵相乘通过softmax层[33]得到维数为的权值矩阵S: S代表了第i个位置对第j个位置的影响两个位置的特征表示越相似它们之间的相关性就越大。同时将X馈送给卷积层并将其重塑为RC×N将生成一个新的特征T∈RC×H×W表示。然后我们执行T和S的矩阵乘法然后将结果重塑为RC×H×W。最后我们将其乘以一个缩放参数α并与X进行逐元素求和运算得到最终结果E∈RC×H×W[33](如公式5所示) 其中α初始化为0逐渐分配更多的权重[39]。最终的特征E是频谱的加权特征与原始特征的和具有全面的上下文视角并可选地基于频谱注意图收集全局信息。 b)通道注意模块:
不同的通道特征代表不同的EEG信号语义。信道注意机制用于挖掘信道映射之间的相互依赖关系使不同的语义表示之间相互关联。首先我们将X重塑为RC×N然后在X与X的转置之间应用矩阵乘法。最后我们应用softmax层得到通道注意图P∈RC×C[33](如式6所示)其中Pji度量第i个通道对第j个通道的影响。 接下来我们对P和X执行矩阵乘法然后将结果重塑为RC×H×W。我们将结果乘以缩放参数β并对X执行元素和运算以获得最终输出E∈RC×H×W[33](如公式7所示) 其中β初始化为0。为了充分利用信道和频谱上下文信息我们对这两个注意模块进行了逐元素和的整合。与原始特征融合后通过平均池化得到最终的特征图。 3)训练:
为了得到与真实条件相似的结果于不同的情况我们采用一种留一交叉验证的方法对每个病人[40]。也就是说如果一个病人有n次癫痫发作和T小时的间歇录音整个间歇录音被分为n个部分每个部分大约有t /n小时数与任何预诊记录随机分组。此循环进行n次每次保留一个preictal -interictal对用于测试而其余n - 1对用于训练阶段。一般情况下有些研究通常随机抽取80%的数据作为训练集剩余的20%作为验证集监测过拟合[13]。但是该方法适用于时间上独立的数据如图像分类。EEG数据是有时间依赖性的所以我们应该选择与训练期不同时间段的样本来监测模型是否已经开始过拟合。在本研究中我们从训练集中的产前和间歇期录音中选择25%的后期样本作为监测的验证集其余75%的样本作为训练集[12]。虽然训练阶段的迭代次数增加了训练的准确性但仍然存在过拟合的问题我们使用了早期停止来解决这个问题。具体来说当检测到验证集上的损失已经开始增加时我们立即停止训练并将网络参数存储在最低验证损失处。 RDANet网络参数如表二所示。模型输入为1×22×9×114, 22为脑电信号通道数9×114为谱图维数。每个卷积层后面都有一个批归一化、一个dropout和一个ReLu激活函数。我们首先将上述特征图输入卷积层然后进行重构得到一个64 × 7 × 28的矩阵。随后我们使用4个ResBlock层来提取EEG信号的深层特征。一个融合全局特征的双自注意层随后是一个具有sigmoid激活函数的全连接层。我们采用交叉熵损失函数作为代价函数。批大小为32。
辍学率设置为0.5学习率设置为0.0005。我们的新模型是用Keras 2.2.2的tensorflow 1.4.0后端完成的。
III. RESULTS
在这项研究中我们使用四个参数来评估所提出的模型的性能敏感性、特异性、准确性和AUCAUC是一个常用的指标通过计算接受者操作特征曲线ROC下的面积来评估分类任务的性能。
以预测5s段为目的CNN、ResNet和RDANet模型在CHB-MIT数据集的13个案例上的评估结果分别显示在表III、IV和V。实验执行了两次报告了带有标准差的平均结果。总的来说数值实验表明模型的性能因病人而异。如表三所示Pt2、Pt9和Pt14的结果低于其他病人。这是合理的因为Pt 2只包括3次发作而且可用于训练的发作前记录很少这使得简单的CNN模型难以提取发作前数据的特征。Pt 9有46.7小时的发作间期记录但只有4次发作这导致了极不平衡的数据和糟糕的分类性能。同样Pt14只有少量的间歇期记录这使得CNN模型难以达到高分类性能。 表四显示了ResNet模型对同一数据集中13名患者的评估结果。与表三相比Pt9和Pt14的预测结果有明显改善。Pt2的敏感性稍有下降但特异性同时提高导致AUC和准确率相应提高。看来ResNet模型通过快速连接和更深的网络结构可以缓解数据不平衡的问题是合理的。与CNN模型相比也可以证明ResNet模型对其他患者的预测性能明显提高除了Pt2。 表五显示了RDANet模型对CHB-MIT数据集中13个病人的评估结果。与CNN和ResNet模型相比RDANet模型在许多患者身上的评价结果都有所提高除了Pt9和Pt14。例如Pt1、Pt13、Pt20和Pt23的灵敏度和AUC都接近100%。这表明双自注意模块可以增强脑电数据的特征表示从而提高预测性能。 然而pt9的期前和期间数据显示出非常大的差距。虽然重新取样解决了数据不平衡的问题但很容易对以前的样本进行过度拟合导致特异性高于敏感性。pt14只有少量的间歇期记录这使得RDANet模型难以达到高分类性能。
AUC是评价分类任务的综合参数因此我们比较了三种模型测试不同患者的发作预测性能的ROC。在CHB-MIT数据集的13个病人的数据上评估CNN、ResNet和RDANet模型得到的ROC曲线见图7。可以看出对于Pt1和Pt23三个模型的ROC曲线几乎重叠AUC值也几乎相同。 对于Pt1和Pt23使用简单的CNN模型可以获得更好的结果AUC接近100%。这表明当原始模型具有良好的分类性能时我们提出的模型并没有表现出很大的改进因为改进的余地很小。从Pt9和Pt18的ROC曲线来看可以得出ResNet模型的AUC值大于RDANet模型的AUC值说明ResNet对这两个病人的分类性能比RDANet好。
根据Pt 14的ROC曲线CNN模型的AUC值明显高于其他两个模型。原因是14号病人只有5个小时的发作间期记录如果使用ResNet和RDANet模型预测癫痫发作很容易造成过度拟合降低性能。总的来说虽然使用RDANet模型在一些患者身上取得的AUC值稍低但我们提出的模型提高了整体预测性能。从这些数字可以清楚地看到真阳性的比例高于假阳性的比例。很明显对于大多数病人来说RDANet模型的发作预测性能表现最好。这是因为我们提出的RDANet通过双重自我注意机制捕捉全局特征并挖掘不同通道的脑电信号的相关性促进了发作前时期和发作间期的分类性能。
为了检验我们的模型CNN、ResNet和RDANet模型的整体癫痫发作预测性能可以用上述结果的加权平均值来表示见图8 。一般来说RDANet模型的性能评价要高于CNN和ResNet模型。CNN模型由一个四层卷积神经网络和两个全连接层组成用于对EEG信号进行分类。ResNet模型是一个只有四层ResBlock和一个平均池层的网络。与CNN模型相比ResNet模型的预测结果要好于CNN。这是因为ResNet模型从建立更深的网络和快速连接方面具有更强的表达能力。通过比较ResNet和RDANet模型的实验结果可以看出在引入双自注意模块[28]后RDANet模型的灵敏度增加了0.17%特异性增加了0.09%AUC值增加了0.68%准确率增加了0.37%。总的来说RDANet模型在预测癫痫发作方面比其他两个模型有更多优势。
很少有研究考察EEG信号段长度对预测癫痫发作的影响。因此我们探讨了脑电信号预测段的适当长度以达到最佳的预测性能。在这项研究中我们对所有模型进行了重复训练不同的发作预测长度为15秒和30秒。 图9是CNN、ResNet和RDANet模型在5秒、15秒和30秒的EEG信号预测段上的评估对比图。实验结果表明虽然一些模型的灵敏度提高了但特异性却相应降低了。通过比较AUC和准确率等综合指标可以看出当预测长度增加时三个模型的预测性能普遍下降。
IV . 讨论
根据脑电图信号的时间和空间分辨率人们开发了大量的统计技术来分析脑电图信号[41]。许多信号转换技术已被用于解释大脑信号和检测异常情况如傅里叶变换、短时傅里叶变换和基于小波的变换[31], [42]。连续小波变换[11], [43]和经验小波变换[18]已被应用于癫痫发作的预测领域。基于傅里叶-贝塞尔级数扩展FBSE[44]-[46]的经验小波变换EWT[47]FBSE-EWT可以有效地解决非平稳信号的问题并被引入分析EEG信号它使用由FBSE设计的经验小波进行信号[48], [49]。因此我们在RDANet中比较了四种信号转换方法。
我们首先使用CWT、EWT和FBSE-EWT分别转换EEG信号见图10 然后用RDANet网络自动提取特征并进行分类。该模型的输入是1×22×9×1280其中22代表EEG信号通道的数量和9×1280代表转换后的尺寸。为了提高计算效率加快训练速度我们对上述输入结果进行随机降样得到1×22×9×160的新输入。实验结果如表六所示。 与STFTRDANet相比CWTRDANet模型的灵敏度达到了91.03%但其他三项指标相对较低尤其是特异性。我们可以看到STFT和CWT分别在发作间期和发作前期信号上表现良好。EWTRDANetmodel的四项评价结果都很好。可能是时频域的信号特征更有利于区分脑电信号的不同状态。CWTrspRDANet和EWTrspRDANet表示下采样后的模型其预测结果很差。原因可能是脑电信号中的一些重要信号由于下采样而丢失。 表七提供了我们的方法和其他方法的发作预测性能的比较。所有的方法都是在CHB-MIT头皮EEG数据集上评估的这是一个由长期记录组成的公共数据集。很难决定哪种方法更好因为每种方法都是根据不同的病人和不同的时间定义用有限的数据进行测试。因此所提出的方法的通用性而不需要针对病人的特征工程是一个重要的影响癫痫发作预测性能的指标。在一个类似的方法中Khan等人[11]提出了一种使用原始EEG信号的小波变换作为卷积神经网络的输入的方法并在15名患者身上评估了他们的方法。Truong等人[12]提出了一种结合短时傅里叶变换和卷积神经网络的方法并在同一数据集的13名病人身上测试了他们的方法。很明显我们提出的方法优于他们的方法。
为了揭示所提出的模型在与真实情况相似的条件下的发作预测性能可以使用留一交叉验证法进行训练。Detti等人[53]提出了一种基于寻找EEG中同步模式的方法使他们能够实时区分发作前和发作间状态并比较了三种分类器。SVM、梯度提升决策树算法和基于阈值的ThAlgo方法。这些方法使用五倍交叉验证对CHB-MIT头皮EEG数据集进行了评估。由于他们没有使用留一交叉验证他们使用ThAlgo算法正确预测了所有的癫痫发作而LightGBM的预测率为98%SVM的预测率为86.7%。Tsiouris等人[50]提出了一种将脑电信号的小波变换系数和功率谱密度与LSTM相结合来预测癫痫发作的方法并获得了99.84%的高灵敏度和0.02/h的假阳性率。他们的方法也没有使用留一交叉验证。
Truong等人[51]使用生成对抗网络GAN来预测癫痫发作获得了77.68%的AUC。由于他们的方法采用了半监督训练训练数据量不足导致监督训练的预测性能出现差距。Ozcan等人[13]提出了一个多帧3DCNN模型来预测癫痫发作。在使用相同数量的病人和相同的发作期的条件下我们提出的RDANet获得了88.63%的敏感性FPR为0.122/hAUC值为89.91%准确率为89.78%。我们的方法的灵敏度和AUC都高于Ozcan的方法。Hoda等人[52]提出了一种实时低计算量的癫痫发作预测方法。他们提取了早期发病信号的第三级特征并将第三级信息与预定义的阈值水平进行比较以确定提取的特征是否与癫痫有关。除灵敏度外其他两项指标相对较低。 Usman等人[54]提出了一个简单的发作预测系统使用卷积神经网络自动提取特征并进行SVM分类。他们的方法在CHB-MIT数据集上进行了评估结果是平均灵敏度和特异性分别为92.7%和90.8%。
然而他们没有描述数据是如何划分的使用了什么验证方法以及实验的细节并不十分清楚。
V. 结论
在这项工作中我们提出了一个用于预测癫痫发作的双自注意残余网络RDANet它可以通过自注意机制将全局特征整合为局部特征。具体来说频谱注意模块和通道注意模块分别捕捉到全局对频谱的依赖性和对通道的相互依赖性从而提高了表达局部特征的能力。总的来说我们提出的方法与其他最新的方法相比是有竞争力的而且由于没有针对病人的工程所以是可以推广的。然而CHB-MIT数据集主要由儿科病人组成我们的方法将在不同的临床条件下对更多不同年龄组的病人进行综合测试以确认整体性能。