网站logo设计在线生成,小红书关键词检测,怎么做招生网站,永川区做网站论文地址#xff1a;https://arxiv.org/abs/2405.14768https://arxiv.org/abs/2405.14768
1. 概述 随着世界知识的不断变化#xff0c;大语言模型#xff08;LLMs#xff09;需要及时更新#xff0c;纠正其生成的虚假信息或错误响应。这种持续的知识更新被称为终身模型编…论文地址https://arxiv.org/abs/2405.14768https://arxiv.org/abs/2405.14768
1. 概述 随着世界知识的不断变化大语言模型LLMs需要及时更新纠正其生成的虚假信息或错误响应。这种持续的知识更新被称为终身模型编辑。当前的模型编辑方法主要通过两种方式存储新知识长期记忆模型参数和工作记忆神经网络激活/表示的非参数化知识。然而这两种方式在终身编辑情境下存在局限性无法同时实现可靠性、泛化性和局部性。为了解决这一问题本文提出了一种新的模型编辑方法——WISE。该方法采用双参数内存机制在预训练知识与更新知识之间实现了无缝衔接通过一种知识分片机制来避免知识冲突。 大语言模型在训练时获取的知识是静态的但世界知识是不断变化的。因此部署后的LLMs可能生成包含幻觉、偏见或过时的响应。同时由于重新训练或微调模型代价高昂无法满足快速增长的知识需求。因此终身模型编辑成为一种解决方案通过不断地更新和注入知识来保持模型的准确性。然而模型编辑面临一个关键问题更新后的知识应存储在何处。
长期记忆编辑直接修改模型参数存储新知识。这种方式虽然可以保持对新知识的记忆但会导致与原有预训练知识发生冲突影响局部性和可靠性。工作记忆编辑利用非参数化的检索机制存储新知识不修改模型参数。这种方式虽然可以避免与原有知识的冲突提升局部性但难以泛化无法应对多样化的查询。 在此背景下如何在终身模型编辑中平衡可靠性、泛化性和局部性成为模型编辑的一个核心难题。 为了解决上述问题本文提出了WISE双参数内存机制的终身模型编辑方法通过结合长期记忆和工作记忆的优点打破模型编辑中的“不可能三角”。 双参数内存机制 主内存存储预训练时的原始知识保持长期记忆的泛化能力。侧内存专门用于存储和更新新知识保证可靠性和局部性。 路由机制为了确保编辑后的模型在不同情境下调用合适的知识WISE设计了一个路由器。该路由器根据输入查询的不同自动选择是使用主内存中的预训练知识还是侧内存中的更新知识。这样就能避免对无关知识的干扰。 知识分片机制为了应对不断增加的编辑请求WISE引入了知识分片机制。每一组编辑知识会被存储在不同的参数子空间中这些子空间是相互正交的确保了不同编辑之间不会产生冲突。编辑完成后这些分片会被合并为一个共享的侧内存从而实现无冲突的终身编辑。 WISE的设计主要解决了现有模型编辑方法在终身学习中的不足。具体体现在以下几点
可靠性模型可以记住当前和之前的编辑内容不会在多次编辑后遗忘新知识。局部性编辑只会影响到相关的知识不会破坏与该编辑无关的预训练知识。泛化性模型不仅能记住具体的查询-目标对还能理解编辑内容能够应对不同形式的相同知识查询。 在实验中WISE显著优于传统的基于长期记忆或工作记忆的模型编辑方法。其在多个LLM架构如GPT、LLaMA、Mistral等下的实验表明WISE在问答任务、幻觉检测和分布外任务等终身模型编辑场景中均在可靠性、泛化性和局部性三个指标上取得了更好的结果。
2. 方法
2.1 终身模型编辑 终身模型编辑问题其核心目标是通过连续的编辑使得大语言模型LLMs的输出能够符合人类的期望同时保持模型之前的知识和能力。 2.2 重新思考终身模型编辑的内存设计
表1列出了当前主要模型编辑方法在内存类型和终身编辑能力上的对比。对比的关键维度包括
长期记忆编辑修改模型参数工作记忆编辑检索时使用神经网络激活/表示的非参数化知识参数化知识与检索知识是否支持终身编辑可靠性、泛化性和局部性
表1中的方法对比总结如下
FT-EWC、ROME、MEMIT、MEND这些方法通过修改 LLM 模型参数来编辑长期记忆但无法支持连续编辑或者会对无关知识产生负面影响导致局部性较差。GRACE基于工作记忆通过检索知识避免了对无关知识的冲突但由于检索机制只记忆查询不理解其含义泛化能力较差。 WISE 方法则通过结合长期记忆和工作记忆的优势提供了一种更有效的终身模型编辑方案。它利用一个双参数内存机制同时保持 LLM 的长期记忆泛化能力和工作记忆可靠性和局部性使其在终身模型编辑中表现出色。 2.3 WISE: 侧内存与知识分片、合并及路由
WISE 的侧内存包含两个关键组成部分 侧内存设计 侧内存侧内存是 LLM 某一前馈神经网络FFN层的副本用于存储编辑流。通过这种设计避免直接修改主内存而可能带来的遗忘和副作用。路由机制为了决定使用主内存还是侧内存设计了路由激活组件来识别编辑的范围。在推理过程中该组件决定是使用主内存还是侧内存来完成推理。 知识分片与合并 知识在随机子空间中的分片为了避免遗忘将侧内存分为多个随机子空间保证知识编辑的密度和分布性。知识合并利用模型合并技术将不同的侧内存片段合并为一个共享的侧内存避免知识丢失。
2.3.1 侧内存设计 (Side Memory Design)
1侧内存设计的基本原理 在Transformer中每层包含一个多头自注意力机制MHA和一个前馈神经网络FFN而FFN占据了模型中大量的参数。为避免直接修改主内存模型预训练时学到的知识WISE引入了侧内存用来存储编辑过的知识。 2主内存与侧内存之间的路由 (Routing between Side Memories and Main Memory) 3基于边界的损失函数 (Margin-based Loss Function) 2.3.2 知识分片与合并 (Knowledge Sharding and Merging)
1知识密度问题 (Knowledge Density)
为了在终身模型编辑中有效存储更新的知识作者引入了知识密度的概念它类似于知识容量用于描述在模型的参数中存储了多少知识。在这个背景下存在以下两难问题
知识密度过低如果编辑次数较少或对整个内存进行微调知识密度低可能导致过拟合知识密度过高如果编辑过于频繁知识密度过高导致已编辑的知识发生冲突可能引发灾难性遗忘。
为解决此问题作者提出了一种知识分片和合并机制将侧内存编辑划分为多个子片段存储在不同的参数子空间中随后通过合并这些子空间形成一个完整的侧内存。这样设计的好处在于避免了知识冲突同时实现高效存储。
2随机子空间中的知识 (Knowledge in Random Memory Subspaces) 3知识合并 (Knowledge Merging) 在完成多次编辑后多个子空间中的知识需要合并为一个共享的侧内存。由于不同的子空间通过随机掩码生成这些子空间可能存在重叠部分和不相交部分。作者提出了如下定理来描述这些子空间重叠的情况 3知识合并技术Ties-Merge
Ties-Merge 的合并过程分为三步
修剪修剪每个任务向量中的冗余参数符号选择为每个参数选择最合适的符号不相交合并计算不相交子空间的参数均值并将结果合并到一个统一的侧内存中。 通过 Ties-Merge多个子空间中的知识能够有效合并减少了子空间合并时的冲突。
4路由与检索多个侧内存 (Routing and Retrieving among Several Side Memories) 由于单个侧内存的知识容量有限WISE 设计了一个多侧内存系统能够产生多个侧内存并在推理过程中进行检索。检索过程通过激活评分路由机制activation score routing来实现系统会根据不同的激活指示器分数选择最合适的内存进行推理。该设计被称为WISE-Retrieve允许模型应对更复杂的终身编辑场景。
3.实验
3.1 实验设置和评估指标
1数据集与模型
选择了几种流行的自回归大型语言模型LLMs进行实验包括 LLaMA-2-7BMistral-7BGPT-J-6B
论文使用了三个不同的数据集
ZsRE零样本关系抽取用于问答任务SelfCheckGPT用于修正语言模型生成的幻觉现象Temporal用于评估编辑模型在分布外数据上的泛化能力 表格3中给出了这些数据集的统计信息以及编辑数据和评估时使用的无关数据。 2基线方法
实验中比较了多种基线方法和WISE包括
FT-L直接微调使用了KL散度损失。FT-EWC基于弹性权重合并EWC的连续学习微调方法。GPT风格编辑器如ROME和MEMIT用于批量编辑模型。MEND基于超网络的编辑器。DEFER 和 GRACE基于检索的记忆编辑方法。
3评估指标
每个编辑示例包含三个主要测试指标
Reliability可靠性模型编辑的成功率。Generalization泛化能力编辑后的模型在其他类似查询上的表现。Locality局部性编辑后的模型应保持无关数据的输出不变。 3.2 实验结果
1WISE的竞争性表现
WISE 在实验中展示了相对于基线模型的卓越性能特别是在以下几个方面
WISE 超越了现有方法尤其是在长编辑序列任务中直接编辑长期记忆如 ROME 和 MEMIT 等会导致与预训练知识的冲突导致局部性差使用检索工作记忆的方法如 GRACE 和 DEFER 等在泛化能力上表现不佳难以适应多样化查询。 在 问答任务QA setting 中编辑次数 T1000 时WISE 在 LLaMA 和 Mistral 模型上分别获得了 0.83 和 0.79 的平均分数相较于最接近的竞争对手提高了 18% 和 11%。这说明了 WISE 在处理长序列编辑时具有良好的稳定性和有效的管理能力。 相比之下尽管 MEND 和 ROME 在编辑初期表现良好但随着编辑序列的扩展它们的表现明显下降尤其在局部性方面。直接编辑长期记忆的方式如 MEMIT、FT-EWC 和 MEND会显著破坏模型的知识结构且在 T100 或 1000 时表现出局部性的大幅下降。 2分布外泛化评估Out-of-Distribution Evaluation 理想的模型编辑方法应能够在复杂分布转换distributional shift中从公式化编辑例子泛化到自然文本。基于此使用 Temporal 数据集 测试了分布外的泛化能力。WISE 在该数据集上取得了最佳表现在 OOD Gen.泛化能力 和整体性能上表现出色尤其是表5所展示的结果。
GRACE 在处理长文本时表现不佳主要因为它的有限参数训练能力。WISE 通过在有限记忆中进行检索路由避免了 GRACE 和 MEMIT 在处理分布外泛化时所面临的问题尤其是在应对单个输入词元token表示时遇到的问题。 这段内容的主要总结是 WISE 在不同任务和编辑场景下相对于其他基线方法具有更好的鲁棒性、泛化能力和局部性表现特别是在长编辑序列和分布外任务中的优异表现。 3.3 进一步分析Further Analysis
1WISE的路由激活可视化Visualization of WISE’s Routing Activation 为了展示记忆路由的效果实验记录了1000个问答任务QA和600个幻觉检测任务中的查询激活值。结果表明几乎所有无关查询的激活值都较低而WISE可以精确地将编辑查询和未见过的同义词路由到侧记忆中。这确保了编辑的局部性并防止了在长期编辑中模型偏离预训练分布。 2WISE侧记忆的局部化分析Localization Analysis of WISE’s Side Memory 为了验证在Transformer模型中中到晚层编辑的优势实验选择了解码器的早期、中期和晚期层进行对比。结果表明早期和最终层的编辑效果不佳而中到晚层的编辑效果显著。例如选择第26层进行编辑可以保持80%的成功率和泛化率同时保持100%的局部性。这表明中到晚层非常适合作为侧记忆的编辑层。
3对ρ和k的分析Analysis of ρ and k for WISE 通过对WISE的重要超参数掩码比例ρ和子空间数量k的分析结果表明当k⋅ρ0.41 时子空间设计的知识密度较高有助于更好的泛化。最佳的子空间重叠概率是0.03这在合并时作为锚点同时避免了冲突。实验表明约20%的FFN参数可以存储至少500个编辑示例。
4扩展到3000次编辑Scale Up to 3K of Edits 实验将连续编辑次数扩展到3000次比较了WISE的多次合并方法WISE-Merge和基于路由和检索的WISE-Retrieve方法。实验表明WISE在应对大规模编辑时保持了高可扩展性并且WISE-Retrieve在3000次编辑中表现出最佳的性能。 5路由器设计的贡献Contribution of Router Designs in WISE 实验对比了没有路由策略的情况下所有输入均通过主记忆或侧记忆。通过实验验证WISE的路由器设计在识别编辑范围和最小化副作用方面具有显著效果。表7显示了不同编辑次数下路由器对性能的影响。 6WISE的推理时间分析Inference Time Analysis of WISE 推理时间分析表明随着编辑次数的增加WISE-Merge保持了稳定的推理时间延迟约3%而WISE-Retrieve由于引入了检索机制推理时间有所增加但总体仍在可接受范围内约增加了7%的时间成本。 存在的潜在问题
1副记忆检索的可扩展性作者承认在处理非常长的编辑流时副记忆的检索还有改进的空间。随着编辑数量的增加特别是在WISE-Retrieve模式下这可能会导致效率低下。
2推理时间的增加随着编辑次数的增加特别是在WISE-Retrieve模式中推理时间会变长。这对于实时应用需要低延迟响应来说是一个问题。
3合并过程中潜在的知识冲突虽然WISE采用了Ties-Merge技术来合并副记忆并减少冲突但在存在多个重叠编辑的情况下仍可能会出现知识冲突的场景