当前位置：首页 > news >正文

邯郸有设计网站的吗用什么网站可以做电子书

news 2026/4/18 9:37:27

邯郸有设计网站的吗,用什么网站可以做电子书,做网站网络,wordpress wp content大语言模型#xff08;LLMs#xff09;在各种推理任务上表现优异#xff0c;但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时#xff0c;LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识#xff0c;而忽略了那些带有错…大语言模型LLMs在各种推理任务上表现优异但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识而忽略了那些带有错误答案的合成数据。在 AAAI 2024 上小红书搜索算法团队提出了一个创新框架在蒸馏大模型推理能力的过程中充分利用负样本知识。负样本即那些在推理过程中未能得出正确答案的数据虽常被视为无用实则蕴含着宝贵的信息。论文提出并验证了负样本在大模型蒸馏过程中的价值构建一个模型专业化框架除了使用正样本外还充分利用负样本来提炼 LLM 的知识。该框架包括三个序列化步骤包括负向协助训练NAT、负向校准增强NCE和动态自洽性ASC涵盖从训练到推理的全阶段过程。通过一系列广泛的实验我们展示了负向数据在 LLM 知识蒸馏中的关键作用。如今在思维链CoT提示的帮助下大语言模型LLMs展现出强大的推理能力。然而思维链已被证明是千亿级参数模型才具有的涌现能力。这些模型的繁重计算需求和高推理成本阻碍了它们在资源受限场景中的应用。因此我们研究的目标是使小模型能够进行复杂的算术推理以便在实际应用中进行大规模部署。知识蒸馏提供了一种有效的方法可以将 LLMs 的特定能力迁移到更小的模型中。这个过程也被称为模型专业化model specialization它强制小模型专注于某些能力。先前的研究利用 LLMs 的上下文学习ICL来生成数学问题的推理路径将其作为训练数据有助于小模型获得复杂推理能力。然而这些研究只使用了生成的具有正确答案的推理路径即正样本作为训练样本忽略了在错误答案即负样本的推理步骤中有价值的知识。如图所示表 1 展示了一个有趣的现象分别在正、负样本数据上训练的模型在 MATH 测试集上的准确答案重叠非常小。尽管负样本训练的模型准确性较低但它能够解决一些正样本模型无法正确回答的问题这证实了负样本中包含着宝贵的知识。此外负样本中的错误链路能够帮助模型避免犯类似错误。另一个我们应该利用负样本的原因是 OpenAI 基于 token 的定价策略。即使是 GPT-4在 MATH 数据集上的准确性也低于 50%这意味着如果仅利用正样本知识大量的 token 会被浪费。因此我们提出相比于直接丢弃负样本更好的方式是从中提取和利用有价值的知识以增强小模型的专业化。模型专业化过程一般可以概括为三个步骤 1思维链蒸馏Chain-of-Thought Distillation使用 LLMs 生成的推理链训练小模型。 2自我增强Self-Enhancement进行自蒸馏或数据自扩充以进一步优化模型。 3自洽性Self-Consistency被广泛用作一种有效的解码策略以提高推理任务中的模型性能。在这项工作中我们提出了一种新的模型专业化框架该框架可以全方位利用负样本促进从 LLMs 提取复杂推理能力。我们首先设计了负向协助训练NAT方法其中 dual-LoRA 结构被设计用于从正向、负向两方面获取知识。作为一个辅助模块负向 LoRA 的知识可以通过校正注意力机制动态地整合到正向 LoRA 的训练过程中。对于自我增强我们设计了负向校准增强NCE它将负向输出作为基线以加强关键正向推理链路的蒸馏。除了训练阶段我们还在推理过程中利用负向信息。传统的自洽性方法将相等或基于概率的权重分配给所有候选输出导致投票出一些不可靠的答案。为了缓解该问题提出了动态自洽性ASC方法在投票前进行排序其中排序模型在正负样本上进行训练的。我们提出的框架以 LLaMA 为基础模型主要包含三个部分如图所示步骤 1 对负向 LoRA 进行训练通过合并单元帮助学习正样本的推理知识步骤 2 利用负向 LoRA 作为基线来校准自我增强的过程步骤 3 在正样本和负样本上训练排名模型在推理过程中根据其得分自适应地对候选推理链路进行加权。 2.1 负向协助训练NAT 我们提出了一个两阶段的负向协助训练NAT范式分为负向知识吸收与动态集成单元两部分 2.1.1 负向知识吸收 2.1.2 动态集成单元我们提出了一种纠正注意力机制来实现这一目标如下所示 2.2 负向校准增强NCE 为了进一步增强模型的推理能力我们提出了负校准增强NCE它使用负知识来帮助自我增强过程。我们首先使用 NAT 为中的每个问题生成对作为扩充样本并将它们补充到训练数据集中。对于自蒸馏部分我们注意到一些样本可能包含更关键的推理步骤对提升模型的推理能力至关重要。我们的主要目标是确定这些关键的推理步骤并在自蒸馏过程中加强对它们的学习。 β 值越大表示两者之间的差异越大意味着该样本包含更多关键知识。通过引入 β 来调整不同样本的损失权重NCE 将能够选择性地学习并增强 NAT 中嵌入的知识。 2.3 动态自洽性ASC 自洽性SC对于进一步提高模型在复杂推理中的表现是有效的。然而当前的方法要么为每个候选者分配相等的权重要么简单地基于生成概率分配权重。这些策略无法在投票阶段根据 (rˆ, yˆ) 的质量调整候选权重这可能会使正确候选项不易被选出。为此我们提出了动态自洽性方法ASC它利用正负数据来训练排序模型可以自适应地重新配权候选推理链路。 2.3.1 排序模型训练理想情况下我们希望排序模型为得出正确答案的推理链路分配更高的权重反之亦然。因此我们用以下方式构造训练样本并使用 MSE loss 去训练排序模型 2.3.2 加权策略我们将投票策略修改为以下公式以实现自适应地重新加权候选推理链路的目标下图展示了 ASC 策略的流程从知识迁移的角度来看ASC 实现了对来自 LLMs 的知识正向和负向的进一步利用以帮助小模型获得更好的性能。本研究专注于具有挑战性的数学推理数据集 MATH该数据集共有 12500 个问题涉及七个不同的科目。此外我们还引入了以下四个数据集来评估所提出的框架对分布外OOD数据的泛化能力GSM8K、ASDiv、MultiArith 和 SVAMP。对于教师模型我们使用 Open AI 的 gpt-3.5-turbo 和 gpt-4 API 来生成推理链。对于学生模型我们选择 LLaMA-7b。在我们的研究中有两种主要类型的基线一种为大语言模型LLMs另一种则基于 LLaMA-7b。对于 LLMs我们将其与两种流行的模型进行比较GPT3 和 PaLM。对于 LLaMA-7b我们首先提供我们的方法与三种设置进行比较Few-shot、Fine-tune在原始训练样本上、CoT KD思维链蒸馏。在从负向角度学习方面还将包括四种基线方法MIX直接用正向和负向数据的混合物训练 LLaMA、CL对比学习、NT负训练和 UL非似然损失。 3.1 NAT 实验结果所有的方法都使用了贪婪搜索即温度 0NAT 的实验结果如图所示表明所提出的 NAT 方法在所有基线上都提高了任务准确性。从 GPT3 和 PaLM 的低值可以看出MATH 是一个非常困难的数学数据集但 NAT 仍然能够在参数极少的情况下表现突出。与在原始数据上进行微调相比NAT 在两种不同的 CoT 来源下实现了约 75.75% 的提升。与 CoT KD 在正样本上的比较NAT 也显著提高了准确性展示了负样本的价值。对于利用负向信息基线MIX 的低性能表明直接训练负样本会使模型效果很差。其他方法也大多不如 NAT这表明在复杂推理任务中仅在负方向上使用负样本是不够的。 3.2 NCE 实验结果如图所示与知识蒸馏KD相比NCE 实现了平均 10%0.66 的进步这证明了利用负样本提供的校准信息进行蒸馏的有效性。与 NAT 相比尽管 NCE 减少了一些参数但它依然有 6.5% 的进步实现压缩模型并提高性能的目的。 3.3 ASC 实验结果为了评估 ASC我们将其与基础 SC 和加权WSSC 进行比较使用采样温度 T 1 生成了 16 个样本。如图所示结果表明ASC 从不同样本聚合答案是一种更有前景的策略。 3.4 泛化性实验结果除了 MATH 数据集我们评估了框架在其他数学推理任务上的泛化能力实验结果如下。本项工作探讨了利用负样本从大语言模型中提炼复杂推理能力迁移到专业化小模型的有效性。小红书搜索算法团队提出了一个全新的框架由三个序列化步骤组成并在模型专业化的整个过程中充分利用负向信息。负向协助训练NAT可以从两个角度提供更全面地利用负向信息的方法。负向校准增强NCE能够校准自蒸馏过程使其更有针对性地掌握关键知识。基于两种观点训练的排序模型可以为答案聚合分配更适当的权重以实现动态自洽性ASC。大量实验表明我们的框架可以通过生成的负样本来提高提炼推理能力的有效性。论文地址https://arxiv.org/abs/2312.12832 李易为现博士就读于北京理工大学小红书社区搜索实习生在 AAAI、ACL、EMNLP、NAACL、NeurIPS、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文主要研究方向为大语言模型蒸馏与推理、开放域对话生成等。袁沛文现博士就读于北京理工大学小红书社区搜索实习生在 NeurIPS、AAAI 等发表多篇一作论文曾获 DSTC11 Track 4 第二名。主要研究方向为大语言模型推理与评测。冯少雄负责小红书社区搜索向量召回。在 AAAI、EMNLP、ACL、NAACL、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文。道玄潘博远小红书交易搜索负责人。在 NeurIPS、ICML、ACL 等机器学习和自然语言处理领域顶级会议上发表数篇一作论文在斯坦福机器阅读竞赛 SQuAD 排行榜上获得第二名在斯坦福自然语言推理排行榜上获得第一名。曾书曾书书小红书社区搜索语义理解与召回方向负责人。硕士毕业于清华大学电子系在互联网领域先后从事自然语言处理、推荐、搜索等相关方向的算法工作。小红书社区搜索算法工程师全职 / 实习岗位职责 1、对小红书搜索效果进行优化包括搜索算法和策略的调研、设计、开发、评估等环节提升用户体验 2、发现并解决搜索场景中在查询分析、意图识别、排序模型、去重等方向的问题 3、解决小红书搜索实际问题更好地满足用户的搜索需求 4、跟进业内搜索相关模型和算法的前沿进展并在实际业务中进行合理应用。任职资格 1、本科及以上学历计算机相关专业背景 2、有搜索、推荐、广告、图像识别等相关背景优先 3、熟悉机器学习、NLP、数据挖掘、知识工程的经典算法并能在业务中灵活解决实际问题 4、在国际顶级会议KDD、SIGIR、WSDM、ICML、ACL 等以第一作者发表过高水平论文者、知名数据挖掘比赛例如 KDD Cup 等中取得领先名次者优先 5、积极向上踏实勤奋自我驱动善于沟通解决问题优先。欢迎感兴趣的同学发送简历至 REDtechxiaohongshu.com并抄送至 luyun2xiaohongshu.com。

查看全文

http://www.hkea.cn/news/14312890/