当前位置：首页 > news >正文

顺德手机网站设计权威网页界面设计风格

news 2026/4/18 16:21:36

顺德手机网站设计权威,网页界面设计风格,高端建站选哪家,返回邢台最新规定著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址#xff1a;https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次#xff0c;他将立足于 DeepSeek 技术报告#xff0c;介绍用于构建推理模型的四种主要方法#xff0c;也就是…著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次他将立足于 DeepSeek 技术报告介绍用于构建推理模型的四种主要方法也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示「我希望这能提供有价值的见解并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」阅读笔记如下: 在人工智能领域不断演进的当下大语言模型LLM已成为研究和应用的焦点。2024年LLM领域专业化趋势愈发明显除了预训练和微调等基础操作从检索增强生成RAG到代码助手等专业应用也不断涌现。这一趋势在2025年持续加速特定领域和应用的优化受到更多重视。推理模型作为LLM专业化的重要方向能够处理复杂任务展现出独特的价值著名AI研究者Sebastian Raschka对其进行了深入探讨。推理模型定义与应用场景 “推理模型”这一术语在AI领域的定义存在模糊性。在本文中推理被定义为回答需要复杂、多步骤生成和中间步骤的问题的过程。像“法国首都是哪里”这类事实性问答无需推理即可解答而“如果一列火车以60英里/小时的速度行驶3小时它会行驶多远”这样的问题则需要通过识别距离、速度和时间的关系进行推理求解。图释常规的 LLM 可能只提供简短的答案如左图所示而推理模型通常包括揭示部分思维过程的中间步骤。请注意许多没有专门为推理任务开发的 LLM 也能在其答案中提供中间推理步骤。大多数现代 LLM 都具有基本的推理能力可以回答诸如「如果一列火车以 60 英里 / 小时的速度行驶 3 小时它会行驶多远」这样的问题。因此今天当我们提到推理模型时我们通常指的是擅长更复杂推理任务的 LLM例如解决谜题、谜语和数学证明。推理模型中的中间步骤可以两种方式出现。第一种中间步骤可能显式地出现在响应中如上图所示。第二种一些推理 LLM例如 OpenAI o1则会运行多个迭代中间步骤对用户来说是不可见的。使用「推理」的两个不同层级1通过多个中间步骤处理输入和生成结果2将某种形式的推理放在响应中提供给用户。推理模型擅长处理复杂任务如谜题、高级数学和编程难题等。在这些场景中模型通过演绎或归纳推理、思维链推理分解多步骤问题做出复杂决策并且能更好地泛化到新问题。不过推理模型也存在局限性在处理简单任务时可能会因“过度思考”导致效率低下、成本增加还可能在基于知识的任务中出现“幻觉”现象。 DeepSeek R1训练流程与模型变体 DeepSeek发布的R1系列推理模型包含三个变体DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill。这些模型的开发过程基于DeepSeek - V3671B基础模型每个变体都经历了不同的训练阶段。根据其技术报告中的描述的模型的开发过程。 DeepSeek - R1 - Zero基于2024年12月发布的671B预训练版DeepSeek - V3采用“冷启动”训练方式仅使用强化学习RL跳过监督微调SFT步骤。训练过程中设置了准确度奖励和格式奖励准确度奖励通过LeetCode编译器验证编码答案、确定性系统评估数学响应格式奖励依靠LLM评判员确保响应格式正确。这种训练方式使模型涌现出基本的推理技能。DeepSeek - R1以DeepSeek - R1 - Zero为基础增加额外的SFT阶段和进一步的RL训练。使用DeepSeek - R1 - Zero生成的“冷启动”SFT数据进行指令微调后续的RL阶段除保留准确度和格式奖励外还添加一致性奖励防止语言混合。经过多轮SFT数据收集和RL训练DeepSeek - R1的性能在DeepSeek - R1 - Zero基础上显著提升。DeepSeek - R1 - Distill利用训练DeepSeek - R1过程中生成的SFT数据对Qwen和Llama模型进行微调。这种在LLM语境下的“蒸馏”虽不同于传统深度学习中的知识蒸馏但能提升小模型的推理能力。小模型效率更高可在低端硬件上运行同时也为纯监督微调SFT的研究提供了案例。为什么他们开发了这些蒸馏模型有两个关键原因小型模型更高效。这意味着它们运行成本更低但它们也可以在低端硬件上运行这使得它们对许多像我这样的研究人员和爱好者来说特别有趣。纯 SFT 案例研究。这些提炼出的模型作为一个有趣的基准展示了纯监督微调SFT在不使用强化学习的情况下可以将模型带到多远。蒸馏后的模型明显弱于 DeepSeek-R1但与 DeepSeek-R1-Zero 相比它们却出奇地强大尽管规模小了几个数量级。值得注意的是这些模型与 o1 mini 相比表现非常好 DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的涌现推理行为是否也会出现在较小的模型中。为了研究这一点他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。下表展示了实验的结果其中 QwQ-32B-Preview 是千问团队基于 Qwen 2.5 32B 开发的参考推理模型我认为训练细节从未披露过。此比较提供了一些额外的洞察即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引导推理能力。在较小的 32B 模型上对蒸馏和 RL 进行基准比较。注释图来自 DeepSeek-R1 技术报告。有趣的是结果表明对于较小的模型蒸馏比纯 RL 更有效。这与以下观点一致单靠 RL 可能不足以在这种规模的模型中产生强大的推理能力而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。 Qwen-32B 使用 SFT RL 进行训练类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时与纯 RL 和纯 SFT 相比可以取得多大的改进。 DeepSeek-V3 使用纯 SFT 进行训练与创建蒸馏模型的方式类似。这样可以直接比较看看 RL SFT 相对于纯 SFT 的效果如何。构建推理模型的四大方法当前增强LLM推理能力、构建推理模型的方法主要有以下四种推理时间扩展在推理过程中增加计算资源提升输出质量。思维链CoT提示方法是典型应用在提示词中加入“think step by step”等短语鼓励模型生成中间推理步骤提高复杂问题的解答准确率。此外投票和搜索策略也属于推理时间扩展如多数投票让模型生成多个答案通过投票选择正确结果集束搜索等算法同样可优化响应。虽然DeepSeek R1技术报告表明其模型未使用该方法但它常在LLM应用层实现OpenAI的o1和o3模型可能运用了此技术这也解释了其成本较高的原因。纯RLDeepSeek R1 - Zero的训练方式证明了推理可作为纯RL涌现出的行为。与传统RL流程不同它跳过SFT阶段仅依靠RL训练并设置准确度和格式奖励。尽管R1 - Zero并非性能最佳的推理模型但它展现出推理能力证实了纯RL开发推理模型的可行性。监督微调加强化学习SFT RL这是构建高性能推理模型的关键方法DeepSeek - R1的开发就是典型案例。在RL之前进行SFT利用DeepSeek - R1 - Zero生成的“冷启动”SFT数据训练模型后续的RL阶段添加一致性奖励再经过多轮SFT数据收集和RL训练有效提升了模型性能。OpenAI o1很可能也采用了类似方法。纯监督微调SFT和蒸馏DeepSeek通过在较大LLM生成的SFT数据集上对较小LLM进行指令微调开发出蒸馏模型。这些小模型效率更高可作为纯SFT的研究基准。实验表明对于较小模型蒸馏比纯RL更有效高质量推理数据的SFT在小模型应用中是更优策略。对DeepSeek R1的综合评价 DeepSeek R1系列模型是AI领域的重要成果其详细的技术报告为研究人员提供了宝贵的方法论参考。推理可基于纯RL涌现的发现令人瞩目并且模型遵循宽松的MIT开源许可证开源具有积极的推动意义。与OpenAI的o1相比DeepSeek - R1在推理时间上更高效但由于OpenAI未充分披露o1的信息如是否为混合专家MoE模型、模型规模大小以及训练方式细节等两者难以直接比较。关于DeepSeek - R1的训练成本虽有600万美元的估算但这可能将DeepSeek - V3和DeepSeek - R1的成本混淆DeepSeek团队并未透露R1的具体成本目前的估算均为猜测。启示性的工作有限预算下的推理模型开发开发如DeepSeek - R1级别的推理模型成本高昂不过模型蒸馏和一些创新方法为预算有限的研究人员提供了可能。 DeepSeek的蒸馏模型证明了小模型也能具备强大的推理性能尽管蒸馏过程也需要大量计算资源。 Sky - T1项目仅用17K的SFT样本、450美元的GPU成本训练出表现与OpenAI o1大致相当的32B模型展示了小样本、低成本微调的潜力。图源《Sky-T1在 450 美元以内训练你自己的 O1 预览模型》一文。https://novasky-ai.github.io/posts/sky-t1/ 纯 RL 的TinyZero 在纯RL领域TinyZero项目以不到30美元的成本训练出3B参数模型该模型展现出自我验证能力支持了小模型通过纯RL涌现推理能力的观点。超越传统 SFT旅程学习此外“旅程学习”方法为推理模型开发提供了新思路。它用错误的解决路径训练模型让模型从错误中学习增强自我修正能力有望提升推理模型的可靠性尤其适用于低预算的推理模型开发场景。推理模型领域正处于快速发展阶段各种创新方法不断涌现。无论是大模型的优化还是小模型在有限预算下的突破都为AI技术的进步注入了活力。在未来我们有望看到更多令人惊喜的研究成果和应用突破。

查看全文

http://www.hkea.cn/news/14316600/