当前位置: 首页 > news >正文

网站做视频在线观看怎么申请域名注册商

网站做视频在线观看,怎么申请域名注册商,网站建设公司网站源码,做网站 博客卷友们好#xff0c;我是rumor。 众所周知#xff0c;RLHF十分玄学且令人望而却步。我听过有的小道消息说提升很大#xff0c;也有小道消息说效果不明显#xff0c;究其根本还是系统链路太长自由度太高#xff0c;不像SFT一样可以通过数据配比、prompt、有限的超参数来可控… 卷友们好我是rumor。 众所周知RLHF十分玄学且令人望而却步。我听过有的小道消息说提升很大也有小道消息说效果不明显究其根本还是系统链路太长自由度太高不像SFT一样可以通过数据配比、prompt、有限的超参数来可控地调整效果。 但也正是因为它的自由度、以目标为导向的学习范式和性价比更高的标注成本业内往往认为它会有更高的效果天花板。同时我最近看OpenAI的SuperAlignment计划感受颇深非常坚定地认为scalable的RLHF不局限于PPO就是下一步的大突破所在。 所以我秉着不抛弃不放弃的决心带大家梳理一下最近的RLHF平替工作探索如何更稳定地拿到效果。 RLHF链路可以分为两个模块RM和RL这两个模块各有各的问题 RM对准确率和泛化性的要求都很高不然很容易就被hack到比如输出某个pattern就给高分。但业内普遍标注数据的一致率只有70%左右数据决定效果天花板如何让RM代表大部分人的判断、且能区分出模型结果的细微差异难难难。这也是RLHF方法没法规模化起来的主要瓶颈RL奖励太稀疏最后一步才拿到句子分数不像SFT一样有真实的token-level监督信号、PPO超参数非常多导致效果很不稳定 针对上述两个模块的问题学术界大佬们各显神通大概有以下几种解决方案 没得商量不做RL了选择性保留RM比如RRHF、DPO这类方法可以直接在RM数据上优化语言模型但如果想提升效果需要用自身模型采样得再引入一个RM比如RSO、SCiL、PRO等。又或者直接用RM采样的数据做精调比如RAFT、Llama2等用其他RL算法比如ReMax、Decision Transformer 下面我们就逐一盘盘这些方法以及他们给出的有用结论。 不做RL了 RRHF RRHF: Rank Responses to Align Language Models with Human Feedback without tears RRHF是阿里在今年年初2023.04发布的工作它的做法是直接在RM数据山优化LM让chosen回答的概率大于rejected回答的概率。 RRHF 在具体实现上就是计算句子的条件概率后加一个ranking loss RRHF loss 但在实践中作者发现只用ranking loss会把模型训崩溃所以又加了SFT loss。从消融实验可以看到加了rank loss确实对模型效果有一些提升 最终在HH数据集上作者提出的RRHF平均得分略好于PPO-1.02 vs -1.03效果差距不是太大但该方法主打一个便捷稳定。 同时作者也在实验中尝试了不同的数据采样策略 直接用开源RM的数据用自己的模型生成response用开源RM进行排序做出新的RM数据循环执行2类似强化的思维不断靠自身采样到更好的答案 最后的结论也比较符合直接是321。 Preference Ranking Optimization for Human Alignment 后续阿里非同作者在2023.06又提出了一个PRO方法核心思想跟RRHF接近但有两个不同 选用了更多负例不止停留在pair-wise给不同负例不同的惩罚项比如分数差的多就拉大一些 PRO 同时也加上了SFT loss最终效果比RLHF和RRHF都有些提升。 DPO Direct Preference Optimization:Your Language Model is Secretly a Reward Model DPO是斯坦福在2023.05底提出的工作主打一个硬核直接从PPO公式推出了一个平替方案虽然最终loss呈现的思想跟RRHF接近chosen句子概率rejected句子概率但同时带有一个SFT模型的约束可以保证在不加SFT loss的情况下训练不崩溃个人猜测。 DPO 作者在公开的几个RM数据集上都做了实验可以发现DPO对超参数的敏感度更低效果更稳定且奖励得分优于RLHF。 同时微软在2023.10月的一篇工作[1]上也对DPO做了进一步的探索。考虑到排序数据成本他们直接默认GPT4 ChatGPT InstructGPT实验后得到以下结论 用DPO在 GPT4 vs InstructGPT 上训练的效果 直接在GPT-4数据精调的效果先在简单的pair上训练后再在困难的pair上训练会有更好的效果 RSO Statistical rejection sampling improves preference optimization 上面介绍了两种ranking思想的loss具体哪种更好一些呢DeepMind在2023.09月份的一篇RSO[2]工作中进行了更系统的对比得到了以下结论 DPO(sigmoid-norm) loss效果略好但更重要的是增加SFT约束可以看表中没加约束的hinge loss效果很差但加了约束后则能接近DPO另外重要的还有采样策略比如要优化模型A最好用模型A生产的结果去做pair标注再训练A比用模型B生产的数据训练A更好。这跟RRHF的结论也比较一致更接近「强化」的思想 RSO实验结果 同时作者提出了另外一种RSO(Rejection Sampling Optimization)的采样方法实验发现有2个点左右的提升。 Rejection Sampling SFT 拒绝采样是一种针对复杂问题的采样策略[3]可以更高效地采样到合适的样本进行复杂分布的估计。最近也有很多方法利用RM进行拒绝采样直接用采样出的数据对模型做SFT。 Llama 2: Open Foundation and Fine-Tuned Chat Models LLama2就很好地使用了拒绝采样先问问地训RM再用RM筛选出当前模型最好的结果进行SFT。论文发出时他们一共把llama2-chat迭代了5轮前4轮都是用的拒绝采样只有最后一轮用了PPO可以看到相比ChatGPT的胜率一直在提升 不过从RLHF v5(no PPO)和RLHF v5(with PPO)来看RL还是能有很大的效果收益。 这种方法还有很多变体可以探索比如港大在2023.04提出的RAFT[4]就是选取多个样本进行后续精调。同时采样策略也可以进行一些优化比如上面提到的RSO。 用其他RL算法 ReMax ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models ReMax是港中文在2023.10提出的工作核心是对RLHF中RL阶段的PPO算法进行了简化。 强化的难点是怎么把多步之后的最终目标转化成模型loss针对这个问题有不同解决方案目前OpenAI所使用的RL策略叫PPO[5]是他们自己在2017年提出的一个经典RL算法OpenAI早期真的做了很多强化的工作。 但ReMax的作者认为PPO并不适用于语言模型的场景 可以快速拿到句子奖励传统RL的长期奖励获取可能会比较昂贵比如必须玩完一局游戏、拿起一个杯子而RLHF在有了RM后可以快速拿到奖励确定性的环境传统RL中环境也是变化的同一个场景动作可能拿到不同奖励而在语言模型中给定上下文和当前结果下一步的状态也是确定的RM打分也是确定的 上面两点在传统RL中会造成学习不稳定的问题因此PPO使用了Actor-Critic网络即引入一个「助教」来给模型的每一步打分而作者认为在语言模型上可以省去。 ReMax 因此作者提出用强化中的REINFORCE算法来代替PPO去掉了Critic模型但作者在实验中同样发现了梯度方差较大优化不稳定的问题于是增加了一项bias来降低方差命名为ReMax算法。 由于资源受限作者没跑通7B的PPO实验只对比了1.3B的ReMax和PPO效果显示ReMax更好一些 ReMax效果 除了效果提升之外由于去掉了一个要训练的模型在显存占用和训练速度上都有提升。 Offline RL: Decision Transformer 上面我们说的PPO、REINFORCE都是Online RL需要一个虚拟环境通过互动拿到奖励再进行学习。相对的Offline RL是指直接拿之前和环境互动的数据来学习。 Aligning Language Models with Offline Reinforcement Learning from Human Feedback 这篇是英伟达在2023.08提出的工作探索了MLE、用reward做回归、DT(Decision Transformer)三种离线强化算法最终发现DT的效果更好。 Decision Transformer是一个2021 RL Transformer的开山之作但NLPer一看就懂 Decision Transformer 它的核心思想是把奖励、状态作为输入让模型预测动作从而建模三者之间的关系。比如模型训练时见过1分的答案也见过5分的那预测时直接输入reward5.0让它给出最好的结果。 这样训下来效果居然还不错也超过了PPO DT效果 SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF 没想到的是英伟达不同团队在2023.10月又推出了一篇SteerLM的工作与DT的思想类似但会把奖励分为不同维度比如质量、帮助性等等。 SteerLM 具体做法 通过人工标注的各个维度打分训练一个打分模型用打分模型对更多数据打分精调一个SFT模型可以做到输入prompt、目标分数输出符合分数的结果用第三步的模型生产更多答案再打分如此循环 最终的效果也是好于RLHFPPO哭晕在厕所 SteerLM效果 总结 以上就是我最近关注的RLHF平替方法虽然可走的路很多但很难有一个可靠且全面的效果对比毕竟RLHF本身就难训不稳定几百条数据下波动几个点很正常而且无论是自动测评还是人工测评都会带有bias。 但对于资源有限的团队来说平替方案不失为一种选择。 参考资料 [1] Contrastive Post-training Large Language Models on Data Curriculum: https://arxiv.org/abs/2310.02263 [2] Statistical rejection sampling improves preference optimization: https://arxiv.org/pdf/2309.06657.pdf [3] 理解Rejection Sampling: https://gaolei786.github.io/statistics/reject.html [4] RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment: https://arxiv.org/abs/2304.06767 [5] PPO: https://arxiv.org/pdf/1707.06347.pdf 我是朋克又极客的AI算法小姐姐rumor 北航本硕NLP算法工程师谷歌开发者专家 欢迎关注我带你学习带你肝 一起在人工智能时代旋转跳跃眨巴眼 「彩蛋你能找到几个同厂不同组的相近工作」
http://www.hkea.cn/news/14295526/

相关文章:

  • 汉中北京网站建设最专业的网站建设推广
  • 广西城乡建设部网站首页wordpress在线编辑器插件
  • 广州五羊建设官方网站网站开发发展方向
  • 苏州公司网站大数据智能营销
  • wordpress nginx rewriteseo基础教程视频
  • 网站建设信息科技公司个人做网站的必要性
  • 自己做装修网站网站的功能需求
  • 环保主题静态网站大连哪家公司做网站
  • 东莞站福公司工资wordpress前面增加new
  • 网站建设论文3000网站由哪些部分组成
  • 想建个图片网站学科专业网站建设
  • 武胜网站建设公司网站建设方案详细方案模板
  • 上海建站价格网络销售是做什么的
  • 大庆 网站建设深圳市官方网站开发公司
  • 网站为什么要做seowordpress修改域名登录后台
  • 做国外销售都上什么网站百度云 wordpress 教程视频
  • 电商网站建设阿里云深圳福田区天气
  • 企业门户网站管理办法网站正在建设中是什么意思
  • 网上购物网站开发开题报告网络推广费用大概价格
  • 如何制作网站?怎么做8代码网站
  • 项城做网站wordpress博客模板下载
  • 文化馆建设网站邯郸网站制作与建设
  • 郑州郑州网站建设河南做网站公司制作网站服务
  • 以前老网站如何做一间公司的网站
  • 九江县网站建设WordPress网站关闭插件
  • 优秀网站制作定制北京企业官网建设
  • 做logo的著名网站网站公司网站开发
  • 青岛网页制作网站坪山网站建设资讯
  • 精选微信网站建设wordpress创建知识库
  • 用dw怎么做网站首页百度联盟申请