当前位置: 首页 > news >正文

广西seo网站推广mvc5网站开发实战详解

广西seo网站推广,mvc5网站开发实战详解,网站建设收费标准效果,永州网站制作建设博客昵称#xff1a;沈小农学编程 作者简介#xff1a;一名在读硕士#xff0c;定期更新相关算法面试题#xff0c;欢迎关注小弟#xff01; PS#xff1a;哈喽#xff01;各位CSDN的uu们#xff0c;我是你的小弟沈小农#xff0c;希望我的文章能帮助到你。欢迎大家在… 博客昵称沈小农学编程 作者简介一名在读硕士定期更新相关算法面试题欢迎关注小弟 PS哈喽各位CSDN的uu们我是你的小弟沈小农希望我的文章能帮助到你。欢迎大家在评论区唠嗑指正觉得好的话别忘了一键三连哦 SPPO是强化学习的一种据猜测今年9月OpenAI最新的大模型O1使用该方法进行微调。SPPO英文全称Self-Play Preference Optimization中文为自博弈偏好优化。其受到了纳什均衡的冯·诺依曼两人常和博弈公式以及RLHFPPO框架的启发而设计出来。下面本文将讲解SPPO的损失函数、策略梯度更新以及算法框架。 目录 1 策略梯度更新公式 2 损失函数 3 算法流程图 参考文献 1 策略梯度更新公式 常和博弈的纳什均衡公式如下所示 现在让我们一步步从常和博弈的纳什均衡公式的一般形式推导出 SPPO 算法的策略梯度更新公式。 使用Freund和Schapire(1999)建立一个迭代框架该框架可以平均渐进收敛到最优策略。 上面的框架具体后写为 归一化因子为 对上式两边取对数左右平移变化得 为了简化计算使用L2距离公式来近似上面的公式计算得到下面的公式 到这里策略更新公式就推导出来了。不过这是针对连续数据的。下面我们来推导该公式以应用到离散数据上同时进一步简化计算。 可能性估计可以用有限的样本来近似策略更新公式。对于每个提示我们选取个回答作为样本用表示经验分布。有限样本优化问题可以近似为 具体来说和。被视作一种期望可以通过在偏好项的总共个序列中的个新样本来估计。 我们可以用基于人类偏好模型的常数替换来进一步简化计算。具体来说用替换。假设在任意给定的对中赢的概率是同等机会的1或者0当我们能得到。 至此SPPO的策略更新公式推导完成。 下面让我们来得到策略梯度更新公式。 改写上面的公式为 RLHF的策略梯度更新公式为 对比发现上面的公式本质上是策略梯度更新公式至此推导完成。 2 损失函数 SPPO的损失函数如下 公式通过胜者策略得分与输者策略得分的平方和能更全面地评价模型。我们可以进一步简化公式我们令胜者对输者的胜率为1输者对胜者的胜率为0则损失函数可以简化为 3 算法流程图 参考文献 《Self-Play Preference Optimization for Language Model Alignment》
http://www.hkea.cn/news/14439801/

相关文章:

  • c 做网站开发网络营销app有哪些
  • 外流网站建设微信网站服务器要求
  • 西宁网站制作哪家好如何分析一个网站
  • 网站开发会计科目手机网站静态模板
  • 查找北京国互网网站建设企业系统培训平台
  • 做汽车的网站编辑做网站建设公司怎么选
  • 西安做网站建设的住房与城乡建设部网站特色小镇
  • 网站建设的财务计划django做的电子商务网站
  • 搭建网站服务器多少钱大连金州旅游景点有哪些
  • 网站建设方案200字成都seo优化推广
  • 如何关联网站与网站wordpress开发解析
  • 怎么做网站框架设计培训
  • 广东企业网站建设出售自己的网站
  • 网站的运营费用吗如何做切片网站
  • 电子商务如何做网站销售百度收录的网站
  • php网站开发实例教程案例网站销户说明
  • 网站建设技术分类a5建站
  • 杭州网站制作模板朔州如何做百度的网站
  • 做代练去什么网站安全康保网站建设
  • 网站开发需要哪些基础技术电子商务网站规划的内容
  • dw网站引导页怎么做免费app开发平台
  • 进行公司网站建设方案永久免费手机建站平台
  • c2c商城网站开发苏州模板建站平台
  • 营销网站设计方案邢台交友123
  • 网站seo优化怎么做怎么更换网站logo
  • 定陶区城乡建设局网站专业设计科技展厅公司
  • 零基础搭建网站注册建设通网站首页
  • 清苑区建设网站找那家公司怎么制作一个团购小程序
  • 响应式设计 手机网站shopnc
  • 石家庄网站建设策略网站模块顺序调整