当前位置: 首页 > news >正文

windows搭建php网站微信营销的优势

windows搭建php网站,微信营销的优势,网站开发包括网站设计,太原流量大的网站论文地址#xff1a;https://arxiv.org/pdf/2412.01981 相关博客 【自然语言处理】【大模型】 ΨPO#xff1a;一个理解人类偏好学习的统一理论框架 【强化学习】PPO#xff1a;近端策略优化算法 【偏好对齐】PRM应该奖励单个步骤的正确性吗#xff1f; 【偏好对齐】通过OR…论文地址https://arxiv.org/pdf/2412.01981 相关博客 【自然语言处理】【大模型】 ΨPO一个理解人类偏好学习的统一理论框架 【强化学习】PPO近端策略优化算法 【偏好对齐】PRM应该奖励单个步骤的正确性吗 【偏好对齐】通过ORM直接推导出PRM 一、PRM的成本和性能困境 1. ORM和PRM ​ 在强化学习中奖励模型用于评估模型的输出。常见的两种奖励模型是结果奖励模型ORM和过程奖励模型PRM。ORM为整个响应分配一个稀疏奖励而PRM则为每个中间步骤提供奖励。 ​ ORM和PRM奖励分配方式。令 x x x表示指令 y y y为包含n个步骤的响应 y t y_t yt​为第t步的响应 y t y_{t} yt​表示前t-1步的响应。PRM为第t步分配的奖励为 r θ t ( y t , y t ) r^{t}_{\theta}(y_{t},y_t) rθt​(yt​,yt​)。令Q值 q θ t ( y t , y t ) q_{\theta}^t(y_{t},y_t) qθt​(yt​,yt​)表示基于响应 y t y_{t} yt​和当前步骤 y t y_t yt​的奖励 r θ r_{\theta} rθ​的期望值。先前的研究将过程奖励定义为每个步骤的正确性而近期研究则将其定义为优势值。即Q值之差 r θ t : q θ t − q θ t − 1 r_{\theta}^t:q_{\theta}^t-q_{\theta}^{t-1} rθt​:qθt​−qθt−1​。 2. PRM的优势 ​ 效果。结果奖励模型和过程奖励模型都能够提供奖励以评估模型的输出。然而PRM在训练和推理时都表现出优于ORM的优势。 ​ 效率。PRM提供密集的步骤级奖励能让强化学习RL训练变得稳定且高效。 3. PRM的困境 ​ 尽管PRM很有效但其训练难度更大主要挑战在于训练数据的收集。为了收集PRM的训练数据通常需要使用蒙特卡洛树搜索MCTS进行自动步骤标注。 ​ MCTS基于指令和前t步的响应来采样多条轨迹每条轨迹都会产生一个最终答案。但是这种方法会带来高额的额外成本并且由于标注过程存在噪声可能会导致性能欠佳。 4. MCTS估计的问题 估计策略 在MCTS中有两种常见的标签估计策略 硬估计如果有任意rollout是正确的那么步骤tt被标注为1否则为0。即 l t max ⁡ { c 1 , c 2 , … , c N } l_t\max\{c_1,c_2,\dots,c_N\} lt​max{c1​,c2​,…,cN​}。软估计步骤t被标注为所有rollout中正确答案的比例也就是 l t ∑ t 1 N c t / N l_t\sum_{t1}^N c_t/N lt​∑t1N​ct​/N。 令ORM为 θ \theta θ基于硬估计数据训练的PRM为 θ h \theta_h θh​基于软估计数据训练的PRM为 θ s \theta_s θs​那么两种策略的Q值表示为 q θ h t ( y t , y t ) max ⁡ y ∣ y t r θ ( y ) , q θ s t ( y t , y t ) E π r e f ( y ∣ y t ) r θ ( y ) q_{\theta_h}^t(y_{t},y_t)\max_{y|y_{t}} r_{\theta}(y),q_{\theta_s}^t(y_{t},y_t)\mathbb{E}_{\pi_{ref}(y|y_{t})}r_{\theta}(y) \\ qθh​t​(yt​,yt​)y∣yt​max​rθ​(y),qθs​t​(yt​,yt​)Eπref​(y∣yt​)​rθ​(y) 潜在问题 尽管硬估计和软估计都有其合理性但它们都存在噪音问题。具体来说 硬估计 q θ h t q_{\theta_h}^t qθh​t​表示给定 y t y_{t} yt​的情况下的最大结果奖励 r θ r_{\theta} rθ​而不是期望值因此会高估 Q Q Q值。软估计对于 q θ s t q_{\theta_s}^t qθs​t​由于策略模型的能力通常有限要针对困难的指令采样处正确的解决方案很难会受假阴性噪音的影响从而低估 Q Q Q。 二、通过ORM直接构造PRM ​ MCTS虽然能够不借助人工来构造PRM数据但是成本高昂且奖励值估计不准确。那么不通过MCTS而是直接基于ORM来构造过程奖励可以吗 1. 基于ORM构造PRM ​ ORM采用DPO中定义的形式即 r θ ( y ) : β log ⁡ π θ ( y ) π ref ( y ) r_{\theta}(y):\beta\log\frac{\pi_{\theta}(y)}{\pi_{\text{ref}}(y)} rθ​(y):βlogπref​(y)πθ​(y)​。令 q θ t ( y t , y t ) : ∑ i 1 t β log ⁡ π θ ( y i ∣ y i ) π ref ( y i ∣ y t ) q_{\theta}^t(y_{t},y_t):\sum_{i1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{i})}{\pi_{\text{ref}}(y_i|y_{t})} qθt​(yt​,yt​):∑i1t​βlogπref​(yi​∣yt​)πθ​(yi​∣yi​)​那么 q θ t q_{\theta}^t qθt​是 r ( θ ) r(\theta) r(θ)的指数平均值即 q θ t ( y t , y t ) β log ⁡ E π r e f ( y ∣ y ≤ t ) e 1 β r θ ( y ) q_{\theta}^t(y_{t},y_t)\beta\log\mathbb{E}_{\pi_{ref}(y|y_{\leq t})}e^{\frac{1}{\beta}r_{\theta}(y)} \\ qθt​(yt​,yt​)βlogEπref​(y∣y≤t​)​eβ1​rθ​(y) 所以 q θ t q_{\theta}^t qθt​表示结果奖励 r θ r_{\theta} rθ​在步骤 t t t处的精确期望值即Q值。 ​ 既然 q θ t q_{\theta}^t qθt​是Q值那么若令过程奖励值为优势值则可以直接计算 r θ t r_{\theta}^t rθt​为 r θ t : q θ t − q θ t − 1 ∑ i t − 1 t β log ⁡ π θ ( y i ∣ y i ) π ref ( y i ∣ y i ) r_{\theta}^t:q_{\theta}^t-q_{\theta}^{t-1}\sum_{it-1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{i})}{\pi_{\text{ref}}(y_i|y_{i})} \\ rθt​:qθt​−qθt−1​it−1∑t​βlogπref​(yi​∣yi​)πθ​(yi​∣yi​)​ 2. 隐式PRM的奖励估计更合理 q θ s t E π r e f ( y ∣ y t ) r θ ( y ) ≤ q θ t ( y t , y t ) ≤ max ⁡ y ∣ y t r θ ( y ) q θ h t q_{\theta_{s}}^t\mathbb{E}_{\pi_{ref}(y|y_{t})}r_{\theta}(y)\leq q_{\theta}^t(y_{t},y_t)\leq\max_{y|y_{t}}r_{\theta}(y)q_{\theta_h}^t \\ qθs​t​Eπref​(y∣yt​)​rθ​(y)≤qθt​(yt​,yt​)≤y∣yt​max​rθ​(y)qθh​t​ 上面提出的隐式PRM理论上介于 q θ s t q_{\theta_s}^t qθs​t​和 q θ h t q_{\theta_h}^t qθh​t​之间而 q θ s t q_{\theta_s}^t qθs​t​和 q θ h t q_{\theta_h}^t qθh​t​分别会低估和高估Q值因此 q θ t q_{\theta}^t qθt​的估计更加准确且鲁棒性更强。 三、实验 1. 效果 ​ 论文中各种隐式PRM的效果优于baseline。 2. 效率
http://www.hkea.cn/news/14322606/

相关文章:

  • 公司想制作网站网站设计与开发实训心得
  • 加大网站和微信号建设发挥宣传平台实效性专门做品牌折扣的网站
  • 正安县住房和城乡建设局网站律师免费咨询电话
  • 诚信网站建设的意义wordpress文库主题
  • 阿里巴巴新网站怎么做运营网站模板 手机
  • 网页的基本布局抖音seo排名系统哪个好用
  • 小学网站建设实施方案广州公司注册网址
  • 建湖做网站哪家公司好网络服务器忙请稍后再试3008
  • 培训中心网站建设wordpress获取分类下文章列表
  • 静态网站更新上海工商网企业信息查询系统官网
  • 瑞安 网站建设培训班竞价网站单页面
  • 网站建设的案例山西忻州市忻府区
  • 广东公司响应式网站建设报价会同县做网站
  • 简述阐述网站建设的步骤过程刚做的网站多久能被搜索到
  • 2014网站设计做网站有发展吗
  • 建设营销型网站流程图流量精灵官网
  • 网站上线稳定后的工作工业产品设计与创客实践赛题库
  • 建设营销网站的四个步骤零基础可以做网站吗
  • 高端网站设计报价表凡科网怎么建网站
  • 做网站余姚百度关键词查询工具免费
  • 免费的行情软件网站不用下载wordpress is page
  • 怎样不用代码就能建网站淘宝客网站需要备案吗
  • 小程序简单还是做网站简单企业官方网站怎么写
  • 网站设计实训心得体会视觉设计包括什么
  • 网站建设流程公司wordpress knowhow 下载
  • 企业网站建设兴田德润实惠搜索引擎在线
  • 北京建站模板厂家做外贸都用什么网站
  • 定制网站建设多少钱秀屿网站建设
  • 网站建设数据库设计河南网站备案所需资料
  • 手机网站建设策划方案怎么搭建网页服务器