当前位置: 首页 > news >正文

公司主页网站设计咸宁响应式网站建设价格

公司主页网站设计,咸宁响应式网站建设价格,网站建设学什么专业,官网制作需要多少钱本文代码参见:https://github.com/zysNLP/quickllm/tree/main/learnings/llm_related-main;感谢star。本文内容非常生动形象、但也非常长非常详细,请参照代码逐行耐心查看 配套《AIGC大模型理论与工业落地实战》;持续更新中 1. PPO算法简介 近端策略优化(Proximal Poli…本文代码参见:https://github.com/zysNLP/quickllm/tree/main/learnings/llm_related-main;感谢star。本文内容非常生动形象、但也非常长非常详细,请参照代码逐行耐心查看 配套《AIGC大模型理论与工业落地实战》;持续更新中 1. PPO算法简介 近端策略优化(Proximal Policy Optimization, PPO)是OpenAI于2017年提出的一种强化学习算法,属于策略梯度(Policy Gradient)方法。PPO通过限制策略更新的幅度来保证训练的稳定性,是目前RLHF(Reinforcement Learning from Human Feedback)中最常用的算法之一。 2. 核心概念:4+2理解法 2.1 四个模型 2.1.1 策略模型(Actor Model) 作用:待优化的主模型,负责生成文本参数更新:✅ 参与训练,通过策略损失进行优化代码位置:actor_model = AutoModelForCausalLM.from_pretrained(...)2.1.2 价值模型(Critic Model) 作用:评估当前状态的期望回报,预测每个token的价值参数更新:✅ 参与训练,通过价值损失进行优化代码位置:critic_model = Critic(actor_model.base_model)2.1.3 奖励模型(Reward Model) 作用:评估生成文本的质量,提供奖励信号参数更新:❌ 不参与训练,权重固定代码位置:reward_model = AutoModelForSequenceClassification.from_pretrained(...)注意事项:不建议使用API形式的reward model,原因如下: API请求耗时较长(单次请求约1-5秒),严重影响训练效率API响应可能不稳定,容易出现解析失败的情况相比本地reward模型,API形式的性能差异显著建议使用本地reward模型进行PPO训练,以获得更好的训练效果和效率 2.1.4 参考模型(Reference Model) 作用:防止策略模型偏离原始模型太远,提供KL散度约束参数更新:❌ 不参与训练,权重固定代码位置:ref_model = AutoModelForCausalLM.from_pretrained(...)3. 数学推导过程 3.1 基础概念 3.1.1 策略与轨迹 在RLHF中: 策略:我们要优化的大模型轨迹:一次完整的文本生成过程状态:当前的文本前缀动作:生成下一个token轨迹定义: τ = ( s 0 , a 0 , s 1 , a 1 , … , s T − 1 , a T − 1 ) \tau = (s_0, a_0, s_1, a_1, \ldots, s_{T-1}, a_{T-1}) τ=(s0​,a0​,s1​,a1​,…,sT−1​,aT−1​) 3.1.2 优化目标 基于策略的强化学习的优化目标: arg ⁡ max ⁡ π θ J ( π θ ) = arg ⁡ max ⁡ π θ E τ ∼ π θ [ R ( τ ) ] \arg\max_{\pi_{\theta}} J(\pi_{\theta}) = \arg\max_{\pi_{\theta}}\mathbb{E}_{\tau \sim \pi_{\theta}} [R(\tau)] argπθ​max​J(πθ​)=argπθ​max​Eτ∼πθ​​[R(τ)] 3.2 策略梯度推导 3.2.1 基本策略梯度 通过数学推导,我们可以得到策略梯度的基本形式: ∇ J ( π θ ) = E τ ∼ π θ [ ∑ t = 0 T − 1 Ψ t ∇ log ⁡ π θ ( a t ∣ s t ) ] \nabla J(\pi_{\theta}) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T-1} \Psi_{t} \nabla \log \pi_{\theta}(a_{t} | s_{t}) \right] ∇J(πθ​)=Eτ∼πθ​​[t=0∑T−1​Ψt​∇logπθ​(at​∣st​)] 其中 Ψ t \Psi_t Ψt​可以有多种选择: 轨迹的累积奖励轨迹的折扣奖励引入基线的奖励动作价值函数 Q π ( s t , a t ) Q^{\pi}(s_t, a_t) Qπ(st​,at​)优势函数 A π ( s t , a t ) A^{\pi}(s_t, a_t) Aπ(st​,at​)3.2.2 优势函数(Advantage Function) 优势函数衡量某个动作相对于平均水平的优势: A π ( s t , a t ) = Q π ( s t , a t ) − V π ( s t ) A_{\pi}(s_t, a_t) = Q_{\pi}(s_t, a_t) - V_{\pi}(s_t) Aπ​(st​,at​)=Qπ​(st​,at​)−Vπ​(st​) 可以简化为: A π ( s t , a t ) = r t + γ V π ( s t + 1 ) − V π ( s t ) A_{\pi}(s_t, a_t) = r_t + \gamma V_{\pi}(s_{t+1}) - V_{\pi}(s_t) Aπ​(st​,at​)=rt​+γVπ​(st+1​)−Vπ​(st​) 3.2.3 广义优势估计(GAE) 为了平衡偏差与方差,引入GAE: A ^ t GAE = ∑ l = 0 ∞ ( γ λ ) l δ t + l \hat{A}_t^{\text{GAE}} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l} A^tGAE​=l=0∑∞​(γλ)lδt+l​ 其中 δ t = r t + γ V ( s t + 1 ) − V ( s t ) \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t) δt​=rt​+γV(s
http://www.hkea.cn/news/14304998/

相关文章:

  • 自学考试 网页制作与网站建设06627wordpress文档主题
  • 常州网站建设哪儿好薇北京软件培训机构前十名
  • 保定seo建站做网站怎么导入源码
  • 东营市做网站网站优化自己可以做吗
  • 安庆市住房和城乡建设局网站效果图制作步骤
  • 最精品网站建设世界500强企业排名
  • wordpress本地视频教程辽源网站优化
  • 网站总体设计怎么写中国建筑资讯网
  • wordpress 多站点 合集静安区建设工程招标投标管理部门网站
  • 网站被篡改处理未备案运行网站
  • 首饰设计网站推荐专业行业网站开发报价
  • 永州网站建设公司珠海电视台app下载
  • xp系统做网站服务器wordpress 发信
  • 网站建设费记入科目WordPress使用两个模板
  • 培训网站开发需求说明书保定市建网站的公司
  • 网站设计公司简介wordpress本地速度
  • 平山县建设局网站锡盟网站建设
  • 促销直播网站开发延边州建设厅网站
  • 网站建设策划方案书下载怎么把视频做成网页链接
  • 如何自己开个网站平台深圳极速网站建设报价
  • 网站建设合同的主要内容四川建设厅报名网站
  • 福田做网站联系电话株洲网站建设报价
  • 局域网网站制作南昌seo招聘信息
  • 广州市官网网站建设报价网站制作报价被哪些因素影响
  • 网站怎么做网页游戏九度网站建设
  • 北京建站方案要查询一个网站在什么公司做的推广怎么查
  • 建设银行网站源码企业营销战略
  • mysql8.0 wordpress邢台做网站建设优化制作公司金信
  • 住房和城乡建设部注册中心网站网站邮箱配置
  • 行业门户网站是什么wordpress 打开速度