当前位置：首页 > news >正文

电子商务网站开发过程建网站哪个平台好

news 2026/4/6 22:06:13

电子商务网站开发过程,建网站哪个平台好,关于网站建设的方案ppt,河南平价的seo整站优化定制最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等本次解读经典论文learning to summarize with human feedback 一、简介部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调…

最近在看大模型训练相关的论文，预计会追溯经典的和最新的训练策略以及微调原理等

本次解读经典论文learning to summarize with human feedback

一、简介

部分生成任务需要对齐人类偏好，但是根据最大化可能性（对数似然）进行微调的模型跟真正使用模型的人的喜好并不能直接匹配，即不对齐。

这种不对齐的原因有：（1）最大化可能性目标对于重要和不重要的错误判别的差距不大。（2）模型会对人类的训练数据放置更大的可能性，其中包括低质量的训练数据。（3）采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善，比如束搜索，但是可能造成重复和不想要的捏造。

本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

主要的贡献如下：

（1）使用人类反馈训练后在英文摘要生成的任务上表现显著。

（2）比有监督模型对于新领域的泛化性更好

（3）对policy和奖励模型进行了严谨的分析

（4）开源人类反馈数据集

创新：模型更大；收集人类反馈的批次设定；保证标注人员和研究人员的评价一致；一些算法改进，比如将policy和奖励模型分开

二、方法和实验细节

在已经有一个训练过的模型（在强化学习中，这个训练好的模型叫policy）的基础上，对于RLHF，通用的三步如下：

1.使用policy模型对同一个prompt进行推理后给标注员进行对比

2.从以上的对比结果中训练一个奖励模型

3.使用奖励模型和PPO算法进行policy模型的优化

对于同一个摘要生成的数据，结果对比：

三、模型结构

所有模型的结构是GPT3风格的Transformer解码器

先在大规模的文本库中使用预测下一个token的形式进行预训练

奖励模型

人类反馈policy模型

前者最大化奖励模型的偏好，后者有两个作用：（1）鼓励模型去探索好的模式，防止单模式崩溃

（2）让模型减少学习和训练时见过的输出相差较大的偏好。

http://www.hkea.cn/news/696368/

相关文章：

怎样找到正规代加工网站百度地图3d实景地图

潍坊网站建设公司网站搭建免费

惠州做网站好的公司下载百度语音导航地图安装

春节网站怎么做小说排行榜百度搜索风云榜

商城服务是什么软件seo是指什么岗位

无锡网站建设有限公司网站快速收录的方法

网站建设通报推广网站多少钱

网络推广公司成都seo排名优化教程

一台手机登录微信网页版西安优化外

如何做旅游攻略网站长沙seo优化推荐

长春火车站电话咨询电话快排seo

龙城建设网站公司网站内容优化方法

南通网站建设搭建网站卖链接

驻马店市做网站seo臻系统

找公司做网站怎么图片都要自己找百度推广官网电话

网站小样用什么做seo外链平台热狗

建站点的步骤sem是什么

深圳专业做网站的衡水网站优化推广

徐汇科技网站建设2345中国最好的网址站

邢台论坛吧百度seo收录软件

做国外服务器网站吗怎么让百度搜索靠前

做动态图网站有哪些自建站怎么推广

web网站开发课程设计报告seo技术培训沈阳

会宁网站建设公司网站优化助手

网站设计制作体会2023年5月最新疫情

月亮湾设计有限公司网站南宁seo产品优化服务

福田欧曼服务站电话上海高端seo公司

高端网站建设哪家好谷歌seo和百度seo

前端写一个页面多少钱海口网站关键词优化

浦东新区建设局官方网站东莞seo关键词