当前位置: 首页 > news >正文

网站虚拟机可以自己做吗最新新闻

网站虚拟机可以自己做吗,最新新闻,江西省外省建设入库网站,网站模板下载软件Zephyr:Direct Distillation ofLM Alignment IntroductionMethod Introduction dSFT已经被可以提升模型的指令遵循能力的准确性,但是student model 不会超过 teacher model。 作者认为 dSFT虽然可以让模型更好的理解用户意图,但是无法与人类…

Zephyr:Direct Distillation ofLM Alignment

  • Introduction
  • Method

Introduction

dSFT已经被可以提升模型的指令遵循能力的准确性,但是student model 不会超过 teacher model。

作者认为 dSFT虽然可以让模型更好的理解用户意图,但是无法与人类的偏好进行对齐。比如说用dSFT后的模型,对于同一条Instruction回答10次,他可能每次的回答都不一样,能输出真正满足用户偏好(比如说有帮助的、详细的、安全的)回答的概率很低。

在本文中,作者通过对Mistral 7B 在ultraChat dSFT与在ultra Feedback dDPO,可以得到与LLaMA70B-chat类似的性能,如下图。
在这里插入图片描述
但是作者考虑到不同类别数据混合可能会造成性能下降与冗余,没有对安全性进行对齐。

Method

在这里插入图片描述

如上图,一共分为三个部分:dSFT、AIF、dDPO。

Distilled Supervised Fine-Tuning(dSFT) : dSFT实际上与之前的SFT要做的事情是一样的,都是通过老师模型去蒸馏学生的模型的训练数据,给学生模型训练,但是SFT的指代范围更宽泛,作者通过dSFT更精确的描述此过程。

AI Feedback through Preferences(AIF):这个过程一般指人类提供一个额外的偏好信号(如排名)去align LLM。在本文中作者用GPT4去模拟人类的偏好。

具体来说是作者通过UltraFeedback这个数据集通过的prompt作为输入,让现有的模型来response,如Claude、Falcon、LLaMA等模型,这样的话,一个prompt,就对应了不同模型的多个response,然后通过GPT-4对这些prompt打分,取出每个prompt对应的分数最高的prompt,然后随机sample 一个相对来说低分的prompt。
这样就得到了最终的feedback dataset (x, y_w(高分d回答), yl(低分回答))

Distilled Direct Preference Optimization(dDPO)
在这里插入图片描述
相当于加载了两个模型,一个模型不需要计算梯度,然后做了四次 forward /iter
原文:https://arxiv.org/pdf/2310.16944.pdf

http://www.hkea.cn/news/649615/

相关文章:

  • 唐山高端网站建设开发新客户的十大渠道
  • 小地方的旅游网站怎么建设seo教程有什么
  • 做网站教程宁波百度seo点击软件
  • asp.net个人网站北京专门做seo
  • 石家庄java开发做网站百度资源站长平台
  • 有哪些网站系统网络营销首先要进行
  • 网站建设硬件设置竞价广告是怎么推广的
  • 网站的平面设计图用ps做国外搜索引擎大全百鸣
  • 深圳专业企业网站建设前端培训
  • 南京平台公司seo搜索培训
  • 横沥网站建设武汉百度百科
  • 百度给做网站公司线上运营的5个步骤
  • 盘锦网站建设公司网络营销策略包括哪些
  • 简述电子商务网站开发的基本原则一站式网络营销
  • 商丘网站网络推广员的工作内容和步骤
  • 取消wordpress邮箱认证北京搜索优化排名公司
  • 千库网素材南宁seo优势
  • 西安机场商务宾馆百度做网站怎么在百度上做网站
  • ps网站建设seo网络公司
  • 网站建设步骤 教 程网站怎么做谷歌推广
  • 网站制作需要注意什么潍坊做网站哪家好
  • 专门做团购的网站有哪些色盲图
  • 百度做网站续费费用百度营业执照怎么办理
  • 深圳网站建设方维网络企业网站制作要求
  • 制作好网站黑帽seo教程
  • 云南 网站建设网站seo优化对网店的推广的作用为
  • 网站建设免费国外舆情服务公司
  • 怎么做网站banner查排名网站
  • 做网站好看的背景图片相关搜索优化软件
  • 怎么查网站是哪家制作公司做的百度收录查询