php学校网站建设,php怎么做网站教程,深圳企业股权优化,中国建设劳动学会官方网站诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文名称#xff1a;LaMDA: Language Models for Dialog Applications ArXiv网址#xff1a;https://arxiv.org/abs/2201.08239
本文介绍谷歌提出的对话大模型LaMDA#xff0c;主要关注对各项指标#x…诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类
论文名称LaMDA: Language Models for Dialog Applications ArXiv网址https://arxiv.org/abs/2201.08239
本文介绍谷歌提出的对话大模型LaMDA主要关注对各项指标包括对话质量、安全性等的优化。 因为我自己不是做对话的所以很多对话子领域特有的内容我就不写了。
在研究中发现扩大模型能提高对话质量但不能提高安全性和factual grounding大概就是找出理论依据、减少幻觉这种任务本文通过在标注数据上微调和引入外部知识源来解决这两个问题。 对话质量sensibleness, specificity, and interestingness 安全性不提供有害建议和偏见等。用有标数据构建分类器。从网络搜集外部知识可能会降低安全性本文用的是已知资料微调能增强安全性 引入外部知识源提高factual grounding信息检索翻译器计算器等。指标Informativeness携带外部信息的比例Citation accuracy引用正确超链接的比例
LaMDA方法对对话质量和安全性指标都能实现提升
application-specific helpfulness (i.e., useful and correct responses) role consistency (i.e., agent utterances match agent role) 指标Helpfulness and Role consistency
预训练时的数据集Infiniset包括对话数据众包打分和通用语料全是英语。
微调第一步FT quality-safety
通用微调格式context sentinel response损失函数只计算response 示例What’s up? RESPONSE not much.
针对特定指标的格式context sentinel response attribute-name rating损失函数只计算rating 示例What’s up? RESPONSE not much. SENSIBLE 1
指标权重3 * P(sensible) P(specific) P(interesting)
LaMDA的模型架构是Transformer decoder。 解码时采用sample-and-rank策略抽样根据对数似然和长度选择得分最高的座位输出。
The toolset (TS)
微调第二步FT groundedness (LaMDA) context base context base query snippet
调用外部API如信息检索系统 ↑ 图中黄色为模型输入红色为模型输出以TS为标志是否要检索绿色为检索系统输出
微调数据
不同尺寸模型的微调效果PT就是没有经过微调的版本只经过了语言模型预训练
指标结果
微调子机制效果模型分析
LaMDA在领域任务上的效果的实验场景是 用几轮role-specific dialogs开头来引导LaMDA模型进入角色
公平、安全、耗能和碳足迹问题之类的我以后需要参考了再看吧。略。
其他应该考虑的指标 礼貌程度 appropriateness 人格化 不同应用对指标有着不同的需求
附录还有很详细的安全问题定义与分类、标注人员的信息和标注方法