建设网站网站多少钱,wordpress如何上传主题,上海自主建站模板,房产网站建设接单本文是LLM系列文章#xff0c;针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。 预训练语言模型的校准研究 摘要1 引言2 背景3 评测指标4 PLM是否学会了校准#xff1f;5 现有方法的效果如何#xff1f;6 结论局限性与未来工作 摘要
预…本文是LLM系列文章针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。 预训练语言模型的校准研究 摘要1 引言2 背景3 评测指标4 PLM是否学会了校准5 现有方法的效果如何6 结论局限性与未来工作 摘要
预训练语言模型(plm)可能无法给出预测不确定性的可靠估计。我们仔细研究了这个问题旨在回答两个问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?对于第一个问题我们进行细粒度控制实验研究PLMs在训练过程中校准性能的动态变化。我们考虑六个因素作为控制变量包括数据集难度、可用训练样本、训练步骤、可调参数数量、模型规模和预训练。我们观察到校准性能在六个因素中的一致变化。我们发现无论预测是否正确plm都不会在训练中学会校准这可以通过信心的持续增长来证明。我们强调我们的发现在某种程度上与两个既定结论相矛盾:(a)更大的plm更精确;(b)预训练改进了模型校准。接下来我们研究了现有校准方法在缓解过度置信度问题方面的有效性。除了不可学习的校准方法(如标签平滑)我们改编并扩展了最近提出的两种可学习的方法直接收集数据来训练模型以获得合理的置信度估计。实验结果表明可学习方法显著降低了PLMs对错误预测的置信度。代码可在https://github.com/lifan-yuan/PLMCalibration上获得。
1 引言
2 背景
3 评测指标
4 PLM是否学会了校准
5 现有方法的效果如何
6 结论
我们仔细研究了plm的校准激励我们回答两个核心问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?我们进行了全面的实证研究包括各种决定性因素的分析和具体的校准方法。除了支持现有结论的发现外我们还提供了扩展或矛盾的发现对某些既定结论的论证。
局限性与未来工作
我们在工作中发现了两个需要进一步调查和改进的局限性。首先在我们的工作中只提出了实证结果。对PLMs校准的理论认识仍然缺乏。展望未来我们有动力从特征学习的角度来研究这个问题。从特征学习的角度来看我们看到了将人工智能安全中的几个问题统一起来的巨大潜力包括虚假相关性鲁棒性后门学习和校准。其次在现有标定方法的基础上提出了三种简单的扩展标定方法。在我们的实验中我们评估了现有的校准方法和我们的校准方法的校准性能。我们假设我们有一个大型的验证集可以用作校准任务的训练数据集。在这种理想情况下我们证明了可学习校准方法的有效性。然而在实践中在给定有限的训练样本的情况下我们需要决定如何分配主任务和校准任务的数据。