响应式网站建设新闻,wordpress 数据库 缓存6,图片免费素材网,做游戏网站公司本文是LLM系列文章#xff0c;针对《In-Context Retrieval-Augmented Language Models》的翻译。 上下文检索增强语言模型 摘要1 引言2 相关工作3 我们的框架4 实验细节5 具有现成检索器的上下文RALM的有效性6 用面向LM的重新排序改进上下文RALM7 用于开放域问答的上下文RALM…本文是LLM系列文章针对《In-Context Retrieval-Augmented Language Models》的翻译。 上下文检索增强语言模型 摘要1 引言2 相关工作3 我们的框架4 实验细节5 具有现成检索器的上下文RALM的有效性6 用面向LM的重新排序改进上下文RALM7 用于开放域问答的上下文RALM8 讨论 摘要
检索增强语言建模RALM方法在生成过程中对基础语料库中的相关文档设置语言模型LM可以显著提高语言建模性能。此外它们可以缓解事实上不准确的文本生成问题并提供自然的来源归因机制。现有的RALM方法侧重于修改LM体系结构以促进外部信息的合并从而使部署显著复杂化。本文考虑了一个简单的替代方案我们称之为上下文RALM保持LM架构不变并为输入准备基础文档而不需要对LM进行任何进一步的训练。我们发现建立在现成的通用检索器上的上下文RALM在模型大小和不同的语料库中提供了惊人的大LM增益。我们还证明了文档检索和排序机制可以专门用于RALM设置以进一步提高性能。我们得出的结论是In-Context RALM在增加LM基准的流行率方面具有相当大的潜力特别是在必须在不修改甚至通过API访问的情况下使用预训练的LM的情况下。
1 引言
2 相关工作
3 我们的框架
4 实验细节
5 具有现成检索器的上下文RALM的有效性
6 用面向LM的重新排序改进上下文RALM
7 用于开放域问答的上下文RALM
8 讨论
从外部来源检索已成为知识密集型任务中的一种常见做法如事实问答、事实核查等。与此同时LM生成能力的最新突破使LM能够生成有用的长文本。然而事实上的不准确仍然是机器生成的文本可能达不到要求的常见方式而且缺乏直接出处使人们很难信任机器生成的文字。这使得语言建模成为知识基础的一个有前途和紧迫的新应用领域并推动了RALM方法的推广。当然先前的研究已经对RALM进行了研究但尚未广泛部署。一个可能的原因是现有的方法依赖于对LM的微调这通常是困难和昂贵的并且对于仅通过API访问的LM来说甚至是不可能的。 本文提出了InContext RALM的框架使冻结的现成LMs能够从检索中受益。我们证明了使用通用检索器可以获得显著的性能增益并表明通过根据LM设置调整文档选择可以获得额外的增益。Muhlgay等人最近的一项工作2023表明上下文RALM确实能够提高大型LMs的真实性。 今后的工作还有几个需要进一步改进的方向。首先本文只考虑将单个外部文件置于上下文中的情况增加更多的文档可以推动进一步的收益例如使用Ratner等人的框架。其次我们每隔一个固定的 s s s个token间隔就检索文档但通过更稀疏的检索例如只有在专门的模型预测需要检索时我们才看到了巨大的延迟和成本收益的潜力。 我们发布了这项工作中使用的代码供社区使用和改进。我们希望它能推动对RALM的进一步研究从而使其得到更广泛的采用。