企业手机端网站源码,wordpress 互动性,八年级信息技术怎么制作网站,app开发公司叫什么引言#xff1a; 本文深入研究一种名为缓存增强生成#xff08;CAG#xff09;的新技术如何工作并减少/消除检索增强生成#xff08;RAG#xff09;弱点和瓶颈。
LLMs 可以根据输入给他的信息给出对应的输出#xff0c;但是这样的工作方式很快就不能满足应用的需要:
因…引言 本文深入研究一种名为缓存增强生成CAG的新技术如何工作并减少/消除检索增强生成RAG弱点和瓶颈。
LLMs 可以根据输入给他的信息给出对应的输出但是这样的工作方式很快就不能满足应用的需要:
因为很多时候回答问题要么知识不足让我回答的问题会有错误, 而且很多时候回答问题的信息需要及时更新的但是大模型的训练却不能进行同步。
为了确保LLMs能够使用最新信息来回答查询以下技术被广泛使用 模型微调 低秩适应LoRA 微调 检索增强生成RAG
最近研究人员刚刚发布了一种新的技术一种名为缓存增强生成CAG的新技术可以减少对RAG因此也减少了它的所有缺点的需求。CAG通过将所有相关知识预先加载到LLM的扩展上下文中而不是从知识存储中检索它并在推理时使用这些知识来回答查询它的效果令人惊讶: 当与长上下文LLMs一起使用时结果表明这种技术在多个基准测试中要么优于RAG要么可以作为RAG的有效补充。通过下文我们深入了解缓存增强生成CAG的工作原理以及与RAG相比的表现。
一什么是缓存增强生成CAG 1技术概述
缓存增强生成Cache-Augmented Generation, CAG是一种新兴的技术旨在通过预加载和缓存相关知识提高大型语言模型LLMs的生成效率和响应速度。与传统的检索增强生成Retrieval-Augmented Generation, RAG相比CAG 通过将所有相关知识预先加载到模型的上下文窗口中并缓存其运行时参数从而在推理时直接生成响应无需实时检索。 2工作执行原理
CAG 的核心在于两个主要组件缓存和生成模型。缓存存储了在之前交互或计算过程中生成的文本片段或知识这些存储的信息随后用于指导下一步的生成从而加快生成过程并提高相关性。
具体步骤如下 缓存构建在模型生成文本时关键信息如常用短语、学习到的事实或上下文被存储在缓存中。这可以在不同级别进行无论是单词级别、句子级别还是更抽象的语义级别。 缓存查找当模型被要求生成新文本时它首先检查缓存以查找相关的信息。如果找到匹配项模型会检索并将其纳入新生成的内容中减少从头开始计算的需求。 缓存更新随着时间的推移模型生成更多文本时缓存会用新的有用信息进行更新保持其新鲜感和相关性。 3RAG技术原理简介
它是一种知识整合和信息检索技术允许LLM使用特定于用例的私有数据集来产生更准确和最新的响应。 RAG中的技术过程如下 检索从知识库/特定私有数据集中 检索 相关信息/文档的过程。 增强检索到的信息 添加 到输入上下文的过程。 生成LLM基于原始查询和增强上下文 生成 响应的过程。
RAG-RAG的全称是Retrieval-Augmented Generation-检索增强生成 但RAG并不是一种完美的技术, 它也有非常多的缺点。
•检索延迟在推断过程中从外部知识库获取信息需要时间, 基本上相当于传统搜索引擎需要的时间, 当然一般情况下还是可以忍受。
•检索错误由于检索过程中选择了不相关和不完整的文档可能会导致不准确或不相关的响应, 这就很依赖搜索引擎剧部分的效果。
•知识碎片化不当的分块和不正确的排名可能导致检索到的文档不连贯且缺乏连贯性。所以很多时候在做RAG的时候如何去分辨如何提前对新型信息进行预处理就非常重要。
•复杂性增加构建RAG流程需要额外复杂的基础设施并涉及大量的维护和更新开销。 对其实要做好RAG其实跟做好一个受损性是比较类似的开销都是比较大的。
二CAG和RAG的表现和优势: 1:用于评估 CAG 性能的考虑了两个问答 Benchmark 斯坦福问答数据集SQuAD1.0由众包工作者在一组维基百科文章上提出的 100,000 个问题组成。每个问题的答案是相应阅读段落中的文本片段。 HotPotQA由 113,000 个基于维基百科的问题-答案对组成需要跨多个文档进行多跳推理。
从每个数据集中创建了三个测试集其中参考文本的长度不同增加参考文本的长度会使检索更具挑战性。 研究者使用 Llama 3.1 8-B Instruction model上下文长度为 128k 个标记来测试 RAG 和 CAG。
2CAG 真的能够替代RAG吗?
令人惊讶的是结果显示CAG 的表现优于稀疏BM25和密集OpenAI Indexes的 RAG 系统在大多数评估中获得了最高的 BERT-Score。 此外CAG 大大减少了生成时间特别是随着参考文本长度的增加。
对于最大的 HotpotQA 测试数据集CAG 比 RAG 快约40.5 倍。这是一个巨大的提升 CAG 看起来是一个非常有前途的方法可以确保在未来 LLM 的上下文长度进一步增加时从中检索到最新的信息独立使用或与 RAG 结合。
总结
1: CAG 的优势
低延迟无需实时检索数据从而加快推理速度。简化设计无需向量数据库或嵌入模型降低了系统复杂性。高吞吐量对于同一数据集上的重复任务效率更高。
2: CAG 的局限性
知识大小有限CAG 要求整个知识源必须能够适应模型的上下文窗口因此对于涉及极其大数据集的任务不太适用。上下文长度限制LLMs 的性能可能会随着上下文长度的增加而下降。
3: CAG 的应用场景
企业文档助手静态数据集如员工手册和用户手册。医疗知识检索医疗指南或治疗协议。法律文件摘要预加载合同和法律简报以进行快速分析。在线学习平台预加载静态课程内容以进行动态查询。
4:CAG 的未来展望
随着上下文窗口限制的增加例如 1M 个标记CAG 将变得更加可扩展。此外结合 CAG 和 RAG 的混合架构将平衡静态和动态数据需求而优化的标记管理将更有效地处理大型数据集。
5:结论
缓存增强生成CAG并不是检索增强生成RAG的通用替代品但在具有有界数据集、低延迟要求和静态知识库的场景中表现出色。