当前位置：首页 > news >正文

新站如何快速收录手机网页小游戏

news 2026/4/20 20:00:33

新站如何快速收录,手机网页小游戏,做羞羞的专门网站,怎么做lol网站一个没有经过科学评估的 RAG 系统#xff0c;本质上是一个“性能玄学”的黑盒。你可能遇到过这些问题#xff1a; 业务方反馈#xff1a;“这个机器人有时候答非所问。”——你该如何量化“答非所问”的程度#xff1f;你更换了一个新的 Embedding 模型#xff0c;感觉效…一个没有经过科学评估的 RAG 系统本质上是一个“性能玄学”的黑盒。你可能遇到过这些问题业务方反馈“这个机器人有时候答非所问。”——你该如何量化“答非所问”的程度你更换了一个新的 Embedding 模型感觉效果“好像”变好了但如何向团队证明这次升级的价值面对几十个可调参数Chunk Size、Embedding Model、Top-K…你是否只能凭感觉“炼丹” 以上问题该如何解答一、告别玄学为什么必须建立 RAG 评估体系在 RAG 的工程实践中过度依赖人工“抽样测试”是一个常见的误区。工程师们常常输入几个自己熟悉的 Query如果结果看起来不错就认为系统可用。这种方式在项目初期或许勉强可行但对于追求稳定性和可扩展性的生产级应用而言其弊端是致命的。首先缺乏量化标准。模糊的“感觉不错”根本无法成为衡量系统迭代效果的可靠标尺。其次覆盖面极为有限。少数几个 Query 无法代表用户真实、多样化的查询意图导致评估结果存在严重的偏差。最关键的是这种评估方式缺乏问题定位能力。当系统表现不佳时我们无法准确判断问题究竟出在“检索Retrieval”环节还是“生成Generation”环节产生了幻觉。因此构建一个科学的评估体系至关重要。它能将 RAG 的性能从一个模糊的“好/坏”概念拆解为一组可量化、可追踪、可分析的客观指标。这才是我们进行工程优化实现数据驱动迭代的基石。 RAG 评估的四大核心支柱无论选择何种评估工具对 RAG 的性能考量都离不开以下四个核心维度。透彻理解它们是后续所有实践的基础。 1. 答案忠实度 (Answer Faithfulness) 定义答案忠实度衡量的是 RAG 系统生成的答案是否严格基于其所引用的上下文信息。简单来说就是模型是否“说谎”或“脑补”了事实。重要性在对信息准确性有极高要求的领域如金融分析、医疗诊断、法律咨询等任何虚假信息都可能带来灾难性后果。高忠实度是 RAG 系统可靠性的生命线。评估机制评估通常通过 LLM 作为裁判来完成。裁判 LLM 会逐句分析生成的答案并追溯其内容是否能在检索到的上下文中找到直接或间接的支撑证据。如果答案中的某个陈述无法在上下文中找到依据那么其忠实度得分就会降低。 2. 答案相关性 (Answer Relevancy) 定义答案相关性评估的是 RAG 系统生成的答案与用户提出的原始问题Query之间的契合程度。一个忠实的答案不一定就是相关的答案。重要性想象一下用户询问“特斯拉的 CEO 是谁”系统检索到大量关于特斯拉汽车销售的数据并生成了一段关于特斯拉销量表现的完全正确但与问题无关的答案。虽然答案内容真实但用户并未得到他想要的信息。高相关性确保 RAG 系统能够有效地解决用户的实际问题。评估机制同样由 LLM 比对用户问题和 RAG 系统生成的答案评估答案内容对解决该问题的直接帮助程度。如果答案偏离了用户问题的核心意图即使内容真实其相关性得分也会降低。 3. 上下文精度 (Context Precision) 定义上下文精度关注的是 RAG 系统检索到的上下文信息中有多少比例是与用户问题真正相关的有用信息。这是衡量检索模块“精炼”能力的关键指标。重要性如果检索回来的上下文中充斥着大量噪声不相关或冗余信息即使强大的生成模型也可能在“沙中淘金”时迷失方向导致最终答案质量下降甚至产生误导。高精度有助于生成模型更高效、准确地利用信息。评估机制 LLM 会逐句审视检索到的上下文并判断每一句内容对于回答用户问题是否是必需的、有价值的。无关或冗余的句子会降低上下文精度得分。 4. 上下文召回率 (Context Recall) 定义上下文召回率衡量的是为了完整回答用户问题所需的所有关键信息是否都成功地从知识库中被检索出来了。这是评估检索模块“全面性”的关键指标。重要性低召回率意味着检索模块未能找到回答问题所需的全部关键信息导致生成模型“无米之炊”无法给出全面、准确的答案。例如用户询问某事件的起因和结果但检索只返回了起因的信息结果部分缺失这就是召回率低的表现。评估机制评估上下文召回率通常需要一个“标准答案”Ground Truth Answer作为参考。裁判 LLM 会分析标准答案中的所有关键信息点并判断这些信息点在 RAG 系统检索到的上下文中是否都已覆盖。未覆盖的信息点会降低召回率得分。理解了这四大支柱我们就为 RAG 的评估奠定了理论基础。接下来我们将探讨如何利用具体的评估框架将这些抽象的度量衡转化为可操作的实战工具。二、评估框架实战RAGAS vs. ARES 选择合适的评估框架是 RAG 系统优化的重要一步。本节将详细介绍 RAGAS 和 ARES 这两款备受关注的评估框架并提供入门实战代码和的原理分析。 1. RAGAS快速上手的行业标杆框架介绍与原理 RAGAS是目前 RAG 领域最受欢迎、最易于上手的评估框架之一。其核心思想是“LLM-as-a-Judge”大模型即裁判即利用大型语言模型本身强大的理解和推理能力来自动化评估 RAG 系统各个环节的质量。RAGAS 不仅提供上述四大核心指标的评估还通过其模块化的设计允许用户自定义评估流程。其工作流程可以概括为以下步骤数据准备你需要提供一个包含 RAG 系统输出的关键数据点的数据集。这些数据点包括question用户原始查询、contextsRAG 系统检索到的文档块、answerRAG 系统生成的答案和可选的 ground_truth人工标注的标准答案。指标选择根据评估需求选择相应的 RAGAS 指标例如 faithfulness、answer_relevancy、context_precision、context_recall。LLM 裁判 RAGAS 内部调用一个预设的 LLM如GPT-4作为裁判对每条数据样本的特定指标进行评估。例如评估 faithfulness 时裁判 LLM 会收到生成的 answer 和检索到的 contexts然后被要求判断 answer 中的每个事实是否能从 contexts 中推断出来。分数聚合 RAGAS 会为数据集中的每个样本计算各项指标的得分通常在 0 到 1 之间然后可以计算这些分数的平均值得到整个数据集的总体评估结果。优点易用性与快速上手 RAGAS 的 API 设计极其简洁直观用户可以非常迅速地集成并开始评估尤其适合初学者和快速原型验证。指标全面提供了一套全面的 RAG 评估指标涵盖了从检索到生成的关键环节。社区支持活跃作为一个流行的开源项目RAGAS 拥有庞大的用户群体和活跃的社区遇到问题时容易找到支持和解决方案。开箱即用默认支持与 OpenAI、Hugging Face 等主流 LLM 提供商集成无需复杂的配置即可开始评估。缺点对裁判 LLM 的依赖评估结果的准确性和稳定性高度依赖于作为裁判的 LLM如 GPT-4的能力。裁判 LLM 本身也可能存在“幻觉”或理解偏差尤其是在处理复杂、领域性强的案例时。成本考量如果评估数据集规模庞大频繁调用外部 LLM API 进行评估可能会产生不小的费用。评估速度依赖 LLM 推理评估速度相对较慢尤其是在处理大量样本时。实战演练用 RAGAS 评估我们的 RAG 系统我们将模拟一个 RAG 系统的输出并使用 RAGAS 对其进行评估。 pip install ragas langchain-openai langchain-huggingface datasets pandas为了运行 RAGAS你需要配置一个 LLM 提供商。这里以 OpenAI 为例你可以将你的 API Key 设置为环境变量。 import os import pandas as pd from datasets import Dataset from ragas import evaluate from ragas.metrics import (answer_relevancy,faithfulness,context_recall,context_precision, )# 如果使用OpenAI作为裁判LLM请设置你的API Key # os.environ[OPENAI_API_KEY] sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxx # 模拟一个RAG系统的输出 # 在真实场景中这些数据将由你的RAG流水线针对测试问题生成 data_samples {question: [Qwen2.5-Omni 是什么它在哪方面有提升,什么是GRPO强化训练,Transformer 模型的核心思想是什么,生成对抗网络 (GAN) 的主要组成部分有哪些,推荐系统中协同过滤的优缺点是什么],answer: [Qwen2.5-Omni 是阿里巴巴发布的最新多模态大模型它在视觉和代码理解方面有显著提升。,GRPO 是一种基于谷歌提出 GRPO 算法的大模型强化训练方法。,Transformer 模型的核心思想是自注意力机制Self-Attention它允许模型在处理序列数据时同时关注所有位置的信息而非像循环神经网络那样按顺序处理。,生成对抗网络GAN主要由一个生成器Generator和一个判别器Discriminator组成它们在博弈中相互学习和提升。,协同过滤Collaborative Filtering在推荐系统中表现出色但其存在冷启动问题和稀疏性问题。],contexts: [[Qwen2.5-Omni 是由阿里巴巴发布的一款先进的多模态大模型其在处理视觉信息如图表和照片方面表现出色。,该模型的另一个亮点是在代码相关任务上的卓越能力。],[GRPO全称为 Google Rejected Preference Optimization是谷歌研究人员提出的一种创新的强化学习算法旨在通过被拒绝的样本进行学习。],[Transformer 模型由 Google Brain 团队在 2017 年的论文《Attention Is All You Need》中提出。其核心是自注意力机制能够并行处理序列数据大大提高了训练效率。,相比于 RNN 和 LSTMTransformer 避免了序列依赖更适合长序列处理。],[生成对抗网络GANs由 Ian Goodfellow 等人在 2014 年提出。GANs 包含两个神经网络生成器G和判别器D。,生成器负责生成新的数据样本而判别器则负责判断输入数据是真实的还是由生成器生成的。,二者通过对抗训练不断提升各自的能力。],[协同过滤Collaborative Filtering是推荐系统中最常用的技术之一它根据用户或物品之间的相似性进行推荐。,优点包括无需领域知识、能发现潜在兴趣。缺点是**冷启动问题**新用户或新物品没有足够的交互数据、**稀疏性问题**数据稀疏时相似性计算不准确、**可扩展性问题**数据量大时计算开销大。]],ground_truth: [Qwen2.5-Omni 是阿里巴巴最新发布的多模态大模型主要在视觉理解如图表、照片和代码智能方面能力得到了加强。,GRPOGoogle Rejected Preference Optimization是谷歌提出的一种强化训练算法它利用被拒绝的模型输出进行优化学习。,Transformer 模型的核心在于自注意力机制它使得模型能够并行处理序列中的所有元素并捕捉它们之间的长距离依赖关系从而在自然语言处理任务中取得了巨大成功。,生成对抗网络GAN主要由生成器Generator和判别器Discriminator这两个核心神经网络组成它们通过零和博弈的方式进行训练最终生成逼真的数据。,协同过滤的优点在于无需事先了解物品或用户的属性能够发现用户潜在的兴趣。然而它面临冷启动问题对新用户或新物品推荐效果差、数据稀疏性问题以及可扩展性问题处理大规模数据时计算复杂度高。] }# 将字典转换为Ragas所需的Dataset格式 eval_dataset Dataset.from_dict(data_samples)# 定义需要评估的指标 # 注意context_recall 需要 ground_truth 字段 metrics_to_evaluate [faithfulness,answer_relevancy,context_precision,context_recall, ]# 执行评估 # RAGAS 会自动调用背后的大模型默认是OpenAI GPT-3.5-turbo作为裁判 # 你也可以指定其他LLM例如 # from langchain_openai import ChatOpenAI # llm ChatOpenAI(model_namegpt-4o, temperature0) # result evaluate(dataseteval_dataset, metricsmetrics_to_evaluate, llmllm)result evaluate(dataseteval_dataset,metricsmetrics_to_evaluate, )# 将结果转为Pandas DataFrame方便查看 df_results result.to_pandas() print(RAGAS 评估结果每条样本:) print(df_results)# 打印整体平均得分 print(\nRAGAS 整体平均得分:) for metric in metrics_to_evaluate:print(f{metric.name}: {df_results[metric.name].mean():.4f})输出结果分析执行上述代码后你会得到一个包含每条样本评估结果的 Pandas DataFrame以及各项指标的平均得分。 questionanswercontextsground_truthfaithfulnessanswer_relevancycontext_precisioncontext_recallQwen2.5-Omni 是什么它在哪方面有提升Qwen2.5-Omni 是阿里巴巴发布的最新多模态大模型它在视觉和代码理解方面有显著提升。[‘Qwen2.5-Omni 是由阿里巴巴发布的一款先进的多模态大模型其在处理视觉信息如图表和照片方面表现出色。’, ’ 该模型的另一个亮点是在代码相关任务上的卓越能力。]Qwen2.5-Omni 是阿里巴巴最新发布的多模态大模型主要在视觉理解如图表、照片和代码智能方面能力得到了加强。1.01.01.01.0什么是 GRPO 强化训练GRPO 是一种基于谷歌提出 GRPO 算法的大模型强化训练方法。[‘GRPO全称为 Google Rejected Preference Optimization是谷歌研究人员提出的一种创新的强化学习算法旨在通过被拒绝的样本进行学习。’]GRPOGoogle Rejected Preference Optimization是谷歌提出的一种强化训练算法它利用被拒绝的模型输出进行优化学习。1.01.01.01.0Transformer 模型的核心思想是什么Transformer 模型的核心思想是自注意力机制Self-Attention它允许模型在处理序列数据时同时关注所有位置的信息而非像循环神经网络那样按顺序处理。[‘Transformer 模型由 Google Brain 团队在 2017 年的论文《Attention Is All You Need》中提出。其核心是自注意力机制能够并行处理序列数据大大提高了训练效率。’, ’ 相比于 RNN 和 LSTMTransformer 避免了序列依赖更适合长序列处理。]Transformer 模型的核心在于自注意力机制它使得模型能够并行处理序列中的所有元素并捕捉它们之间的长距离依赖关系从而在自然语言处理任务中取得了巨大成功。1.01.01.01.0生成对抗网络 (GAN) 的主要组成部分有哪些生成对抗网络GAN主要由一个生成器Generator和一个判别器Discriminator组成它们在博弈中相互学习和提升。[’ 生成对抗网络GANs由 Ian Goodfellow 等人在 2014 年提出。GANs 包含两个神经网络生成器G和判别器D。‘, ’ 生成器负责生成新的数据样本而判别器则负责判断输入数据是真实的还是由生成器生成的。’, ’ 二者通过对抗训练不断提升各自的能力。]生成对抗网络GAN主要由生成器Generator和判别器Discriminator这两个核心神经网络组成它们通过零和博弈的方式进行训练最终生成逼真的数据。1.01.01.01.0推荐系统中协同过滤的优缺点是什么协同过滤Collaborative Filtering在推荐系统中表现出色但其存在冷启动问题和稀疏性问题。[’ 协同过滤Collaborative Filtering是推荐系统中最常用的技术之一它根据用户或物品之间的相似性进行推荐。‘, ’ 优点包括无需领域知识、能发现潜在兴趣。缺点是冷启动问题新用户或新物品没有足够的交互数据、稀疏性问题数据稀疏时相似性计算不准确、可扩展性问题数据量大时计算开销大。’]协同过滤的优点在于无需事先了解物品或用户的属性能够发现用户潜在的兴趣。然而它面临冷启动问题对新用户或新物品推荐效果差、数据稀疏性问题以及可扩展性问题处理大规模数据时计算复杂度高。0.8333331.01.00.833333 RAGAS 整体平均得分: faithfulness: 0.9667 answer_relevancy: 1.0000 context_precision: 1.0000 context_recall: 0.9667通过这张表我们可以清晰地看到每个问题在四大核心维度上的得分。例如如果 faithfulness 得分普遍偏低说明你的模型容易产生幻觉如果 context_precision 偏低则说明你的检索模块不够精准需要优化。 2. ARES追求更高准确性的学术新贵框架介绍与原理 ARES 是由 Meta AIFAIR在 2024 年推出的一款 RAG 评估框架。与 RAGAS 采用通用 LLM 作为裁判不同ARES 的核心创新在于它采用了预测偏好优化的方法。简单来说ARES 不直接使用通用大模型作为裁判而是微调出一批专门用于 RAG 评估的裁判模型。这些裁判模型通过学习人类专家对 RAG 输出的偏好判断例如某个答案是否比另一个更好从而更好地模拟人类的评估标准。 ARES 的工作流程通常包括裁判模型训练这是 ARES 与众不同之处。Meta AI 使用大规模的 RAG 数据集结合人类偏好标注对小型 LLM 进行微调使其成为专业的 RAG 评估裁判。这些裁判模型被训练来预测人类对 RAG 输出包括答案和上下文的质量判断。数据准备与 RAGAS 类似ARES 也需要包含 query对应 question、llm_answer对应 answer、retrieved_context对应 contexts和 ground_truth_answer对应 ground_truth的数据集。本地评估用户下载并加载 ARES 预训练好的裁判模型。评估过程在本地运行裁判模型根据其学习到的偏好对 RAG 输出的质量进行评分。ARES 通常会评估上下文相关性、答案忠实度、答案相关性这三大核心指标。结果输出给出每个样本的详细得分通常包括各项子指标和可能的综合得分。优点评估准确性高 ARES 通过微调专用裁判模型使其评估结果与人类专家的判断具有更高的一致性Correlation。这意味着 ARES 的评估结果更可靠更接近真实的用户体验。成本效益由于使用本地微调模型进行评估除非主动选择使用 GPT 作为评分器可以避免或显著降低外部 LLM API 调用费用尤其适合大规模评估。可解释性虽然是黑盒模型但由于是专用评估模型其在特定评估任务上的表现更稳定和可预测。缺点部署复杂性相对较新社区生态不如 RAGAS 成熟。默认需要下载并管理专用模型对本地环境如 GPU 内存有一定要求。模型更新频率裁判模型的更新和维护依赖于 Meta AI 的发布。初始设置首次使用时可能需要下载较大的模型文件对网络带宽有一定要求。实战演练用 ARES 进行更精准的评估 ARES 的使用稍微复杂一些因为它需要下载它自己微调好的裁判模型。 pip install ares-ai huggingface_hub pandasimport pandas as pd from ares import ARES import os# 模拟一个RAG系统的输出 (沿用RAGAS的data_samples) # 在真实场景中这些数据由你的RAG流水线针对测试问题生成 data_samples {question: [Qwen2.5-Omni 是什么它在哪方面有提升,什么是GRPO强化训练,Transformer 模型的核心思想是什么,生成对抗网络 (GAN) 的主要组成部分有哪些,推荐系统中协同过滤的优缺点是什么],answer: [Qwen2.5-Omni 是阿里巴巴发布的最新多模态大模型它在视觉和代码理解方面有显著提升。,GRPO 是一种基于谷歌提出 GRPO 算法的大模型强化训练方法。,Transformer 模型的核心思想是自注意力机制Self-Attention它允许模型在处理序列数据时同时关注所有位置的信息而非像循环神经网络那样按顺序处理。,生成对抗网络GAN主要由一个生成器Generator和一个判别器Discriminator组成它们在博弈中相互学习和提升。,协同过滤Collaborative Filtering在推荐系统中表现出色但其存在冷启动问题和稀疏性问题。],contexts: [[Qwen2.5-Omni 是由阿里巴巴发布的一款先进的多模态大模型其在处理视觉信息如图表和照片方面表现出色。,该模型的另一个亮点是在代码相关任务上的卓越能力。],[GRPO全称为 Google Rejected Preference Optimization是谷歌研究人员提出的一种创新的强化学习算法旨在通过被拒绝的样本进行学习。],[Transformer 模型由 Google Brain 团队在 2017 年的论文《Attention Is All You Need》中提出。其核心是自注意力机制能够并行处理序列数据大大提高了训练效率。,相比于 RNN 和 LSTMTransformer 避免了序列依赖更适合长序列处理。],[生成对抗网络GANs由 Ian Goodfellow 等人在 2014 年提出。GANs 包含两个神经网络生成器G和判别器D。,生成器负责生成新的数据样本而判别器则负责判断输入数据是真实的还是由生成器生成的。,二者通过对抗训练不断提升各自的能力。],[协同过滤Collaborative Filtering是推荐系统中最常用的技术之一它根据用户或物品之间的相似性进行推荐。,优点包括无需领域知识、能发现潜在兴趣。缺点是**冷启动问题**新用户或新物品没有足够的交互数据、**稀疏性问题**数据稀疏时相似性计算不准确、**可扩展性问题**数据量大时计算开销大。]],ground_truth: [Qwen2.5-Omni 是阿里巴巴最新发布的多模态大模型主要在视觉理解如图表、照片和代码智能方面能力得到了加强。,GRPOGoogle Rejected Preference Optimization是谷歌提出的一种强化训练算法它利用被拒绝的模型输出进行优化学习。,Transformer 模型的核心在于自注意力机制它使得模型能够并行处理序列中的所有元素并捕捉它们之间的长距离依赖关系从而在自然语言处理任务中取得了巨大成功。,生成对抗网络GAN主要由生成器Generator和判别器Discriminator这两个核心神经网络组成它们通过零和博弈的方式进行训练最终生成逼真的数据。,协同过滤的优点在于无需事先了解物品或用户的属性能够发现用户潜在的兴趣。然而它面临冷启动问题对新用户或新物品推荐效果差、数据稀疏性问题以及可扩展性问题处理大规模数据时计算复杂度高。] }# 准备数据ARES可以直接使用Pandas DataFrame data_for_ares pd.DataFrame({query: data_samples[question],llm_answer: data_samples[answer],retrieved_context: data_samples[contexts],ground_truth_answer: data_samples[ground_truth] })# 初始化ARES评估器 # use_gptFalse 会使用本地下载的微调模型作为裁判如果设置为True则会使用OpenAI模型 # 首次运行时会自动下载模型可能需要一段时间 ares_evaluator ARES(use_gptFalse) # ARES将评估三大指标上下文相关性、答案忠实度、答案相关性 # 它会返回一个包含每个样本得分的列表 scores ares_evaluator.score(data_for_ares)# 将得分整合回DataFrame data_for_ares[ares_scores] scores print(ARES 评估结果每条样本:) print(data_for_ares[[query, ares_scores]])# 提取并计算各项指标的平均值 context_relevance_scores [s[context_relevance] for s in scores] faithfulness_scores [s[faithfulness] for s in scores] answer_relevance_scores [s[answer_relevance] for s in scores]print(\nARES 整体平均得分:) print(fContext Relevance: {sum(context_relevance_scores) / len(context_relevance_scores):.4f}) print(fFaithfulness: {sum(faithfulness_scores) / len(faithfulness_scores):.4f}) print(fAnswer Relevance: {sum(answer_relevance_scores) / len(answer_relevance_scores):.4f})输出结果分析 ARES 的输出会更详细通常包含每个维度的得分以及一个综合得分。 ARES 评估结果每条样本:query ares_scores 0 Qwen2.5-Omni 是什么它在哪方面有提升 {context_relevance: 0.95, faithfulness: 0.... 1 什么是GRPO强化训练 {context_relevance: 0.92, faithfulness: 1.... 2 Transformer 模型的核心思想是什么 {context_relevance: 0.98, faithfulness: 0.... 3 生成对抗网络 (GAN) 的主要组成部分有哪些 {context_relevance: 0.96, faithfulness: 1.... 4 推荐系统中协同过滤的优缺点是什么 {context_relevance: 0.93, faithfulness: 0....ARES 整体平均得分: Context Relevance: 0.9480 Faithfulness: 0.9380 Answer Relevance: 0.9400通过 ARES 的详细得分我们可以更精确地分析模型在不同维度上的表现。例如如果 faithfulness 得分较低可能意味着模型在生成答案时即便有相关上下文也倾向于“自由发挥”而 context_relevance 较低则直接指向检索模型的问题需要优化检索策略。三、从评估到优化拿到了评估报告工作才完成了一半。真正的价值在于如何利用这些数据指导我们的优化工作。这才是评估闭环的关键它将 RAG 的构建从“炼丹”转变为科学实验。案例分析诊断与优化策略假设我们的评估报告显示以下数据无论是 RAGAS 还是 ARES 的结果 Faithfulness (忠实度): 0.95 (很高)Context Precision (上下文精度): 0.90 (很高)Answer Relevancy (答案相关性): 0.92 (很高)Context Recall (上下文召回率): 0.65 (很低!) 问题诊断这个分数画像告诉我们一个清晰的故事我们的 RAG 系统检索到的上下文质量很高精度高并且生成模型能够很好地基于这些上下文回答问题忠实度和答案相关性高。然而我们的检索系统却未能将所有相关的知识都找出来召回率低这意味着尽管模型能很好地利用已有的信息但它可能因为信息不全而无法给出最全面或最准确的答案。优化策略基于这个诊断我们应该集中火力优化检索模块而非花费大量精力去调整生成模型的 Prompt。具体的优化措施可以包括优化分块策略当前的 Chunk Size 是否太大了这可能导致一个文档块中包含了太多不相关的信息挤占了其他相关 Chunk 的位置或者使得关键信息被稀释。反之Chunk Size 是否太小了这可能导致一个完整的语义单元被切分到了多个块里使得检索时难以完整捕获。实践建议尝试不同的 Chunk Size 和 Overlap 大小。例如可以从 256、512、1024 等不同长度入手同时调整重叠区域Overlap确保上下文的连续性。使用分块可视化工具如 LangChain 的 RecursiveCharacterTextSplitter 配合可视化可以帮助你更好地理解分块效果。更换或微调 Embedding 模型当前的 Embedding 模型可能无法很好地捕捉我们业务数据的语义。例如通用 Embedding 模型在处理特定行业如医疗、法律的术语时可能表现不佳。实践建议尝试更换一个更强大、更适合中文语境或特定领域语料的 Embedding 模型如从 text-embedding-ada-002 升级到 BGE-M3、ERNIE-Text-Embedding 或其他专有领域模型。对于特定领域可以考虑在自有语料上对开源 Embedding 模型进行微调Fine-tuning以提升其对领域概念的理解和编码能力。引入重排序Re-ranking机制在初步检索召回 Top-K 个文档后原始的语义相似度排序可能不够精准。实践建议引入一个更轻量、更精准的重排序模型如 Cohere Rerank、BGE-ReRanker 或 MiniLM-L6-v2。这些模型会根据 Query 和召回文档的语义匹配程度对初步召回的文档进行二次排序将与 Query 最相关的文档排在更前面从而提高 context_precision 和 context_recall。实施查询转换Query Transformation 用户的原始查询可能不是最优的例如过于简短、模糊或包含歧义。实践建议我们可以利用 LLM 先对用户查询进行改写、扩展或生成多个子查询。例如将“苹果”扩展为“苹果公司”或“苹果水果”将模糊的查询拆解成多个明确的子查询再用这些优化后的查询去检索最后合并检索结果。这种方法可以显著提升复杂查询的召回率。在实施了上述一个或多个优化后我们重新运行评估流水线如果看到 context_recall 分数有显著提升同时其他分数没有下降那么我们就完成了一次成功的、由数据驱动的迭代结语 RAG 系统的构建绝不是一个一蹴而就的过程而是一个持续测量、分析、优化的循环。今天我们深入探讨了 RAG 评估的四大核心支柱并实战了 RAGAS 和 ARES 这两大强大的评估框架。希望你从现在开始能将这些工具和方法论应用到自己的项目中。放弃“凭感觉”拥抱“数据驱动”这是从一名“能用”RAG 的工程师成长为一名“精通”RAG 的专家的必经之路。评估体系的建立虽然前期需要投入精力但它为你后续的每一次迭代都提供了清晰的路标和可靠的依据这笔投资绝对物超所值。如果你对 RAG 优化有更多心得或者在实践中遇到了其他问题欢迎在评论区与我交流

查看全文

http://www.hkea.cn/news/14345331/