当前位置：首页 > news >正文

营销网站制作信ls15227无锡网站建设推广服务

news 2026/5/4 11:20:18

营销网站制作信ls15227,无锡网站建设推广服务,wordpress论坛上传下载插件,高端自适应网站【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】 P1#xff0c;P2#xff0c;P3 附录 A SELF-RAG 细节 A.1 反思标记#xff08;reflection tokens#xff09; 反思标记的定义下面我们提供了反思标记类型和输出标记的详细定义。前三个方面将在每个片段#xf… 【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】 P1P2P3 附录 A SELF-RAG 细节 A.1 反思标记reflection tokens 反思标记的定义下面我们提供了反思标记类型和输出标记的详细定义。前三个方面将在每个片段segment 级别提供而最后一个方面仅在每个输出级别提供。按需检索Retrieve给定一个输入和前一步生成如果适用语言模型LM判断后续生成是否需要事实基础。No 表示不需要检索因为序列不需要事实基础或者无法通过知识检索来增强Yes 表示需要检索。我们还增加了 continue to use evidence表明模型可以继续使用之前检索到的证据。例如一个段落passage 可能包含丰富的事实信息SELF-RAG 会基于该段落生成多个片段。相关性IsRel检索到的知识可能并不总是与输入相关。此标记指示证据是否提供了有用的信息Relevant或无关信息Irrelevant。支持性IsSup归因的概念是指输出是否完全得到了特定证据的支持Menick et al., 2022; Bohnet et al., 2022。此标记判断输出中的信息在多大程度上得到了证据的支持。我们将归因评估分为三种等级完全支持、部分支持和无支持/相反参考 Yue et al. (2023); Nakano et al. (2021)。有用性IsUse按照 Liu et al. (2023a) 的定义我们将感知效用定义为回答是否对查询有帮助且信息丰富独立于其是否事实正确。此标记也可以被视为可行性Menick et al., 2022。对于有用性我们使用五分制评估1 为最低5 为最高。基于 GPT-4 的数据收集细节我们使用第 D 节中列出的指令和示范对 GPT-4 进行提示。根据官方建议我们用 “###” 分离指令和输出。我们将温度设置为 1知识蒸馏的温度将最大输出 token 设置为 200。我们丢弃了不符合预期类别名称或输出格式的实例。最终我们收集了 1,2594 个 Retrieve 实例11,181 个 IsSup 实例19,317 个相关性实例以及 3,831 个效用实例。对 GPT-4 预测的手动分析本文作者随机抽样每个方面的 20 个实例并检查 GPT-4 的预测是否与他们对相同指令、示范和测试实例的评估一致。我们发现评估结果与 GPT-4 预测高度一致尤其是在相关性95%、检索必要性95%和支持度90%方面。由于 1-2 分与 4-5 分的差异有用性方面的同意率略低80%。 A.2 SELF-RAG 训练训练概述算法 2 提供了我们训练的高级概述。种子数据集的完整列表为了获取多样化的输入-输出对我们从 Open-Instruct 数据集Wang et al., 2023中采样实例。特别是我们使用了其中的 ShareGPT、GPT-4 Alpaca、Alpaca、OpenAssistant 和 FLAN 子集。我们还从多个知识密集型数据集包括 Natural QuestionsKwiatkowski et al., 2019、Wizard of WikipediaDinan et al., 2019和来自 KILT 基准Petroni et al., 2021的 FEVERThorne et al., 2018中采样实例以及 ASQAStelmakh et al., 2022和多个问答数据集包括 ARC-Easy 和 OpenBookQAMihaylov et al., 2018。表 3 显示了训练实例的完整列表总共使用了 145,619 个实例。批判模型 C C C 的表现我们通过将 GPT-4 生成的反馈划分为训练集、开发集和测试集来评估奖励预测的准确性。奖励模型即批判模型 C C C 的准确性如表 5 所示。正如您所见我们微调后的奖励模型整体上与 GPT-4 预测的反馈高度匹配。虽然我们的最终模型使用 Llama2-7B 作为基础语言模型我们也在相同数据上训练并比较了 FLAN-3BWei et al., 2022模型以研究不同模型参数大小对最终奖励预测效果的影响。在大多数方面我们的奖励模型的准确率超过了 80%表明微调的专门语言模型在文本评估方面具有强大的能力。虽然两个模型在 ISUSE 上的表现相对较低这是因为两个模型通常在最高的两个评分5 和 4之间存在混淆甚至人类标注者也可能对其有不同意见。生成器模型 M M M 数据创建的细节这里我们提供了详细的数据创建过程。算法 3 概括了该过程。为了简化我们将 y t y_t yt 设为 y y y。一旦我们训练好了批判模型我们首先在前述数据集的输入数据上运行它以预测是否需要检索。对于批判模型预测为 Retrieve No 的实例我们仅根据输入和输出预测 ISUSE。对于批判模型预测为 Retrieve Yes 的实例我们首先使用输入和整个输出作为查询检索相关段落以找到与整个输出相关的段落。然后我们使用 Spacy 工具将输出句子拆分。对于每个句子我们运行批判模型 C C C 来预测在给定输入、前序片段和最初检索到的段落的情况下是否需要检索。如果 C C C 预测 Retrieve No则在第 t t t 个片段处不插入任何段落。如果 C C C 预测 Retrieve Yes则我们使用原始输入和第 t t t 个片段作为检索查询以找到与第 t t t 个片段相关的段落。对于每个检索到的段落我们预测 ISREL 和 ISSUP。如果有任何段落和延续满足 ISREL Relevant 且 ISSUP Fully Supported 或 ISSUP Partially Supported 的条件则我们将其作为延续进行采样。如果有多个段落满足该标准我们选择检索分数最高的段落。如果只有 ISREL Irrelevant 或 ISSUP No Support 的段落我们会随机采样一个段落。训练示例表 4 展示了用于 M M M 模型训练的几个训练示例。算法2的解读算法 2 主要描述了 SELF-RAG 的训练过程分为两个阶段批判模型 C C C 的训练和生成器模型 M M M 的训练。以下是对算法 2 关键步骤的解释 1. 初始化输入数据和模型步骤 1输入数据 D { X , Y } D \{X, Y\} D{X,Y}包含输入 X X X 和输出 Y Y Y 的配对同时引入生成器模型 M M M、批判模型 C C C 和优化器 θ \theta θ。步骤 2使用预训练语言模型来初始化批判模型 C C C。这意味着批判模型在微调之前已经拥有一定的语言理解和生成能力。 2. 训练批判模型 C C C 步骤 3从数据集中采样一组输入-输出配对 { X sample , Y sample } \{X_{\text{sample}}, Y_{\text{sample}}\} {Xsample,Ysample}这保证训练的数据多样性。步骤 4-6对于每对输入 ( x , y ) (x, y) (x,y)提示 GPT-4 生成相应的反思标记 r r r例如是否需要检索、段落是否相关等然后将生成的 ( x , y , r ) (x, y, r) (x,y,r) 添加到批判模型的数据集中 D critic D_{\text{critic}} Dcritic。步骤 7根据收集到的数据使用下一个标记预测损失来更新批判模型 C C C通过最大化生成的反思标记的对数似然来优化模型。 3. 训练生成器模型 M M M 步骤 8使用预训练语言模型来初始化生成器模型 M M M。步骤 9-11对于输入数据中的每一对 ( x , y ) (x, y) (x,y)运行批判模型 C C C 来预测反思标记 r r r并将生成的 ( x , y , r ) (x, y, r) (x,y,r) 添加到生成器模型的数据集中 D gen D_{\text{gen}} Dgen。此过程为生成器模型提供了丰富的监督数据。步骤 12使用生成器模型 M M M 上的下一个标记预测损失来进行优化。通过最大化生成器模型生成的文本和反思标记的对数似然来更新模型。表3 生成器 M M M 的训练数据统计。图5 使用 GPT-4 的预测作为真实值的批判模型奖励模型的预测准确率。算法3 生成器训练数据的创建过程 A.3 SELF-RAG 推理束搜索评分计算的细节我们首先通过计算期望标记的归一化概率来为每种批判类型计算评分。对于 IsRel评分的计算公式如下 s ( IsRel ) p ( IsRel Relevant ) p ( IsRel Relevant ) p ( IsRel Irrelevant ) s(\text{IsRel}) \frac{p(\text{IsRel} \text{Relevant})}{p(\text{IsRel} \text{Relevant}) p(\text{IsRel} \text{Irrelevant})} s(IsRel)p(IsRelRelevant)p(IsRelIrrelevant)p(IsRelRelevant)对于 IsSup评分的计算公式如下 s ( IsSup ) p ( IsSup Fully ) 0.5 × p ( IsSup Partially ) S s(\text{IsSup}) \frac{p(\text{IsSup} \text{Fully}) 0.5 \times p(\text{IsSup} \text{Partially})}{S} s(IsSup)Sp(IsSupFully)0.5×p(IsSupPartially) 其中 S ∑ t ∈ { Fully, Partially, No } p ( IsSup t ) S \sum_{t \in \{\text{Fully, Partially, No}\}} p(\text{IsSup} t) S∑t∈{Fully, Partially, No}p(IsSupt)。对于 IsUse我们有一个五级评分系统。我们将权重分配给 IsUse 标记的五个可能值权重 w { − 1 , − 0.5 , 0 , 0.5 , 1 } w \{-1, -0.5, 0, 0.5, 1\} w{−1,−0.5,0,0.5,1}评分的计算公式如下 s ( IsUse ) ∑ i w i p ( IsUse i ) S s(\text{IsUse}) \sum_i w_i \frac{p(\text{IsUse} i)}{S} s(IsUse)i∑wiSp(IsUsei) 其中 S ∑ t ∈ { 1 , 2 , 3 , 4 , 5 } p ( IsUse t ) S \sum_{t \in \{1, 2, 3, 4, 5\}} p(\text{IsUse} t) S∑t∈{1,2,3,4,5}p(IsUset)。自适应检索的细节对于基于软约束的检索当满足以下条件时触发检索 p ( Retrieve Yes ) p ( Retrieve Yes ) p ( Retrieve No ) δ \frac{p(\text{Retrieve} \text{Yes})}{p(\text{Retrieve} \text{Yes}) p(\text{Retrieve} \text{No})} \delta p(RetrieveYes)p(RetrieveNo)p(RetrieveYes)δ B 实验细节 B.1 训练的更多细节更多训练和计算的细节我们使用 4 块 Nvidia A10080GB 内存来训练模型。所有模型均训练 3 轮批大小为 128峰值学习率为 2 × 1 0 − 5 2 \times 10^{-5} 2×10−5预热步数为 3%之后进行线性衰减。由于内存限制我们将 7B 模型的最大 token 长度设置为 2,048将 13B 模型的最大 token 长度设置为 1,524。我们使用 Deepspeed 第三阶段Rajbhandari et al., 2020进行多 GPU 分布式训练启用了 Bfloat16 精度。为了提高长上下文训练的效率使用了 FlashAttentionDao et al., 2022。我们在推理时使用 1-2 块 Quadro RTX 6000 GPU24GB 内存来运行训练好的模型。 B.2 评估的更多细节检索设置的细节默认情况下我们使用 Contriever-MS MARCO 从维基百科中检索前五个文档并使用基于 2018 年维基百科的官方嵌入。对于 PopQA问题和答案对基于 WikiData 的 2022 数据创建但我们发现 2018 年维基百科有时缺少一些较新实体的条目因此我们使用了 Izacard et al. (2022b) 提供的 2020 年 12 月预处理后的维基百科语料库并生成了文档嵌入。之前的研究报告了不同维基百科数据集之间性能差异的问题Asai et al., 2020; Izacard et al., 2022b。然而我们发现针对开放域生成任务如指令遵循任务这些离线检索模型主要训练在知识密集型任务上的有效性有限。最近的工作Asai et al., 2023b研究了检索系统的指令微调或者检索与语言模型的联合训练Lin et al., 2023。对于传记生成任务和开放域问答任务我们还检索了来自英文维基百科的 5 个文档这些文档使用 Google 可编程搜索找到。由于该 API 仅提供片段我们检索了相关实体的维基百科介绍段落。针对各个数据集的详细实验设置对于 OpenQA 数据集我们将最大 token 数限制为 100。对于封闭集任务PubHealth 和 ARC-C我们将最大 token 数限制为 50。对于 SELF-RAG 在 PubHealth 和 ARC-C 上的推理我们通过汇总每个选项的分数来确定最佳选项而不是选择分数最高的单个选项。我们发现在零样本事实检查任务中一些语言模型可能生成大写类别标签例如 True而 gold 标签则是小写的。因此在事实检查任务中我们将模型生成的标签转换为小写。对于多项选择任务我们发现某些模型生成的答案与 gold label 存在轻微格式差异例如生成 (A) 而不是 A 。我们对每个 LLM 的输出进行轻微的格式修改进一步执行严格的字符串匹配确保候选答案与模型预测匹配尽管少量的格式问题仍然存在。处理之后在封闭集任务中模型预测几乎在所有情况下都与 gold 类别匹配。对于 ALCE我们发现 Llama2-chat 生成的输出明显比其他模型更长例如平均输出接近 100 个 token而 ChatGPT 的平均输出为 40 个 token导致 str-em 分数虚高。为避免这一问题我们将所有基线模型的最大生成长度限制为 100 个 token而不是 ALCE 论文中原来的 300 个 token。因此所有基线模型的输出长度都在 30-60 个 token 之间。对于 FactScore我们将基线模型的每个片段最大新 token 长度设置为 500而 SELF-RAG 则设置为 200。任务特定指令表 5 列出了评估过程中使用的指令。对于开放域问答任务我们不提供显式指令示例。 C 结果 C.1 分析依赖参数化和非参数化记忆。我们对模型的答案来源于检索到的段落非参数化记忆或其自身的参数化记忆的频率进行了分析。做法在两个开放领域的问答数据集 TriviaQA 和 PopQA 上我们进行了以下分析1采样出模型成功正确回答的查询2对于该组中的每个查询检查匹配的真实答案是否为检索到的段落的子串。我们评估了 SELF-RAG 7B、Alpaca 7B、Alpaca 13B 和 Llama2-Chat-13B。结果我们发现 SELF-RAG 很少生成未包含在提供证据中的答案特别是在 Alpaca 30B 中20% 的正确预测未包含在提供的段落中其次是 Llama2-chat 13B18%和 Alpaca15%而在 SELF-RAG 中这一比例仅为 2%。当检索到的段落不相关时SELF-RAG 会生成 ISREL Irrelevant表明接下来的答案可能没有事实依据而这些指令调优的模型则继续生成看似合理的答案。 C.2 人类评估示例表 6 显示了带有 SP支持性与合理性和 ISREL 与 ISSUP 反思标记正确性的人类评估示例。 C.3 质量评估示例表 7 展示了几个由我们的 SELF-RAG13B预测的示例。第一个示例是模型对 ASQA 问题的输出。第一个引用指出康斯坦丁大帝将星期天设为休息日第二个引用进一步支持了康斯坦丁在公元 321 年正式将星期天作为休息日的事实。在第二个示例中模型预测了与第一个输出相矛盾的结果因为输出说这个人自 2010 年以来一直担任 CEO而段落中则说他在 2015 年卸任 CEO。通过将这些事实矛盾标记为反思标记可以轻松实现严格的控制并验证模型的输出。在第三个示例中尽管生成结果大体正确但 SELF-RAG 对列出歌曲名称的语句预测为“部分支持”因为它们并未明确提及。 D 全部指令和示范列表用于 GPT-4 在这里我们展示了用于提示 GPT-4 收集反思标记的指令和示范。表 8 展示了用于初始检索标记的指令和示范。表 9 展示了用于根据给定的指令、前置句子和之前检索到的段落收集三类输出标记的指令和示范。由于示范和测试输入较长我们只使用了一个示范。表 10 展示了用于收集 IsRel 三类输出标记的指令和示范。表 11 展示了用于收集 IsRel 三类输出标记的指令和示范。表 12 展示了用于收集 IsUse 五类输出标记的指令和示范。表4 此表展示了多个训练示例示例1 输入识别两种类型的计算机内存。来自 gpt4 alpaca 输出检索是段落计算机内存——在计算机中内存指的是计算机硬件中的集成电路它用于存储计算机即时使用的信息它与“主存储器”一词同义。计算机内存以高速运作例如随机存取存储器RAM区别于提供较慢访问但容量较大的存储设备。如果需要计算机内存中的内容可以转移到二级存储一种常见的方法是通过称为“虚拟内存”的内存管理技术。内存的古老同义词是“储存”。“内存”这个术语指的是“主存储器”或“主内存”。相关性[ISREL 相关]生成主内存也被称为主存储器是计算机可以直接访问和操控的内存。支持性[ISSUP 完全支持]检索是段落计算机内存——通常与可寻址的半导体内存相关即由基于硅晶体管的集成电路组成用作主存储器还用于计算机和其他数字电子设备中的其他用途。半导体内存主要有两种类型易失性和非易失性。非易失性内存的例子包括闪存用作二级存储器和 ROM、PROM、EPROM、EEPROM用于存储固件如 BIOS。易失性内存的例子包括主存储器通常是动态随机存取存储器DRAM以及快速的 CPU 缓存内存通常是静态随机存取存储器SRAM它速度快但耗能高提供较低的存储容量。相关性[ISREL 相关]生成主内存可以快速访问但它是易失性的这意味着如果断电数据将丢失。支持性[ISSUP 部分支持]效用[ISUSE 5] 示例2 输入举一个你需要委派任务的情况来自 gpt4 alpaca 输出检索否生成经理意识到为了使活动取得成功有一长串任务需要完成。检索是段落委派——委派是将任何责任或权力分配给他人通常是从经理到下属以执行特定的活动。它是管理领导的核心概念之一。然而分派工作的人员仍然对所分派工作的结果负责。委派授权下属做出决策即将决策权从一个组织层级转移到较低的层级。如果正确执行委派并不是捏造。相关性[ISREL 相关]生成这包括创建嘉宾名单、设计和发送邀请函、预定场地、与供应商协调、规划活动议程以及监控预算等任务。支持性[ISSUP 部分支持]检索否生成由于经理无法独自处理所有事情他们必须将任务委派给团队成员。检索否生成经理随后会根据每个团队成员的个人技能和优势分配具体的职责。检索是段落联合应用设计——专业领域专家这些是业务用户、信息系统IS专业人员以及成功工作坊所需的外部专家。这个小组是会议的支柱。相关性[ISREL 不相关]生成例如团队的平面设计师可能负责设计邀请函而活动协调员则负责规划议程并与供应商合作。检索否生成通过委派任务经理可以确保所有必要的任务按时完成同时也能赋予团队成员责任感并促使他们为活动的成功做出贡献。效用[ISUSE 5] 示例3 输入根据提示“夕阳西下”合成一首诗来自 Stanford Alpaca 输出检索否生成星星开始在夜晚的树木间闪烁散落在夜空中检索否生成星星开始在夜晚的树木间闪烁散落在夜空中检索否生成它们像一支静谧的舞蹈宁静的瞬间沉浸在恍惚中检索否生成它们像一支静谧的舞蹈宁静的瞬间沉浸在恍惚中检索否生成蟋蟀的合唱唱起摇篮曲献给在天空中游荡的每一只生灵效用[ISUSE 5] 示例4 输入第七季《行尸走肉》是什么时候播出的来自 NQ 输出检索是段落第七季《行尸走肉》——《行尸走肉》第七季是一部美国后末日恐怖电视剧于2016年10月23日在AMC频道首播并于2017年4月2日结束共包含16集。该系列由弗兰克·达拉邦特改编自罗伯特·柯克曼、托尼·摩尔和查理·阿德拉德的同名漫画书系列。相关性[ISREL 相关]生成2016年10月23日支持性[ISSUP 完全支持]效用[ISUSE 5] 示例5 输入给定一个用新行分隔的聊天记录生成一个内容丰富、有知识性且引人入胜的回复 “你好我喜欢德国牧羊犬你呢”——“它是我最喜欢的狗它们正式的名称是德国牧羊犬”——“是的我家有一只德国牧羊犬她怀孕了。”来自 wow 输出生成它们也很容易训练服从性好且很聪明。检索是段落德国牧羊犬——这是一个简单的观点差异涉及到该犬种的基本结构和运动特征问题。它们以易于训练、适合执行任务和遵循指示而著称。德国牧羊犬尤其因其在警务工作中的出色表现而闻名它们被用于追踪罪犯、巡逻问题区域以及侦查和扣押嫌疑人。相关性[ISREL 相关]生成因此它们经常被用于残疾人辅助和警务工作。支持性[ISSUP 部分支持]效用评分[ISUSE 2] 表5 零样本评估期间使用的完整指令列表数据集指令ARC-C给出四个候选答案A、B、C 和 D选择最佳答案。请仅使用大写字母回答不要添加任何额外的短语或句号。PubHealth以下陈述是否正确如果正确请回答“true”否则请回答“false”。不要使用大写字母或添加句号只需回答“true”或“false”。Bio Generation告诉我关于 [Person Name] 的简历信息。ASQA (baseline)指令使用仅提供的搜索结果其中一些可能不相关为给定的问题撰写准确、吸引人且简洁的答案并正确引用它们。使用公正且新闻化的语气。对于任何事实声明始终进行引用。引用多个搜索结果时使用 [1][2][3]。每个句子至少引用一个文档最多引用三个文档。如果多个文档支持该句子则只引用最小足够子集。ASQA (ours)回答以下问题。问题可能是模棱两可的并且可能有多个正确答案在这种情况下你需要提供一个包含所有正确答案的长篇答案。备注对于开放领域的问答我们不使用任何特定任务的指令而是仅使用原始问题作为输入查询。表6 人类评估的几个示例示例1 输入A Question and Answer Guide to Astronomy 属于什么类型PopQA 输出 [Retrieve Yes] [ ISREL Relevant] 《A Question and Answer Guide to Astronomy》是一本非小说类书籍属于天文学和宇宙学领域。[ ISSUP Fully Supported] [ ISUSE 5] 参考资料 [1]《A Question and Answer Guide to Astronomy》是一本关于天文学和宇宙学的书面向普通读者。该书由 Pierre-Yves Bely、Carol Christian 和 Jean-Rene Roy 撰写并于2010年由剑桥大学出版社出版。原书为法语版内容采用问答格式编写。书中包含约250个问题每个问题都由简明且结构良好的文章进行解答内容既有信息性又通俗易懂。书中涵盖了行星、地球、宇宙、实际天文学等主题还有关于《圣经》、不明飞行物和外星人的历史性问题。该书还讨论了宇宙大爆炸、大数字的理解、以及月球幻觉等科学话题。 SP支持且合理。 ISREL 和 ISSUP 的正确性 ISREL 和 ISSUP 都是正确的因为参考资料[1] 提供了书籍类型的详细信息模型输出完全有参考依据支持。示例2 输入《The Lie》的作者是谁PopQA 输出 [Retrieve Yes] [ ISREL Relevant] 《The Lie》的作者是 Sam Harris。[ ISSUP Fully Supported] [ ISUSE 5] 参考资料 [1]谎言是2011年出版的长篇散文书由美国作家兼神经科学专家 Sam Harris 撰写。Harris 认为通过简单地在某些情况下说实话我们可以彻底改变生活改善社会而其他人则经常撒谎。 SP合理但不支持。 ISREL 和 ISSUP 的正确性ISREL 和 ISSUP 均不正确因为参考资料[1] 是关于另一部名为《The Lie》的书而不是目标书籍。示例3 输入告诉我关于 Ronaldinho 的简历Bio 输出 [Retrieve Yes] [ ISREL Relevant] Ronaldinho 是一名来自巴西的退役职业足球运动员。[ ISSUP Fully Supported][ Retrieve Continue]他担任进攻型中场以其技术能力、创造力、盘带能力和任意球的精准度而闻名。[ ISUSE 5] 他曾两次获得 FIFA 年度最佳球员奖和金球奖。参考资料 [1]Ronaldinho即 Ronaldo de Assis Moreira1980年3月21日出生是一位巴西退役职业足球运动员主要担任进攻型中场但也曾担任边锋。被认为是其时代最伟大的球员之一并且被许多人视为史上最伟大的球员之一。Ronaldinho 曾两次获得 FIFA 年度最佳球员奖和金球奖。他以技术能力、创造力、盘带能力和任意球的精准度闻名尤其擅长各种假动作、脚后跟传球和无看传球等。 SP合理且完全支持。 ISREL 和 ISSUP 的正确性ISREL 和 ISSUP 都是正确的。示例4 输入告诉我关于 Sergei Bodrov 的简历Bio 输出 [Retrieve Yes] [ ISREL Relevant] Sergei Vladimirovich Bodrov1948年6月28日出生是一位俄罗斯电影导演、编剧和制片人。[ ISSUP Fully Supported][ Retrieve Continue]他出生于俄罗斯莫斯科。[ ISUSE 5] 他是俄罗斯电影制片人协会的主席。参考资料 [1]Sergei Vladimirovich Bodrov1948年6月28日出生是一位俄罗斯电影导演、编剧和制片人。2003年他曾担任第25届莫斯科国际电影节评审团主席。 SP合理但仅部分支持。参考资料[1]并未明确提到他出生于莫斯科也没有提到他是俄罗斯电影制片人协会的主席。 ISREL 和 ISSUP 的正确性ISREL 和 ISSUP 都是正确的因为参考文档高度相关且第一句话完全支持。表7 示例1 输入星期天是什么时候成为一周的第七天的来自 ASQA 输出检索是段落参考文献 [1]相关性[ISREL 相关] 在公元 321 年罗马皇帝君士坦丁大帝宣布星期天为休息日声明“在尊贵的太阳日让在城市中居住的官员和人民休息并关闭所有作坊。”支持性[ISSUP 完全支持]检索是段落参考文献 [2]相关性[ISREL 相关] 君士坦丁大帝在公元 321 年正式将星期天作为休息日确立了星期天为一周的第七天。[2]支持性[ISSUP 完全支持]效用[ISUSE 5] 参考文献 [1]君士坦丁皇帝在公元 321 年颁布了第一批星期天法令称“尊贵的太阳日”为休息日。321 年 3 月 7 日罗马皇帝君士坦丁发布了一项法令将星期天设为休息日。我们可以在如《休息日》一书等来源中找到对此的详细描述其中指出早期基督教的第七天安息日和主日聚会的精神性双重观察证据可见于伊格那修斯大约于 110 年写给马格尼西亚人的信件中。参考文献 [2]尽管君士坦丁正式确立了星期天为休息日七天周和九天周期仍至少在 354 年的日历中并行使用甚至可能在更晚的时间继续并行使用。… 教令的颁布本身表明君士坦丁 321 年的法令并未得到普遍采纳… 示例2 输入告诉我关于 Rory Tapner 的简历。传记生成输出段落参考文献 [1]相关性[ISREL 相关] Rory Tapner 是一位英国商人自 2010 年以来一直担任 Coutts 私人银行和财富管理公司的首席执行官。支持性[ISSUP 矛盾]段落参考文献 [2]相关性[ISREL 相关] Rory Tapner 于 1959 年 9 月 30 日出生在英国伦敦。支持性[ISSUP 完全支持] 参考文献 [1]Rory Tapner 是一位英国商人他于 2010 年 9 月被任命为皇家苏格兰银行集团的财富管理部门 Coutts 的首席执行官。在 2015 年 2 月他卸任 CEO由 Alison Rose 接任。参考文献 [2]Rory Tapner 于 1959 年 9 月 30 日出生是一位英国商人自 2016 年 8 月起担任职务并自 2017 年 7 月起担任巴肯汉姆大学委员会成员。示例3 输入告诉我关于 G. Venugopal 的简历。传记生成输出检索是段落参考文献 [1]相关性[ISREL 相关] G. Venugopal 是一位在马拉雅拉姆电影界非常受欢迎的电影播放歌手。检索继续生成他在马拉雅拉姆语、泰米尔语和印地语电影中演唱了超过 300 首歌曲。支持性[ISSUP 部分支持]检索是段落参考文献 [2]相关性[ISREL 相关] G. Venugopal 于 1960 年 12 月 10 日出生于印度。支持性[ISSUP 完全支持] 参考文献 [1]G. Venugopal出生于 1960 年 12 月 10 日是一位印度播放歌手以其在马拉雅拉姆电影中的作品而闻名。他的歌唱生涯始于 1984 年的电影《Odaruthammaava Aalariyaam》。此后他在超过 300 部电影中演唱并拥有超过 500 张个人专辑。他获得的众多奖项包括三次获得最佳播放歌手喀拉拉邦的殊荣影评人奖和两次喀拉拉 Kaumudi Gallop Poll 奖。他在 2004 年凭借电影《Ullam》中的歌曲《aadedee…aadaadedee》第三次获得喀拉拉邦最佳播放歌手奖。参考文献 [2]喀拉拉邦电影奖、喀拉拉电影评论奖、喀拉拉邦政府奖专业戏剧、Asianet 电影奖、喀拉拉 Kaumudi Gallup Poll 奖。G. Venugopal出生于 1960 年 12 月 10 日是一位印度播放歌手以其在马拉雅拉姆电影中的作品而闻名。表8 仅根据输入用于“检索”方面的指令和示范。指令给定一个指令请判断从网络例如维基百科查找一些外部文档是否有助于生成更好的回应。请回答 [Yes] 或 [No]并写下解释。示范指令给出保持健康的三条建议。是否需要检索 [Yes] 解释可能有一些在线资源列出保持健康的三条建议或一些可靠的资源解释不同行为对健康的影响。因此检索文档有助于改进对此查询的回应。指令描述你曾经做过的一个艰难决定。是否需要检索 [No] 解释这个指令询问的是一些个人经验因此不需要检索外部文档。指令写一个关于主角必须做出重要职业决定的第三人称短篇小说。是否需要检索 [No] 解释这个指令要求我们写一个短篇小说且不需要外部证据进行验证。指令法国的首都是哪里是否需要检索 [Yes] 解释虽然该指令只是让我们回答法国的首都一个广为人知的事实但检索网页文档对此问题仍然有帮助。指令给定圆的半径求该圆的面积。半径 4 是否需要检索 [No] 解释这是一个数学问题虽然我们可能找到一些描述公式的文档但很难找到准确提到该答案的文档。指令将给定句子中的单词排列成语法正确的句子。句子为“quickly the brown fox jumped” 是否需要检索 [No] 解释此任务不需要任何外部证据因为这是一个简单的语法问题。指令解释植物细胞呼吸的过程。是否需要检索 [Yes] 解释这个指令要求详细描述一个科学概念并且很可能我们可以找到可靠且有用的文档来支持该回应。表9 根据输入、前置生成和检索段落展示了用于“检索”方面的指令和示范。指令你将获得一个指令、证据之前检索到的段落提供的、输出句子以及前置句子可选。如果给出了前置句子输出句子应当是紧接这些前置句子之后的句子。你的任务是判断输出句子中的信息是否可以通过证据完全验证还是需要进一步的外部验证。这里有三种情况如果输出句子可以仅通过证据进行验证则回答 [Continue to Use Evidence]。如果句子不需要任何事实性验证例如主观句子或关于常识的句子则回答 [No Retrieval]。如果需要额外的信息来验证输出句子则回答 [Retrieval]。请为你的判断提供解释。示范指令解释词嵌入在自然语言处理中的应用。前置句子词嵌入是自然语言处理NLP中最强大的工具之一。它们是单词或短语在向量空间中的数学表示允许衡量单词之间的相似性以及它们所在上下文的相似性。证据词嵌入词嵌入是自然语言处理NLP中一种语言建模和特征学习技术的统称其中词汇中的单词或短语被映射到实数向量。概念上它涉及从每个单词一个维度的空间嵌入到具有较低维度的连续向量空间。输出词嵌入对于情感分析、文本分类、预测序列中的下一个单词以及理解同义词和类比非常有用。评级[Retrieval] 解释输出讨论了词嵌入的应用而证据仅讨论了词嵌入的定义及其工作原理。因此我们需要检索其他证据来验证输出是否正确。表10 仅根据输入展示了用于 IsRel 方面的指令和示范。指令你将获得一个指令、证据以及可能一些前置句子。如果有前置句子你的重点应该放在它们之后的句子上。你的任务是判断证据是否与最初的指令及前置上下文相关并提供有用的信息来完成指令中描述的任务。如果证据满足这一要求则回答 [Relevant]否则生成 [Irrelevant]。示范指令给出四个选项 A、B、C 和 D选择最佳答案。输入地球自转的原因 A昼夜的交替 B火山爆发的形成 C潮汐的周期变化 D重力的形成证据自转导致昼夜交替同时也产生了相应的温度和湿度循环海平面随着地球自转一天两次升降。评级[Relevant] 解释证据明确提到自转导致了昼夜交替正如选项 A 中所描述的。指令参选美国众议院的年龄要求证据宪法规定了参选美国参议院的三个资格年龄至少 30 岁美国公民身份至少 9 年以及在选举时参议员所代表的州的居住资格。评级[Irrelevant] 解释证据仅讨论了参选美国参议院的年龄要求而不是众议院的。表11 展示了用于 IsSup 标记的指令和示范。指令你将收到一个指令、证据、输出句子以及可选的前置句子。如果提供了前置句子输出句子应当是紧接这些前置句子之后的句子。你的任务是评估输出句子是否得到了提供的证据的充分支持。使用以下蕴含尺度生成评分 [Fully supported]输出中的所有信息都得到了证据的支持或者从证据中提取的信息支持了输出。这只适用于输出和部分证据几乎相同的情况。[Partially supported]输出在某种程度上得到了证据的支持但输出中存在一些主要信息未在证据中讨论。例如如果指令涉及两个概念而证据只讨论其中一个则应视为 [Partially supported]。[No support / Contradictory]输出完全忽略了证据与证据无关或与证据相矛盾。如果证据与指令无关也可能发生这种情况。确保不使用任何外部信息或知识来判断输出是否正确或不正确。只需检查输出是否得到了证据的支持不要检查输出是否符合指令。示范指令解释词嵌入在自然语言处理中的应用。前置句子词嵌入是自然语言处理NLP中最强大的工具之一。它们是单词或短语在向量空间中的数学表示允许衡量单词之间的相似性以及它们所在上下文的相似性。输出词嵌入对于情感分析、文本分类、预测序列中的下一个单词以及理解同义词和类比非常有用。证据词嵌入词嵌入是自然语言处理NLP中一种语言建模和特征学习技术的统称其中词汇中的单词或短语被映射到实数向量。概念上它涉及从每个单词一个维度的空间嵌入到具有较低维度的连续向量空间。生成此映射的方法包括神经网络、对单词共现矩阵的降维、概率模型、可解释的知识库方法以及根据单词出现的上下文进行的显式表示。词嵌入和短语嵌入在用作底层输入表示时已被证明能够在 NLP 任务如句法分析、情感分析、下一个单词预测以及类比检测中提升性能。评分 [Fully supported] 解释输出句子讨论了词嵌入的应用而证据提到了句法分析、情感分析、下一个单词预测以及类比检测作为应用。因此评分应为 [Fully supported]。表12 展示了用于 IsUse 标记的指令和示范。指令给定一个指令和输出评估该回应是否对查询有帮助且信息丰富并对其打分评分范围为 1最低至 5最高。我们称此评分为感知效用。评分标准如下 5回应提供了一个完整、非常详细且信息丰富的回答完全满足了信息需求。4回应基本满足了查询中的需求虽然可以进行一些小的改进例如讨论更多的详细信息、改善回应的结构或提高连贯性。3回应是可以接受的但需要一些主要的补充或改进才能满足用户的需求。2回应仍然涉及主要请求但不够完整或与查询不完全相关。1回应几乎没有涉及主题或完全无关。示范指令截至 2023 年现任英国首相是谁输出鲍里斯·约翰逊是 2019 年至 2022 年的英国首相。感知效用2 解释虽然输出提供了一个关于 2019 年至 2022 年英国首相的事实正确的陈述但这个指令询问的是截至 2023 年的首相是谁因此没有回答该指令。因此效用评分为 2。指令给出一个旅行目的地的描述推荐 10 个旅游景点并详细描述每个景点。旅行目的地是日本东京。输出东京是一个充满刺激旅游景点的繁华城市。一些必看的景点包括东京晴空塔、东京迪士尼乐园、浅草寺、明治神宫、筑地市场、原宿和新宿御苑。感知效用3 解释该输出并没有提供每个景点的详细描述且景点数量也少于 10 个。虽然该输出部分回答了指令但并未严格符合指令要求。完结撒花

查看全文

http://www.hkea.cn/news/14527428/