做金融必看网站,建设工程安全信息网,健康咨询类网站模板,马蹄室内设计论坛arxiv: https://arxiv.org/abs/2305.14992
问题背景#xff1a;当前LLM推理受到几个关键因素的限制#xff1a;
#xff08;1#xff09;LLM缺乏世界模型#xff08;一种人类就有的对环境的心理表征#xff0c;可以模拟行动以及活动对外部世界状态的影响#xff09;去…arxiv: https://arxiv.org/abs/2305.14992
问题背景当前LLM推理受到几个关键因素的限制
1LLM缺乏世界模型一种人类就有的对环境的心理表征可以模拟行动以及活动对外部世界状态的影响去预测世界状态和模拟执行动作产生的长期结果影响从而导致规划能力和执行动作能力不足。
2缺乏奖励机制来评估和引导推理走向理想状态。
3无法平衡探索未访问过的节点与利用访问过的节点从而无法有效地探索广阔的推理空间。
本文方法概述提出RAPResoning via Planning框架让LLM能够以接近人类意识规划的方式进行推理。RAP通过世界模型增强LLM并通过有指导准则的规划进行推理让后续产生有高奖励值的推理路径。
本文方法框架
语言模型作为世界模型
用自然语言在prompt中定义状态和动作。根据定义的状态和动作将推理过程描述为马尔可夫过程MDP。
奖励设计
动作的log概率作为奖励。采样多次世界模型的答案使用生成最多的答案比例作为置信度。根据当前状态下得到的置信度会作为奖励。让LLM自己去评估结果。LLM识别推理错误要比避免在生成中产生错误更容易根据特定任务可以启发式的插入就爱你老公i函数。
采用蒙特卡洛树搜索进行规划
MCTS迭代式的构建了一颗搜索树节点代表状态边代表活动和在当前状态下应用动作生成下一个状态的过渡。选择 使用上限置信界限UCT去选择节点来平衡探索未访问的节点和利用访问过的高价值的节点
其中N(s)是节点s在之前的迭代中被访问的次数c(s,a)是状态s下进行动作a的子节点。之前访问的子节点越少即该子节点的不确定性越高方程中第二项就越高。权重w控制着探索和里用的平衡。当w为0时退化为贪心搜索方式。当w不为0时若某一条路径经常被选择 会逐渐减小未来会产生的收益增益让LLM对探索较少的路径进行探索。
扩展 当节点不为终端节点的时候将根据叶结点的状态使用LLM对d个可能的动作进行采样然后使用LLM预测各自的下一个状态从而产生新的子节点直至达到叶子结点为止。反向传播 当达到叶结点时候进行反向传播。构架完成进行推理 达到预订MCTS的迭代次数则终止算法并从构建的树中选择最终的推理轨迹进行评估。选择方式有两种1从根节点开始每次选择Q值最高的动作直到达到终端叶子结点。2从生成高奖励的迭代中选择路径或者选择访问次数最多的叶结点。本文在实践中发现方法二效果更好。路径融合 RAP可以从不同的MCTS迭代中产生多个轨迹和答案这些轨迹和答案将聚合形成最终的答案。但是像规划生成、逻辑推理的问题需要完整的推理轨迹作为输出这一类不会被使用路径融合。
实验情况
实验场景规划生成、数学推理问题、逻辑推理实验设置基座模型Llama-33B、temperature0.8基线方法COT、Least-to-Most、Self-ConsistencySC实验效果 规划生成 采用Blocksworld数据集该数据集主要用于让Agent移动不同颜色的方块达到目标要求。 数学推理 采用GSM8K数据集 逻辑推理 采用PrOntoQA数据集提供一组事实和逻辑规则模型需要基于事实应用逻辑规则来验证事实的真假。