当前位置：首页 > news >正文

商城网站开发报价方案手机建站图片

news 2026/4/17 20:23:44

商城网站开发报价方案,手机建站图片,最好的网站开发平台,wordpress做导航网站文章目录 Agent设计模式Zero shotFew shot应用场景技术特性对比ReAct模式ReAct模式简介ReAct模式举例ReAct模式实现 Plan and Solve模式实现原理 Reason without Observation模式LLMCompiler模式实现原理 Basic ReflectionBasic Reflection原理 Reflexion 模式Reflexion 模式原… 文章目录 Agent设计模式Zero shotFew shot应用场景技术特性对比ReAct模式ReAct模式简介ReAct模式举例ReAct模式实现 Plan and Solve模式实现原理 Reason without Observation模式LLMCompiler模式实现原理 Basic ReflectionBasic Reflection原理 Reflexion 模式Reflexion 模式原理Reflexion框架 Language Agent TreeSearch模式Language Agent TreeSearch原理框架对比 Self-Discover模式Self-Discover推理结构第一阶段-发现推理结构第二阶段-应用推理结构 Agent设计模式 Zero shot 最接近C端大多数人初次体验ChatGPT时的交互模式。在这种Agent模式之下用户的输入问题不增加任何prompt template处理直接被传入了大模型中并将大模型返回结果直接返回给了终端用户。在大多数的终端应用开发场景中这种Agent开发模式都是无法满足需求的 Few shot Few shot模式和PlainPrompt最大的区别在于它开始有prompt template逻辑因为prompt template的存在开发者得以调用大模型的context-learning上下文学习能力。 Few-Shot模式应该是B端开发场景中使用频率最高的一种Agent范式。这种范式中有几个核心组成部分角色描述一句话描述清楚你希望大模型扮演什么样的角色以及需要具备的能力和技能指令任务描述可以是一句话也可以通过提示词引导大模型按照一定的步骤逐步解决问题样例一个完整的任务-解决方案示例或者是入参/出参的格式工程师可以通过大模型的指令遵循能力将原本需要通过复杂规则定义和处理的环节都通过大模型重做一遍提升工作效率。以客服工单分类场景为例Prompt模板设计如下示例1 用户描述付款后订单未显示分类标签支付问题示例2 用户描述APP闪退无法登录分类标签技术故障待分类问题用户描述商品页面图片加载失败分类标签应用场景低资源任务标注数据不足时快速构建分类/生成系统动态场景适配电商促销期间新增限时折扣咨询分类多语言支持通过添加不同语言示例实现跨语种意图识别复杂规则传递金融场景中合规性审查规则的示例化表达技术特性对比维度Few-shot模式Zero-shot模式Fine-tuning模式数据需求5-20样本无样本千级以上标注迭代成本修改Prompt即时生效需调整Prompt逻辑需重新训练模型可解释性通过示例可追溯推理路径依赖模型内部知识黑箱参数更新 ReAct模式 ReAct模式简介 ReAct针对给出的问题先进行思考再根据思考的结果行动然后观察行动的结果如果不满足要求再进行思考、行动直至得到满意的结果为止。采用few-shotin-context学习来生成解决问题的action和thought序列。每个in-context样例是由action、thought、observation构成的行为轨迹在推理占主导地位的应用中我们交替生成thought和action这样完整的行为轨迹就是多个thought-action-observation步骤相反在决策生成任务中涉及大量actionthought只会在行为轨迹中最相关的位置稀疏出现 ReAct模式举例举个例子让孩子帮忙去厨房里拿一瓶酱油告诉ta一步步来COT提示词策略先看看台面上有没有再拉开灶台底下抽屉里看看再打开油烟机左边吊柜里看看在没有ReAct的情况就是不管在第几步找到酱油孩子都会把这几个地方都看看Action 有ReAct的情况是 Action1先看看台面上有没有Observation1:台面上没有酱油执行下一步Action2再拉开灶台底下抽屉里看看Observation2抽屉里有酱油Action3:把酱油拿出来在论文的开头作者也提到人类智能的一项能力即每次执行行动后都有一个自言自语的反思Observation现在做了什么是否已达目的这相当于让Agent能够维持短期记忆。 ReAct模式实现 ReAct流程的三个关键概念 Thought由LLM模型生成是LLM产生行为和依据。可根据LLM的思考来衡量他要采取的行为是否合理。这是一个可用来判断本次决策是否合理的关键依据。相较于人类thought的存在可以让LLM的决策变得更加有可解释性和可信度。ActAct是指LLM判断本次需要执行的具体行为。Act一般由两部分组成行为和对象。编程角度来看就是API名称和对应的入参。LLM模型最大的优势是可以根据Thought的判断选择需要使用的API并生成需要填入API的参数。从而保证了ReAct框架在执行层面的可行性。obsLLM框架对于外界输入的获取。就像LLM的五官将外界的反馈信息同步给LLM模型协助LLM模型进一步的做分析或者决策。一个完整的ReAct的行为包涵以下几个流程输入目标任务的起点。可以是用户的手动输入也可以是依靠触发器比如系统故障报警。LOOPLLM模型开始分析问题需要的步骤Thought按步骤执行Act根据观察到的信息Obs循环执行这个过程。直到判断任务目标达成。Finish任务最终执行成功返回最终结果。 Plan and Solve模式为了解决多步推理的步骤缺失问题提出了Plan-and-Solve(PSprompting方法它由两部分组成首先设计计划计划的目标是将整个任务划分为多个更小的子任务然后根据计划执行子任务。实现原理 Plan and Solve模式更适合先有计划再执行。如果ReAct更适合完成厨房拿酱油的任务那么 Plan and Solve更适合完成“西红柿炒鸡蛋”的任务。Plan and Solve中先计划如果执行过程中不满足条件那么计划可以根据情况进行变化。规划器负责让LLM生成一个多步计划来完成一个大任务。代码中有Planner和和ReplannerPlanner负责第一次生成计划 Replanner是指在完成单个任务后根据目前任务的完成情况进行Replan所以Replanner提示词中除了Zeroshot还会包含目标原有计划和已完成步骤的情况。执行器接受用户查询和规划中的步骤并调用一个或多个工具来完成该任务。 Reason without Observation模式核心思想是将推理Reasoning过程与外部观察Observation分离以此来提高模型的效率和性能。在传统的LLM增强系统中如ReAct模式中。模型的推理过程是与外部工具的调用和观察结果紧密交织在一起的。这种模式虽然简单易用但往往会导致计算复杂性高因为需要多次调用语言模型LLM并重复执行操作这不仅增加了计算成本也增加了执行时间。 REWOO模式通过以下几个步骤来优化这一过程 Planner规划器首先规划接收用户输入的任务并将其分解为一系列的计划(Pns)。每个计划都详细说明了需要使用哪些外部工具以及如何使用这些工具来获取证据或执行特定的动作负责生成一个相互依赖的“链式计划”定义每一步所依赖的上一步的输出。Worker执行器接下来执行器根据规划器提供的计划调用相应的外部工具来执行任务并获取必要的信息或证据循环遍历每个任务并将任务输出分配给相应的变量。当调用后续调用时它还会用变量的结果替换变量。Solver合并器最后合并器将所有计划的执行结果整合起来形成对原始任务的最终解决方案。这种模块化的设计显著减少了令牌消耗和执行时间因为它允许一次性生成完整的工具链而不是在每次迭代中都重复调用LLM 此外由于规划数据不依赖于工具的输出因此可以在不实际调用工具的情况下对模型进行微调进一步简化微调过程。 LLMCompiler模式论文An LLMCompiler for Parallel FunctionCalling github项目实现原理简单来说就是通过并行Function callng来提高效率比如用户提问Scott Derrickson和Ed Wood是否是同一个国家的国民planner搜索ScottDerrickson国籍和搜索EdWood国籍同时进行最后合并即可。架构上它由三个组件组成Planner规划器streama DAGof tasks即将原始问题分解为一个DAGDirectAcyclicGraph有向无环图的任务列表。Task Fetching Unit并行执行器根据任务的依赖调度任务并行执行Joiner合并器综合DAG执行结果反馈给用户如果没达预期可以重新规划任务 Basic Reflection Basic Reflection可以类比于学生Generator)写作业老师Reflector来批改建议学生根据批改建议来修改如此反Basic Reflection可以类比于左右互博。左手是Generator负责根据用户指令生成结果右手是Reflector来审查Generator的生成结果并给出建议。在左右互搏的情况下Generator生成的结果越来越好Reflector的检查越来越严格输出的结果也越来越有效。 Basic Reflection原理 Generator接收来自用户的输入输出initialresponseReflector接收来自Generator的response根据开发者设置的要求给出Reflections即评语、特征、建议Generator再根据Reflector给出的反馈进行修改和优化输出下一轮response循环往复直到循环次数 Reflexion 模式论文RelexionLanguage Agents with Verbal Rinforcement Leaminggithub项目 Reflexion 模式原理由于传统强化学习需要大量的训练样本和昂贵的模型微调大模型很难快速有效地从错误经验中学习。ReAct,HuggingGPT等基于大模型的任务决策框架它们利用In-contextlearning的方式快速地指导模型执行任务避免了传统微调方式带来的计算成本和时间成本。相当于Basic Reflection模式的升级版使用语言反馈信号来帮助agent从先前的失败经验中学习。Reflexion将传统梯度更新中的参数信号转变为添加在大模型上下文中的语言总结。使得agent在下一个episode中能参考上次执行失败的失败经验从而提高agent的执行效果。 Reflexion框架 ActorActor由LLM担任主要工作是基于当前环境生成下一步的动作。EvaluatorEvlauator主要工作是衡量Actor生成结果的质量。就像强化学习中的Reward函数对Actor的执行结果进行打分。Self-reflexionSelf-reflexion一般由LLM担任是Reflexion框架中最重要的部分。它能结合离散的reward信号如success/fail)、trajectory轨迹也就是推理上下文等生成具体且详细语言反馈信号这种反馈信号会储存在Memory中启发下一次实验的Actor执行动作。相比reward分数这种语言反馈信号储存更丰富的信息例如在代码生成任务中Reward只会告诉你任务是失败还是成功但是Self-reflexion会告诉你哪一步错了错误的原因是什么等。Memory分为短期记忆short-term和长期记忆long-term)。在一次实验中的上下文称为短期记忆多次试验中Self-reflexion的结果称为长期记忆。类比人类思考过程在推理阶段Actor会不仅会利用短期记忆还会结合长期记忆中存储的重要细节这是Reflexion框架能取得效果的关键。 Reflexion是一个迭代过程Actor产生行动Evaluator对Actor的行动做出评价Self-Rflexion基于行动和评价形成反思并将反思结果存储到长期记忆中直到Actor执行的结果达到目标效果。 Language Agent TreeSearch模式论文Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models LATS提供了一种灵活、高效且可扩展的方式来处理自然语言任务中的推理和决策问题。主要解决了自然语言任务中的推理和决策问题。具体来说它可以用于以下场景推理问题当输入一个问题时可以通过LATS生成一系列中间想法思考序列最终得到答案。决策问题当需要在多个选项之间做出选择时LATS可以根据不同的情况生成不同的决策路径并从中选择最优解 Language Agent TreeSearch原理 LATS简单来说是TreesearchReActPlansolve的融合体与传统的基于MCTS的推理决策框架相比LATS的主要改进在于使用了蒙特卡罗树搜索算法可以有效地探索可能的解决方案利用了预训练的语言模型来评估节点的价值从而更好地指导搜索过程引入了自我反思机制可以从失败的轨迹中学习并提高决策能力 LATS主要内容包含了节点选择、拓展、评分、执行、反向传播、反思。选择节点后进行拓展子节点每个子节点通过LLM评分。任务不断执行直到达到设定的指定步数或获取最优质的结果再将结果反向传播给各父节点进行更新。而输出内容经过LM进行反思更新结果。LATS中通过树搜索的方式进行Reward强化学习的思路同时还会融入Reflection从而拿到最佳结果。所以LATSTree search ReActPlansolveReflection强化学习提示词模板方面和之前的reflectionplansolveReAct差别不大只是上下文中多了对树搜索结果的评估和返回结果。架构上由多轮的BasicReflection多个Generator和Reflector组成。主要有四个主要步骤选择根据下面步骤(2)中的总奖励选择最佳的下一步行动。要么做出响应如果找到解决方案或达到最大搜索深度要么继续搜索。扩展和执行生成N例子中为5个Act节点个潜在操作以并行执行并执行它们。反思评估观察这些行动的结果并根据反思以及可能的外部反馈对决策进行评分。反向传播根据结果更新根轨迹的分数总结一下选择当前节点行动、反思、评分并将结果反向传播给父节点同时根据节点数量是否达到上限以及结果情况决定是否继续向下延伸或输出结果。框架对比 LATS通过融合计划、思考、行动、反思与记忆便用蒙特卡罗树搜索算法相较ReAct、ToT、CoT、Reflection等框架具有显著优势。 Self-Discover模式论文SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures github项目 SELF-DISCOVER旨在使模型能够自动发现用于解决复杂推理问题的任务内在推理结构。- SELF-DISCOVER的核心是一个自我发现过程LLMS在这一过程中选择多个原子推理模块如批判性思维和逐步思考并将它们组合成一个明确的推理结构供LLMs在解码时遵循。优点 SELF-DISCOVER增强LLM处理复杂推理问题的能力尤其是那些传统提示方法难以应对的问题基于理论的代理推理和MATH等具有挑战性的推理基准测试上的表现相比链式推理CoT提高了32%SELF-DISCOVER在效率上也超过了推理密集型方法如CoT-Self-Consistency同时所需的推理计算量减少了10到40倍展示了自我发现的推理结构在不同的模型家族之间具有普适性可以从PaLM2-L迁移到GPT-4以及从GPT-4迁移到Lama2 Self-Discover推理结构 SELF-DISCOVER是一个的两阶段方法旨在利用大型LLM来自动构建和应用解决特定理结构再通过生成的推理结构解决复杂的问题。第一阶段-发现推理结构第一阶段包括三个操作如下选择Select在这一操作下模型需要从39个预定义的推理模块中选择几个关键模块这些模块可以帮助解决特定的任务。提供了所有可用推理模块的描述例如“批判性思维”、“步骤分解“和“提出并验证“等。同时也给出了一些带答案的任务示例。模型需要根据这些信息选择最合适的推理模块组合。适应Adapt)选择完关键推理模块后模型需要调整和细化每个模块的描述使其更好地适应待解决的具体任务。在这个阶段会显示之前SELECT阶段选择的模块描述以及一些无答案的任务示例。模型需要根据这些信息改写每个推理模块的描述使其更贴合实际任务。实施lmplement模型需要将调整后的推理模块组合成一个SON格式的分步推理计划。为了展示如何实现这一计划会给出一个人工编写的示例推理结构。该结构展示了如何将推理模块按顺序实施以逐步解决问题并得到正确答案。模型的目标是生成一个类似的推理计划但应用于当前的任务和调整后的推理模块描述。第二阶段-应用推理结构完成阶段一之后模型将拥有一个专门为当前任务定制的推理结构。在解决问题的实例时模型只需遵循这个结构逐步填充JSON中的值直到得出最终答案

查看全文

http://www.hkea.cn/news/14305535/