当前位置：首页 > news >正文

山东一级造价师考试时间大连seo优化

news 2026/4/7 14:27:41

山东一级造价师考试时间,大连seo优化,做网站平方根怎么表示,程序员做的网站别人用于诈骗所谓知识注入，其实不该脱离于LLM的基础工作原理，然后空谈抽象概念。知识，也就是你问他问题，他能输出正确的回答，这只是一个简单的输出token的过程。输出得准了，就是知识，输出不准了&#xff0c…

所谓知识注入，其实不该脱离于LLM的基础工作原理，然后空谈抽象概念。
知识，也就是你问他问题，他能输出正确的回答，这只是一个简单的输出token的过程。输出得准了，就是知识，输出不准了，你就说它是幻觉。什么是幻觉？不就是该输出的token上，概率不大，导致的乱输出。
所以，知识注入就是你要对一个query，自回归输出一个完全一致的answer。如果你愿意不考虑LLM的其他功能，就为了某一个QA对服务，你完全可以加训个100个epoch，它必然就“记住”了。

知识注入根据知识的体量、复杂度、垂类程度不同，要基于增量预训练、sft、也必须使用RLHF和DPO。
对于这么一个QA:XXX的生日是多少？1980年1月23日。sft的所有loss都是先拿到正确的前述token，然后计算当前token的loss。假设现在LLM训练好了，对于query，后续token的概率都很高，除了”8“这个位置的概率几乎为0，那么对于后面的“0年1月23日”，如果前面这个“8”LLM吐不出来，那么它们的高概率也就完全不顶用了，大概率是要出所谓的“幻觉”的，毕竟你现在的状况和训练时候完全不一样嘛。可这种情况放sft里，loss很小。也就是说"8"这个数字在sft阶段会训练不完全。
（这里只是一个例子，实际上tokenizer大概率把1980这一整个数字绑定成一个token，或者是19和80。）
RLHF和DPO这类RL算法的训练目标是，我当前这个token的reward和选定token后对未来value的期望要达到最高。如果出现8这个数字概率低的情况，且如果value函数正常工作，那么RL会知道，你必须给8的概率拉高，否则整个后续的reward期望会极低。RL和SFT的差距就在这里，RL要考虑当前对后续的影响，sft只要考虑当前这个token就好。
(RL的思想很好，但是"value函数正常工作"这个条件没那么好保证，所以RL不稳定。这是必须先sft后rl的原因。)

对于简单的知识注入，例如“改变大模型的自我认知”，随便给几条认知相关的内容重复的简单数据，用lora训个10个epoch，就能得到极好的效果。我基于qwen1.5-7b-chat尝试sft注入1000条简单的wiki的知识，lora rank=32，epoch=1，lr=3e-5。然后手动测试了几条wiki数据，发现关于数字的会有严重幻觉，例如“丹麦海峡的最长长度是多少“，不仅是我的模型，你百度去搜，百度ai给的结果也不对。关于医学的会很差劲，因为过于复杂了，需要专业知识才能撑得起来我给的回答，我敢信我的医学数据的每条answer的困惑度都极高，这使得LLM不可能仅凭一次训练就扭转输出。但是简单知识会记得很好，我让他记住他是一根香蕉(简单QA)，他也记住了。最后测得c-eval评分还能维持69，比微调前的71不差多少。
对于复杂的知识注入，绝对不能寄希望于少量数据就完成训练。这个复杂，既是指存在很多生词和知识点，还是指知识体系的庞大，还是指answer很长。前两个好理解，第三个其实就是前面说的"8"的问题，你answer一长，中间出错的概率就高，就不容易续写成功。
我们统称符合上面特点的数据为“垂类数据”。
对于垂类数据，你绝不能期望仅用finetune和简单的lora就能成功。你的垂类数据和LLM的训练数据可以说是分布完全不相似的两组数据，你无法通过简单的lora微调就让LLM从一个输出分布就跳到另一个完全不同的分布上。走完预训练+sft+rl基本是标配了。
预训练的作用是解决“眼生”的问题，所谓获取知识也就是这个，你希望“给个query返回一个answer”，这个answer的碎片就隐藏在预训练的数据里。所以这里需要大量预训练数据。
然后是sft。为什么不直接rl？因为rl存在不稳定的问题，所以最好用sft先把底子打好。sft就是给了LLM一个输入输出的范式，“问哪个问题，就回答哪段话”。问题是问题的花样可多了，要是大伙都一个问问题的方式，对我们来说就没这么累了。有一批人专门干批量指令生成，就是为了得到“一个问题，多种表达”的数据，以适应用户的需求。sft阶段，一定要尽量压低loss，既然干了垂类模型，就千万别考虑泛用性了，否则你就得重走一遍chatgpt的训练路子，数据也得用人家量级的，区别就是你多了一份垂类数据。Gimini今年6月有个论文指出幻觉就是loss太大，你压低就没幻觉了，这从上面对"8"的讨论也能看出来。所以，一定要对单知识点做多指令QA，既可以等价于多个epoch，又可以防止过拟合，并且知识量大就必须有海量数据支撑。
rl阶段可以选rlhf和dpo，后者现在好像效果更好，但是还是得看实际数据，所以两种都要做。

查看全文

http://www.hkea.cn/news/636506/