设计师招聘网站有哪些,江苏环泰建设有限公司网站,企健网网址,描述一下网站建设的基本流程图一、说明 在大型语言模型#xff08;LLM#xff09;领域#xff0c;有各种各样的 训练机制#xff0c;具有不同的手段#xff0c;要求和目标。由于它们服务于不同的目的#xff0c;因此重要的是不要将它们相互混淆#xff0c;并了解它们适用的不同场景。 在本文中#… 一、说明 在大型语言模型LLM领域有各种各样的 训练机制具有不同的手段要求和目标。由于它们服务于不同的目的因此重要的是不要将它们相互混淆并了解它们适用的不同场景。 在本文中我想概述一些最重要的训练机制它们是预训练、微调、从人类反馈中强化学习 RLHF 和适配器。此外我将讨论提示的作用它本身不被视为一种学习机制并阐明提示调优的概念它在提示和实际训练之间架起了一座桥梁。
二、关于预训练 “火车”。就像在“培训”中一样。对不起。。 预训练是最基本的训练方式等同于你可能知道的其他机器学习领域的训练。在这里您从一个未经训练的模型即具有随机初始化权重的模型开始并训练以在给定一系列先前令牌的情况下预测下一个令牌。为此从各种来源收集了大量的句子并以小块的形式提供给模型。 这里使用的训练模式称为自监督。从正在训练的模型的角度来看我们可以说是一种监督学习方法因为模型在做出预测后总是得到正确的答案。例如给定我喜欢冰的序列... 该模型可能会将锥体预测为下一个单词然后可能会被告知答案是错误的因为实际的下一个单词是奶油色。最终可以计算损失并调整模型权重以更好地预测下一次。将其称为自我监督而不是简单地监督的原因是无需事先以昂贵的程序收集标签但它们已经包含在数据中。给定句子我喜欢冰淇淋我们可以自动将其拆分为我喜欢冰作为输入和奶油作为标签这不需要人工努力。虽然它不是模型本身但它仍然由机器自动执行因此人工智能在学习过程中自我监督的想法。 最终在大量文本上进行训练后模型学会了对语言结构进行编码例如它学习我喜欢的后面可以跟一个名词或分词以及它看到的文本中包含的知识。例如它了解到乔·拜登Joe Biden这句话......经常被美国总统所跟随因此代表了该知识。 其他人已经完成了此预训练您可以使用开箱即用的 GPT 等模型。但是为什么要训练类似的模型呢如果您使用的数据具有类似于语言的属性但这不是通用语言本身则可能需要从头开始训练模型。乐谱可以举个例子它的结构在某种程度上像一种语言。关于哪些部分可以相互跟随有一些规则和模式但是在自然语言上训练的LLM无法处理这种数据因此您必须训练一个新模型。然而LLM的架构可能是合适的因为乐谱和自然语言之间有许多相似之处。
三、关于微调 这些旋钮用于微调弦乐器。 尽管预训练的LLM由于其编码的知识能够执行各种数量的任务但它有两个主要缺点即其输出的结构和缺乏未在数据中编码的知识首先。 如您所知LLM 总是在给定之前一系列令牌的情况下预测下一个令牌。对于继续一个给定的故事这可能很好但在其他情况下这不是你想要的。如果您需要不同的输出结构有两种主要方法可以实现。你可以以这样的方式编写提示使模型预测下一个令牌的惰性能力解决你的任务这称为提示工程或者你更改最后一层的输出使其反映你的任务就像你在任何其他机器学习模型中所做的那样。考虑一个分类任务其中有 N 个类。通过提示工程您可以指示模型始终在给定输入后输出分类标签。通过微调您可以将最后几层更改为具有 N 个输出神经元并从激活率最高的神经元中得出预测的类别。 LLM的另一个限制在于它被训练的数据。由于数据源非常丰富因此最著名的LLM编码了各种各样的常识。因此他们可以告诉你除其他外关于美国总统贝多芬的主要著作量子物理学的基础和西格蒙德弗洛伊德的主要理论。但是有些域模型不知道如果您需要使用这些域微调可能与您相关。 微调的想法是采用已经预训练的模型并使用不同的数据继续训练并在训练期间仅更改最后几层的权重。这只需要初始培训所需资源的一小部分因此可以更快地执行。另一方面模型在预训练期间学习的结构仍然编码在第一层中可以使用。假设你想教你的模型关于你最喜欢的但鲜为人知的幻想小说这些小说不是训练数据的一部分。通过微调您可以利用模型对自然语言的一般知识使其理解奇幻小说的新领域。
四、RLHF微调 RLHF微调是关于最大化奖励。 微调模型的一个特例是从人类反馈中强化学习RLHF这是GPT模型与Chat-GPT等聊天机器人之间的主要区别之一。通过这种微调模型被训练为产生人类在与模型对话中最有用的输出。 主要思想如下给定任意提示为该提示生成模型的多个输出。人类根据他们发现的有用或适当程度对这些输出进行排名。给定四个样本 A、B、C 和 D人类可能会决定 C 是最佳输出B 稍差但等于 DA 是该提示的最差输出。这将导致 C B D A 的阶数。接下来此数据用于训练奖励模型。这是一个全新的模型它通过给予反映人类偏好的奖励来学习对LLM的产出进行评级。一旦奖励模型被训练它就可以替代该产品中的人类。现在模型的输出由奖励模型进行评级并且该奖励作为反馈提供给LLM然后进行调整以最大化奖励;一个与GAN非常相似的想法。 如您所见对于这种训练需要人工标记的数据这需要相当多的努力。然而所需的数据量是有限的因为奖励模型的想法是从这些数据中泛化以便一旦它学会了自己的部分它就可以自己对LLM进行评级。 RLHF通常用于使LLM输出更像对话或避免不良行为例如模型是平均的 侵入性或侮辱性。
五、适配器 要插入现有网络的两种适配器。 在前面提到的微调中我们在最后几层调整模型的一些参数而前几层中的其他参数保持不变。不过还有另一种选择它通过训练所需的更少参数来保证更高的效率这称为dapters。 使用适配器意味着向已训练的模型添加其他层。在微调期间仅训练这些适配器而模型的其余参数根本不会更改。但是这些层比模型附带的层小得多这使得调整它们变得更加容易。此外它们可以插入模型的不同位置而不仅仅是在最后。在上图中您看到两个示例;一个是以串行方式将适配器作为层添加的另一个是将其并行添加到现有层。
六、促进 提示更多的是告诉模型该做什么而不是怎么做。 您可能想知道提示是否算作训练模型的另一种方式。提示意味着构造实际模型输入之前的指令特别是如果您使用少数镜头提示您可以在提示中向LLM提供示例这与训练非常相似后者也包括呈现给模型的示例。但是提示比训练模型是有原因的。首先从简单的定义来看我们只在权重更新时才谈论训练而在提示期间不会这样做。创建提示时不会更改任何模型不会更改权重不会生成新模型也不会更改模型中编码的知识或表示形式。提示应该被视为指导LLM并告诉它你想要从中得到什么的一种方式。以以下提示为例
Classify a given text regarding its sentiment.Text: I like ice cream.
Sentiment: negativeText: I really hate the new AirPods.
Sentiment: positiveText: Donald is the biggest jerk on earth. I hate him so much!
Sentiment: neutralText: {user_input}
Sentiment: 我指示模型进行情绪分类您可能已经注意到我给模型的示例都是错误的如果模型是用这些数据训练的它会混淆正、负和中性的标签。现在如果我让模型对我喜欢冰淇淋的句子进行分类这是我示例的一部分会发生什么有趣的是它将其归类为正数这与提示相反但在语义层面上是正确的。这是因为提示没有训练模型也没有改变它所学内容的表示形式。提示只是告知模型我期望的结构即我希望情绪标签可以是正、负或中性跟在冒号之后。
七、提示调整 提示调整也称为软提示。像羊驼毛一样柔软... 虽然提示本身不是训练 llm但有一种机制称为提示调整也称为软提示它与提示有关可以看作是一种训练。 在前面的示例中我们将提示视为提供给模型的自然语言文本以便告诉它要做什么并且先于实际输入。也就是说模型输入变为prompt实例因此例如将以下内容标记为正、负或中性 我喜欢冰淇淋。 在自己创建提示时我们说硬提示。在软提示中将保留格式prompt实例但提示本身不是我们自己设计的而是通过数据学习的。具体来说提示由向量空间中的参数组成这些参数可以在训练期间进行调整以获得更小的损失从而获得更好的答案。也就是说在训练后提示将是导致我们给定数据最佳答案的字符序列。但是模型参数根本没有经过训练。 提示调优的一大优点是您可以为不同的任务训练多个提示但仍将它们用于同一模型。就像在硬提示中一样您可以构造一个用于文本摘要的提示、一个用于情绪分析的提示和一个用于文本分类的提示但将它们全部用于同一模型您可以为此目的调整三个提示并且仍然使用相同的模型。相反如果您使用微调您最终会得到三个模型每个模型只服务于其特定任务。
八、总结 我们刚刚看到了各种不同的训练机制所以让我们在最后做一个简短的总结。
预训练LLM意味着教它以自我监督的方式预测下一个令牌。微调是在最后一层调整预训练LLM的权重并可用于使模型适应特定的上下文。RLHF旨在调整模型的行为以符合人类的期望并且需要额外的标记工作。适配器允许更有效的微调方式因为小层被添加到预训练的LLM中。提示本身不被视为训练因为它不会更改模型的内部表示。提示优化是一种优化权重的技术这些权重会产生提示但不会影响模型权重本身。 当然还有更多的训练机制每天都有新的机制被发明出来。LLM可以做的不仅仅是预测文本教他们这样做需要各种技能和技巧其中一些我刚刚介绍给你。 多利安·德罗斯特 ·