生成网站地图,站长工具特级a免费,海口网络平台网站开发,物流网站怎么做推广前言#xff1a;大型语言模型#xff08;LLMs#xff09;的发展历程可以说是非常长#xff0c;从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初#xff0c;LLM的训练过程只关注预训练#xff0c;但后来逐步扩展到了包括预训练和后训练在内的完整…
前言大型语言模型LLMs的发展历程可以说是非常长从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初LLM的训练过程只关注预训练但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程而这些在ChatGPT的推广下变得广为人知。
自ChatGPT首次发布以来训练方法学也在不断进化。在这几期的文章中我将回顾近1年中在预训练和后训练方法学上的最新进展。
关于LLM开发与训练流程的概览特别关注本文中讨论的新型预训练与后训练方法
每个月都有数百篇关于LLM的新论文提出各种新技术和新方法。然而要真正了解哪些方法在实践中效果更好一个非常有效的方式就是看看最近最先进模型的预训练和后训练流程。幸运的是在近1年中已经有四个重要的新型LLM发布并且都附带了相对详细的技术报告。
在本文中我将重点介绍以下模型中的谷歌的 Gemma 2语言模型 预训练和后训练流程
• 阿里巴巴的 Qwen 2
• 苹果的 智能基础语言模型
• 谷歌的 Gemma 2
• Meta AI 的 Llama 3.1
我会完整的介绍列表中的全部模型但介绍顺序是基于它们各自的技术论文在arXiv.org上的发表日期这也巧合地与它们的字母顺序一致。
谷歌的Gemma 2
谷歌的Gemma模型最近在《Gemma 2改进实用大小的开放语言模型》中有所描述。
我将在接下来的概述部分提供一些关键事实的概述然后讨论预训练和后训练过程。
3.1 Gemma 2概述
Gemma 2模型有三种规模20亿、90亿和270亿参数。主要关注的是探索不一定需要增加训练数据集大小的技术而是开发相对小且高效的LLM。
值得注意的是Gemma 2具有相当大的词汇量为256k词汇。相比之下Llama 2使用了32k词汇量Llama 3使用了128k词汇量。
此外Gemma 2采用了类似Mistral早期模型的滑动窗口注意力可能是为了减少内存成本。有关Gemma 2架构的更多细节请参阅我之前文章中的Gemma 2部分。
3.2 Gemma 2预训练
Gemma的研究人员认为即使是小型模型也常常训练不足。然而他们没有简单地增加训练数据集的大小而是专注于维护质量并通过其他方法如知识蒸馏类似于苹果的方法实现改进。
尽管270亿参数的Gemma 2模型是从头开始训练的较小的模型则使用了类似苹果之前解释的方法的知识蒸馏进行训练。
270亿参数的模型在13万亿标记上训练90亿参数的模型在8万亿标记上训练20亿参数的模型在2万亿标记上训练。此外类似于苹果的方法Gemma团队优化了数据混合以提升性能。 Gemma 2预训练技术总结。
3.3 Gemma 2后训练
Gemma模型的后训练过程包括典型的监督微调SFT和带人类反馈的强化学习RLHF步骤。
指令数据涉及使用仅英语的提示对这些是人工生成和合成生成内容的混合。具体来说也很有趣的是响应主要由教师模型生成并且在SFT阶段也应用了知识蒸馏。
他们的RLHF方法中一个有趣的方面继SFT之后是用于RLHF的奖励模型比政策目标模型大十倍。
Gemma使用的RLHF算法相当标准但有一个独特的转折他们通过一种称为WARP的方法平均了政策模型这是WARM加权平均奖励模型的后继者。我之前在我的文章《模型融合、专家混合及朝向更小LLM》中详细讨论过这种方法。 Gemma 2后训练技术总结。
3.4 结论
Gemma团队似乎真的加倍依赖知识蒸馏他们在预训练和后训练中都使用了这种方法与苹果类似。有趣的是他们没有使用多阶段预训练方法或者至少他们在论文中没有详细说明。