学做窗帘的网站,软件培训班,济源专业做网站公司,最好用的手机优化软件前言
参考现有的中文医疗模型#xff1a;MedicalGPT、CareGPT等领域模型的训练流程#xff0c;结合ChatGPT的训练流程#xff0c;总结如下#xff1a; 在预训练阶段#xff0c;模型会从大量无标注文本数据集中学习领域/通用知识#xff1b;其次使用{有监督微调}(SFT)优化…前言
参考现有的中文医疗模型MedicalGPT、CareGPT等领域模型的训练流程结合ChatGPT的训练流程总结如下 在预训练阶段模型会从大量无标注文本数据集中学习领域/通用知识其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令最后使用对齐技术使LLM更有用更安全的响应用户的提示。 训练流程的四个阶段分别如下
预训练(pre-trainingpt)基于基座模型经过海量中文医疗预料训练得到领域适配的ChatGLM-6B。监督微调(supervised finetuningsft)通过在线问诊等数据构建训练数据完成指令微调。RM模型构建(reward modeling, rm)人工对预测答案排序训练一个打分模型强化学习阶段(reinforcement learning, rl)基于PPO算法采用RL的方式完成fine-tuned ChatGLM-6B模型的优化。
预训练阶段-PT
该阶段的训练数据格式如下。对应是非结构化的自然语言文本通过设定max_seq_len和block_size等方式实现文本数据的chunkbatch化作为模型的训练数据处理完的单条数据包含input_ids,attention_mask和labels训练的目标是模型需要根据提供的文本来预测 下一个单词。
监督微调阶段-SFT
该阶段的训练数据格式如下。一般对应的结构采用instruction/input/output/history根据不同的场景input与history可以做缺省处理。但是需要人工标注的指令数据集。
对齐
该阶段的主要目标是将语言模型喻人类的偏好、价值观进行对齐这也是RHLF机制的作用。 RLHF主要包括两步
基于有监督微调模型基础上创建一个reward modelRM模型基于RM模型使用PPO/DPO算法微调SFT模型返回最佳response。
奖励模型-RM
该阶段是RHLF的第一个阶段训练得到一个rm模型用于rl阶段的模型打分其结构格式如下 有多种格式的数据可自己选择但需要程序做额外的处理且这些数据都是人工标注好的。
强化学习-RL
该阶段是RHLF的第二个阶段也是核心部分用于优化一个RM模型并完成打分。数据格式同SFT。一般在此阶段会使用特定的算法(DPO/PPO)来实现引导优化后的大模型生成更符合人类偏好的内容。
总结
对于模型的微调一开始我是想的太简单了觉得只要按照基座官方模型文档调试即可随着了解的深入与不断的学习微调是个大工程而且对于领域模型来说其训练流程预训练 -- 监督微调 -- RHLF 中包含的事项与知识太多。
最后的最后
感谢你们的阅读和喜欢我收藏了很多技术干货可以共享给喜欢我文章的朋友们如果你肯花时间沉下心去学习它们一定能帮到你。
因为这个行业不同于其他行业知识体系实在是过于庞大知识更新也非常快。作为一个普通人无法全部学完所以我们在提升技术的时候首先需要明确一个目标然后制定好完整的计划同时找到好的学习方法这样才能更快的提升自己。
这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能 二、640套AI大模型报告合集
这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。 三、AI大模型经典PDF籍
随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。 四、AI大模型商业化落地方案 五、面试资料
我们学习AI大模型必然是想找到高薪的工作下面这些面试题都是总结当前最新、最热、最高频的面试题并且每道题都有详细的答案面试前刷完这套面试题资料小小offer不在话下。
这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】