泉州野外拓展网站建设,网站alt标签,网站title是什么意思,网站建设前期目标调试和优化大型深度学习模型 - 0 技术介绍
flyfish
LLaMA Factory
LLaMA Factory 是一个简单易用且高效的大型语言模型#xff08;Large Language Model#xff09;训练与微调平台。通过 LLaMA Factory#xff0c;可以在无需编写任何代码的前提下#xff0c;在本地完成上…调试和优化大型深度学习模型 - 0 技术介绍
flyfish
LLaMA Factory
LLaMA Factory 是一个简单易用且高效的大型语言模型Large Language Model训练与微调平台。通过 LLaMA Factory可以在无需编写任何代码的前提下在本地完成上百种预训练模型的微调。
FastChat
FastChat 是一个用于训练、部署和服务大型语言模型LLM聊天机器人的开放平台。
FastChat 提供了一个全面的平台不仅可以让开发者训练和评估先进的聊天机器人模型还可以让这些模型通过易于集成的服务接口对外提供服务。Chatbot Arena 则是一个基于 FastChat 平台的应用实例允许用户直接体验和比较不同聊天机器人的性能。
FastChat 支持 Chatbot Arena网址https://chat.lmsys.org/为超过70种大型语言模型处理了超过1000万次聊天请求。 Chatbot Arena 已经通过一对一的模型对决收集了超过50万个人工投票以此编制了一个在线的大型语言模型Elo排名榜。
FastChat 的核心特性包括 训练和评估最先进的模型例如 Vicuna、MT-Bench的代码。 一个分布式的多模型服务系统配备有网页界面和与 OpenAI 兼容的 RESTful API。
DeepSpeed
DeepSpeed 是一个易于使用的深度学习优化软件套件它支持大规模的深度学习训练和推理使世界上最强大的语言模型如 MT-530B 和 BLOOM得以实现。DeepSpeed 的主要特点如下
训练和推理大型模型DeepSpeed 可以支持训练和推理拥有数十亿甚至数万亿参数的密集型或稀疏型模型。 高效的系统吞吐量和扩展能力能够实现优秀的系统吞吐量并能高效地扩展到数千个 GPU。 资源受限环境下的训练和推理即使在资源受限的 GPU 系统上也能进行训练和推理。 低延迟和高吞吐量的推理实现了前所未有的低延迟和高吞吐量的推理性能。 极致压缩能够实现极高的模型压缩率大幅度降低推理延迟和模型大小同时成本较低。
DeepSpeed 的四大创新支柱包括 DeepSpeed-Training提供了多种系统创新如 ZeRO、3D-Parallelism、DeepSpeed-MoE 和 ZeRO-Infinity 等极大地提高了大规模深度学习训练的效果和效率。 DeepSpeed-Inference结合了张量并行、管道并行、专家并行以及 ZeRO-并行等多种并行技术并利用高性能自定义推理内核、通信优化和异构内存技术实现了前所未有的大规模推理能力。 DeepSpeed-Compression提供了易于使用且灵活的压缩技术帮助研究人员和实践者在保证性能的同时压缩模型实现更快的速度、更小的模型大小以及显著降低压缩成本。 DeepSpeed4Science通过人工智能系统技术创新帮助科学家们解锁当今最大的科学难题。
DeepSpeed ZeRO
DeepSpeed ZeROZero Redundancy Optimizer是一种用于分布式训练的优化器它的设计目的是减少训练大型模型所需的内存消耗。ZeRO 提供了三个阶段Stages每个阶段都会采用不同的策略来减少内存占用 ZeRO-1只对优化器状态进行分片这意味着每个节点只存储一部分优化器的状态而不是整个状态。ZeRO-2除了优化器状态之外还包括梯度的分片这样每个节点只需要存储它负责更新的一部分梯度。ZeRO-3除了优化器状态和梯度外还包括模型参数的分片这意味着每个节点只需要存储一部分模型参数这进一步降低了内存需求。ZeRO 的主要优势在于它能够在不牺牲训练性能的情况下显著减少内存占用这对于训练超大模型尤其重要。此外DeepSpeed 还支持将优化器状态、梯度和模型参数从 GPU 显存移动到 CPU 内存或硬盘上从而实现不同程度的显存节省。
FSDP (Fully Sharded Data Parallelism)
FSDP 是 Facebook 开发的一种数据并行训练技术它被设计用于解决在分布式环境中训练大型模型时出现的问题。FSDP 通过将模型参数、梯度和优化器状态在多个工作节点之间进行分片来实现内存和计算资源的有效利用。
FSDP 的关键特点包括
Parameter ShardingFSDP 采用参数分片机制意味着模型参数、梯度和优化器状态会在各个 GPU 之间分片存储这样每个 GPU 只需要处理一部分数据。
Efficient CommunicationFSDP 实现了高效的跨节点通信机制以最小化分片状态之间的同步开销。
Simplicity尽管 FSDP 提供了高级功能但它仍然保持了数据并行训练的简单性使得用户可以轻松地将其应用于现有的 PyTorch 代码中。SFT 训练
SFT 训练通常指的是 Supervised Fine-Tuning即监督微调。这是一种在深度学习模型上进行微调的技术使用标注数据对预训练模型进行进一步的训练以便在特定任务上表现更好。
SFT 训练的主要步骤
1 预训练模型 先在大规模的无标注数据集上进行预训练使模型学习通用的语言表示或其他相关特征。 2 微调数据 收集并标注与特定任务相关的数据集。这些数据通常是由人类标注的包含输入和对应的目标输出。 3 监督微调 将预训练模型加载进来并使用标注数据对模型进行微调。通过最小化训练集上的损失如交叉熵损失模型会逐渐学习到如何在特定任务上进行预测。
典型应用场景
文本分类在预训练语言模型如BERT、GPT等的基础上使用标注的文本分类数据进行微调。 问答系统使用标注的问答对数据对预训练模型进行微调以提高模型在问答任务上的表现。 对话系统在特定领域或风格的对话数据上对模型进行监督微调以适应特定的对话场景。
集成方法Integrated methods 预训练Pre-training 预训练是指在大规模的文本数据上训练模型以使其学习到通用的语言表示。这通常是模型训练的第一步目的是让模型具备基本的语言理解能力。在这之后模型可以通过微调来适应特定任务。 多模态指令监督微调(Multimodal) Supervised Fine-tuning 指令监督微调是指在特定任务上使用标注数据进一步训练模型。这种训练方式使模型在特定任务或数据集上表现更好。如果是多模态multimodal则涉及到处理不同类型的数据如文本和图像的监督微调。 奖励模型训练Reward Modeling 奖励模型训练是一种强化学习方法通过奖励信号来优化模型的行为。训练过程中模型会根据奖励信号调整其输出以提高其在特定任务上的表现。奖励模型通常用于生成任务如对话生成。 PPO 训练Proximal Policy Optimization Training PPOProximal Policy Optimization是一种强化学习算法用于优化策略网络。PPO通过限制策略更新的幅度来确保训练过程的稳定性和高效性。它常用于优化生成模型的输出质量。 DPO 训练Direct Preference Optimization Training DPODirect Preference Optimization是一种通过直接优化模型输出的偏好来进行训练的方法。与传统的强化学习方法不同DPO直接使用人类反馈或偏好来调整模型的生成结果。 KTO 训练Knowledge Transfer Optimization Training KTOKnowledge Transfer Optimization涉及从一个任务或领域中转移知识到另一个任务或领域。这种方法通常用于提高模型在新任务上的性能利用在先前任务中学到的知识。 ORPO 训练Online Reinforcement Policy Optimization Training ORPOOnline Reinforcement Policy Optimization是一种强化学习方法通过在线优化策略来提高模型的性能。这种方法通常用于动态环境中的决策优化。
可扩展资源Scalable resources 16比特全参数微调16-bit Full-Tuning 这种方法使用16位浮点数FP16进行全参数微调。与传统的32位浮点数FP32相比16位浮点数可以显著减少内存使用和计算量同时保持足够的数值精度。这种方法适用于需要在较大模型上进行训练但计算资源有限的情况。 冻结微调Freeze-Tuning 冻结微调是指在微调过程中冻结模型的某些层或参数只对其余部分进行训练。这通常用于保留预训练模型的基础知识同时对特定任务进行适应。冻结某些层可以减少计算资源需求和训练时间。 LoRA 微调LoRA Fine-Tuning LoRALow-Rank Adaptation是一种通过引入低秩矩阵来进行模型微调的方法。通过在模型的权重矩阵中添加低秩矩阵LoRA可以在不显著增加计算成本的情况下调整模型以适应特定任务。这种方法适用于大规模模型的高效微调。 基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调 这些方法涉及使用低精度量化技术来进一步减少模型训练和推理的内存和计算需求。QLoRAQuantized LoRA结合了LoRA和量化技术通过将模型的权重和/或激活值量化为低精度如 2、3、4、5、6 或 8 比特来实现。以下是这些量化技术的简要说明 AQLM 、AWQ 、GPTQ 、LLM.int8 、HQQ 、EETQ 这些是不同的量化方法用于将模型的参数和/或计算转换为更低的位数从而减少模型的存储和计算需求。
量化方法
AQLM (Activation Quantization for Large Models) AQLM 指的是针对大型模型的激活量化技术。尽管具体的细节不多但从名称上看它主要侧重于对模型的激活值进行量化。激活量化是量化技术的一个重要方面因为它可以减少模型在推理过程中需要处理的数据量进而降低内存带宽需求并加快推理速度。
AWQ (Activation-aware Weight Quantization) AWQ 是一种基于激活值分布挑选显著权重进行量化的方法。它不需要依赖于反向传播或重建可以很好地保持模型在不同领域的泛化能力避免过拟合到校准集。AWQ 属于训练后量化(Post-Training Quantization, PTQ)大类已经被广泛应用于多个推理框架中如 TensorRT-LLM、FastChat、vLLM、HuggingFace TGI 和 LMDeploy并且得到了工业界的主要厂商如 NVIDIA、Google、Amazon 和 Intel 的支持。
GPTQ (GPT Quantization) GPTQ 是一种针对 GPT 类型模型的量化方法。它通常用于量化大型语言模型以减少模型大小并提高推断效率。
LLM.int8 LLM.int8 可能是指将大型语言模型量化到 int8 精度级别的技术。int8 量化是一种常见的量化技术它将模型的权重从 float32 或 float16 类型转换为 int8 类型以减少模型大小并提高推理速度。这种技术通常适用于那些经过充分训练并且在量化后性能损失可接受的模型。
HQQ (High-Quality Quantization) HQQ 可能是指一种高质量的量化技术它旨在在保持模型性能的同时最大化量化的好处。具体细节未知但可以推测 HQQ 致力于提供更好的量化效果比如更高的精度保留或更低的计算资源消耗。
EETQ (Effective and Efficient Quantization) EETQ 是一种有效且高效的量化技术。这个名字表明该技术旨在提供既高效又有效的模型量化方案这意味着它可能在保持模型性能的同时尽可能减少模型大小和计算资源的消耗。
先进算法Advanced algorithms GaLore GaLore 是一种优化算法旨在改进梯度下降法的效率。它通过调整梯度的计算和更新方式来加速训练过程并可能改善模型的收敛性。 BDam BDam 是一种优化算法可能是指一种改进的梯度优化方法。具体细节取决于具体的实现和论文但通常这种方法涉及到对优化过程中的梯度和动量进行调整以提高训练效果和速度。 Adam-mini Adam-mini 是 Adam 优化器的一个变种可能旨在减少计算资源的需求或调整优化算法的某些超参数以适应不同的训练场景。Adam 优化器广泛用于深度学习因为它结合了动量和自适应学习率的优点。 DoRA DoRADynamic Rank Adaptation是一种优化算法用于动态调整模型中参数的秩以提高模型的训练效率和性能。DoRA 可能涉及到根据训练过程中的反馈来调整模型的结构或优化策略。 LongLoRA LongLoRA 是 LoRALow-Rank Adaptation的一个扩展版本专注于处理长序列数据或任务。它通过改进低秩适应的方法来更好地处理长序列中的信息从而提高模型在这些任务上的表现。 LLaMA Pro LLAMA PRO: Progressive LLaMA with Block Expansion。 代码 https://github.com/TencentARC/LLaMA-Pro 人类通常可以在不损害旧技能的情况下习得新技能然而对于大型语言模型LLM情况却恰恰相反例如从LLaMA到CodeLLaMA的转变。鉴于此我们提出了一种新的后预训练方法该方法通过扩展Transformer模块来更新LLM。我们仅使用新的语料库来微调这些扩展模块从而高效且有效地提升模型的知识而不导致灾难性的遗忘。 在本文中我们在代码和数学领域进行了实验得到了LLaMA Pro-8.3B这是一种从LLaMA2-7B初始化得到的多功能基础模型在一般任务、编程和数学方面表现出色。LLaMA Pro及其指令跟随版本LLaMA Pro - Instruct在各种基准测试中取得了先进的性能证明了它们相对于现有LLaMA家族中的开放模型具有优越性并展示了作为智能代理进行推理和处理多样化任务的巨大潜力。 我们的发现为整合自然语言和编程语言提供了有价值的见解为开发能够在多种环境中有效运行的高级语言代理奠定了坚实的基础 Mixture-of-Depths Mixture-of-Depths 是一种模型架构策略通过在网络的不同层级上使用不同的深度或宽度来提高模型的表示能力和计算效率。这种方法旨在结合不同深度网络的优点以获得更好的性能。 LoRA LoRA: Efficient Low Rank Adaptation of Large Models。 我们展示了最初由Hu等人2021引入的低秩适应LoRA会导致宽度过大的模型即嵌入维度较大的次优微调。这是因为LoRA中的适配矩阵A和B使用相同的学率进行更新。通过对大规模宽度网络的缩放分析我们表明使用相同的学率对A和B进行更新并不利于高效的特征学习。随后我们展示可以通过简单地为LoRA适配矩阵A和B设置不同的学率并选择合适的比例来修正LoRA的这一不足之处。我们将这种改进后的算法称为LoRA。 在我们广泛的实验中LoRA在相同的计算成本下提高了性能大约1-2%的提升和微调速度最多约2倍的速度提升。 LoftQ LoftQ 可能是一种结合了 LoRA 和量化技术的方法用于在训练过程中使用低精度计算。LoftQ 旨在通过低精度表示减少计算需求同时保持模型性能。 PiSSA PiSSAPolicy Improvement with Supervised and Self-Adaptation是一种强化学习方法通过结合监督学习和自适应机制来改进策略优化。它可以提高模型在特定任务中的表现并使训练过程更加稳定。
实用技巧Practical tricks FlashAttention-2 FlashAttention-2 是一种优化的自注意力机制旨在提高Transformer模型中自注意力操作的计算效率。它通过减少内存占用和计算复杂度加速自注意力的计算通常用于大规模模型的训练和推理中。 Unsloth Unsloth 是一种用于加速训练的技术或工具可能涉及优化计算图或减少计算冗余。具体的实现细节可能包括改进的数据并行策略或优化模型的计算流程以提高训练速度和效率。 RoPE 缩放RoPE Scaling RoPERotary Position Embeddings是一种位置编码技术用于改进Transformer模型中的位置表示。RoPE 缩放指的是对RoPE位置编码进行调整或缩放以优化模型在不同任务中的表现。通过这种方式可以提高模型对长序列数据的处理能力。 NEFTune NEFTune 是一种模型调优技术可能涉及对模型进行特定的调整或优化以改善其在实际应用中的性能。NEFTune 可能包括对训练过程中的超参数进行调整或在特定任务上进行微调以提高模型的效果。 rsLoRA rsLoRAReduced-Size Low-Rank Adaptation是 LoRALow-Rank Adaptation的一个变种旨在减少适应过程中使用的低秩矩阵的大小。rsLoRA 通过减少参数量和计算需求提高微调效率同时保持模型的适应性和性能。