新手可以自己建网站吗,致力于做服务更好的网站建设公司,最近的重大国际新闻,珠海网站建设制作2024 neurips
1 背景
稀疏混合专家#xff08;SMoE#xff09;可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B#xff0c;表现可以媲美LLaMA-2 70B】 但它也有两个问题 专家激活率低#xff08;下图左#xff09; 在优化时只有一小部分专家会被…2024 neurips
1 背景
稀疏混合专家SMoE可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B表现可以媲美LLaMA-2 70B】 但它也有两个问题 专家激活率低下图左 在优化时只有一小部分专家会被激活——在学习应对复杂任务的大量专家时会出现性能次优和效果不佳的问题 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】 ——提出了多头混合专家MH-MoE 采用了多头机制可将每个输入 token 分成多个子 token然后将这些子 token 分配给一组多样化的专家并行处理之后再无缝地将它们整合进原来的 token 形式 MH-MOE的优势 专家激活率更高且扩展性更好 MH-MoE 能优化几乎所有专家从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率 具有更细粒度的理解能力 MH-MoE 采用的多头机制会将子 token 分配给不同的专家从而可以联合关注来自不同专家的不同表征空间的信息最终获得更好更细粒度的理解能力。 2 方法 MH-MoE 的训练目标是最小化两个损失针对具体任务的损失和辅助性的负载平衡损失。