当前位置：首页 > news >正文

卡盟网站开发网络优化论文

news 2026/4/7 9:55:10

卡盟网站开发,网络优化论文,成都网站开发建设,网页设计小白做网站LLama-1（7B, 13B, 33B, 65B参数量；1.4T tokens训练数据量） 要做真正Open的AI Efficient：同等预算下，增大训练数据，比增大模型参数量，效果要更好训练数据： 书、Wiki这种量少、质量高…

LLama-1（7B, 13B, 33B, 65B参数量；1.4T tokens训练数据量）

要做真正Open的AI

Efficient：同等预算下，增大训练数据，比增大模型参数量，效果要更好

训练数据：

书、Wiki这种量少、质量高的数据，训了2轮。

模型改动：

silu激活函数：

LLama-2 (7B, 13B, 70B参数量；2T tokens预训练数据量)

训练流程：

PreTrain + SFT微调 + RLHF强化学习；

安全Reward model, 有用Reward model；

效果：观察到，数据量继续增大的话，还可继续提升效果；

引入了GQA(Group Query Attention):

通过把K和V复制多份来实现的

只在70B模型上，用的GQA:

总共64个head，8个一组，一共有8个Query head和8个Value head。

LLama-3(8B,70B,即将放出的400B，15T tokens预训练数据量)

放出的400B测评，有些指标超过了GPT4；

Word embedding量从3.2万，扩大了4倍，到12.8万。好处：推理效率增加，原来1个中文字词被编码至多个tokens，现在只编码到1个token，减少了推理input和output的token数量。

训练数据：

有研究表明，Code训练数据，对大模型的推理能力提升，有重要作用。因此这里加大了Code的训练数据量。

用LLama2来做预训练数据的质量过滤器。

训练：

用小模型的表现，预测大模型的表现，OpenAI先掌握的，Meta后掌握。

2个24000张H100 GPU卡的集群。

LLama3-Instruct: SFT, Rejection Sampling, DPO, PPO