寿光网站开发,余姚网站建设设计,国内编程培训机构排名,新手做网页做那个网站简单kvcache显存占用分析
假设序列输入长度#xff1a;s#xff0c;输出长度#xff1a;n#xff0c;数据类型以FP16来保存KV cache。 峰值显存占用#xff1a;b(sn)hl2*24blh(sn) 注#xff1a;b表示batch size#xff0c;第一个2表示k/v cache#xff0c;第二个2表示FP1…kvcache显存占用分析
假设序列输入长度s输出长度n数据类型以FP16来保存KV cache。 峰值显存占用b(sn)hl2*24blh(sn) 注b表示batch size第一个2表示k/v cache第二个2表示FP16占2字节。
例GPT3-175B模型占用显存350GFP16层数l为96维度h为12888。
batch_sizesnKV cache(G)KV cache/weight44096810.23