当前位置: 首页 > news >正文

宝安做网站的房产网站模板

宝安做网站的,房产网站模板,服装行业网站模板,做爰全过程免费视频网站论文: AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration 中文解读: 深入理解AWQ量化技术 - 知乎 (zhihu.com) 动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化&am…

论文:

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

中文解读:

深入理解AWQ量化技术 - 知乎 (zhihu.com)

动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化;

实现:只量化W矩阵,存储INT4计算的时候再反量化为FP16(TensorRT-LLM反量化为FP8),进行计算;

朴素的量化:

发现:W矩阵里,有1%的权重,对量化误差影响最大;哪些权重是这1%呢?答:Activation绝对值大的那列(channel),所对应的W的那行;

改进:对Activation绝对值最大的那些列,所对应的W的那些行,不进行量化;W的其他行,进行INT4量化;

痛点:有的量化,有的不量化,即混合精度计算,在GPU上执行的效率低;

解决:整个W矩阵全部进行量化;区别对待,对重要的Channel,进行scale放大;(越重要,scale越大一些);scale越大的channel,该channel的量化误差就越小;

原理:

朴素的量化:

其中,Round的量化误差,绝对值在[0, 0.5]之间,是均匀分布,均值是0.25;

当给w乘以一个大于1的scale s,则:

如果Round仍保持在0.25,则w的误差减少s倍;

假设:对1%的W进行s倍增大,且s不是很大时,整个矩阵的scale factor △,不会发生大的变化;

细节:

问:每个s具体是多少?

答:看Activation矩阵X,每一列所有元素的绝对值,取平均值,进行a次方(该a数值是在(0,1)之间网格搜索出来的最优值),和其他列的平均值a次方归一化,就是该列的s;即X哪列的绝对值大,对应W中的该行就s大;

问:group-size是什么?

答:分块量化,量化误差能更小;按X的列,W的行,分成多个group,每个group内部进行量化;

http://www.hkea.cn/news/606955/

相关文章:

  • 电商网站开发服务全网营销骗局揭秘
  • 个人网站怎么做互联网营销师培训课程免费
  • 微信网站建设价格网站开发报价方案
  • wordpress utc时间慢8小时大连seo关键词排名
  • 中国建设承包商网站创建软件平台该怎么做
  • 中小企业网站建设费用海外推广服务
  • 企业名称的英文做网站名seo是怎么优化推广的
  • 手机在线建站西安seo服务公司
  • 网站开发有前途吗我也要投放广告
  • 备案 网站名称怎么写crm软件
  • 扁平式网站模板b2b网站推广优化
  • 做外贸网站网络营销咨询服务
  • 江门网站建设方案报价淘宝seo优化怎么做
  • 盘龙城做网站推广网站推广
  • 如何做电子书网站域名站长工具
  • 物联网平台有哪些排名优化外包公司
  • 秦皇岛汽车网站制作数字营销工具
  • 培训教育的网站怎么做东莞做网站的联系电话
  • 云南做网站的公司外贸谷歌优化
  • 网页设计学徒培训可试学巢湖seo推广
  • 让顾客心动的句子seo模拟点击软件源码
  • 设计类专业包括哪些kj6699的seo综合查询
  • 手机网站制作哪家好查关键词
  • 米拓企业网站管理系统电商培训机构排名前十
  • 做效果图有哪些网站seo点击排名
  • 网络营销推广网站收录seo推广排名平台有哪些
  • 产品经理如何看待网站开发广州软件系统开发seo推广
  • wordpress 忘记管理员如何做网站seo
  • app和网站哪个有优势淘宝关键词排名
  • wordpress该域名宁波网站seo公司