佛山商城网站制作,一个空间怎么放多个网站吗,一级造价工程师专业,企业公司网站建设公司徐波 东华大学副教授 东华大学计算机学院信息技术系副系主任#xff0c;复旦大学知识工场实验室副主任#xff0c;智能运维方向负责人。入选“上海市青年科技英才扬帆计划”。研究成果发表在IJCAI、ICDE、ICSE、ISSRE、ICWS、CIKM、COLING等国际会议上#xff0c;曾获中国数… 徐波 东华大学副教授 东华大学计算机学院信息技术系副系主任复旦大学知识工场实验室副主任智能运维方向负责人。入选“上海市青年科技英才扬帆计划”。研究成果发表在IJCAI、ICDE、ICSE、ISSRE、ICWS、CIKM、COLING等国际会议上曾获中国数据库学术会议NDBC 2014优秀论文奖。主持及参与国家重点研发计划、国家自然科学基金等科研项目10余项。
论文分享 KnowLog: Knowledge Enhanced Pre-trained Language Model for Log UnderstandingICSE 2024 KnowLog:基于知识增强的日志预训练语言模型 本文根据东华大学副教授徐波老师在2023 CCF国际AIOps挑战赛决赛暨“大模型时代的AIOps”研讨会闪电论文分享环节上的演讲整理成文。 今天分享的主题是“懂运维语言的小模型”。从今天上午的汇报来看小模型依然很重要。即使大家都在做多智能体的协同但是他们的底座智能体还是在用小模型来做这可能是考虑到成本和质量的问题。此次报告将从4个方面进行分享。
众所周知日志在运维系统中占据非常大的比重日志分析是一个非常重要的工作每分钟都会有几十万上百万的日志产生这个时候用大模型肯定是不行的。而以前的小模型针对不同的任务设计不同的框架去单独解决缺乏一个统一的处理框架。 而在NLP领域“预训练微调”已经成为了自然语言处理的统一范式。那么能不能把这种自然语言的统一范式应用到日志里面构建日志的预训练模型呢 我们把这种类似BERT的预训练语言模型放到日志里面去发现其实它并不是很work原因是什么分析结论是自然语言中的高频词和在日志中使用的高频词其实是不一样的。这里就会产生三个具体挑战 第一通用的预训练语言模型不理解日志中的特定术语比如OSPF或者SYSLOG等等这些领域的特定缩写经过Bert编码后会被变成unknown这就会非常影响后续的处理。
第二从整体来讲通用的预训练语言模型不理解日志到底在说什么就像给非专业人士看日志文档事实上也是看不懂的。
第三不同厂商描述同一个日志打的Log也是不一样的。 针对这三个挑战我们受专家解决问题的思路启发提出了知识增强的方案会去从领域手册里查询补全知识。 如果局部知识不懂就看缩略词表把局部知识补全。如果是全局知识不懂就看全局知识描述的文档。基于以上我们提出了知识增强的日志预训练模型的框架该框架主要分为三部分 第一如何把局部知识灌到大模型里这里设计了缩略词预测任务把缩略词遮住之后让大模型复原如果它知道是缩略词就认为模型已经理解缩略词。
第二针对全局知识的增强建立日志模板和日志描述的对应关系。
最后为了支持不同厂商的日志使用了对比学习的思路通过构造各种的数据增强方式去对同一个日志做不同表达使其能够满足不同的表示方法。 基于这个方法我们构造了很多的实验从华为、思科、华三等一些厂家提取日志模板。注意这里做了一个改进就是我们没有去理解日志而是去理解日志模板因为日志很多但是模板并不多。我们这边拿了10万条的日志模板然后构造了一些下游任务从而得到了几个结论 首先通过知识增强的日志预训练模型确实显著优于通用预训练模型。 然后在低资源场景下实验这个实验很实用因为企业内部的数据并不是太多通过实验可以看出把整个的训练集砍掉了一半甚至只保留30%模型下降的程度并不高而通用模型的下降幅度就比较大。 另外在跨厂商迁移方面我们用华为的日志训练完应用到华三日志上面或者用华三日志训练完去用到思科日志上面发现都有非常好的效果。 同时通过可视化展开可以看到在没有做知识增强之前原始日志和它的描述其实是红点和绿点区分得非常开但通过了我们的知识增强对齐之后把日志和它的描述对应的比较紧密了。 总结一下我们事实上是提了一个基于领域知识增强的框架。目前这一版的缺陷就是必须先有文档才能做日志理解。后续还有工作就是不需要有文档直接用ChatGPT生成。通过实验我们发现用ChatGPT只要精心设计提示词规范好生成结果它也是能达到跟日志文档一样甚至更好的效果。
以上就是我的分享内容谢谢大家。
观看完整演讲视频请关注“CCF OpenAIOps社区”视频号