白云区同和网站建设,wordpress flat 下载,网站模块标准版,58同城兰州网站建设数据介绍 标签体系 产业治理方面的标签体系共计200个#xff0c;每个标签共有4个层级#xff0c;且第3、4层级有标签含义的概括信息。 原始数据 企业官网介绍数据#xff0c;包括基本介绍、主要产品等 企业专利数据#xff0c;包括专利名称和专利摘要信息#xff0c;且专…数据介绍 标签体系 产业治理方面的标签体系共计200个每个标签共有4个层级且第3、4层级有标签含义的概括信息。 原始数据 企业官网介绍数据包括基本介绍、主要产品等 企业专利数据包括专利名称和专利摘要信息且专利的数据量大。 LLM选型 经调研采用Qwen2-72B-Instruct-GPTQ-Int4量化版本占用显存更少且效果与非量化相当具体可见Qwen2官网说明。 技术难点 团队无标注人员因此无法使用Bert类小模型完成多标签分类任务 涉及垂直领域即使有标注人员也需要很强的背景知识方能开展标注 标签数量多层次深且项目对准确率有要求 方案设计 由于缺少标注人员且对标注员的背景要求高因此只能选择LLM进行任务开展。 标签体系中每个标签的含义不够具象属于总结性的针对特定场景LLM可能无法准确分类。因此可以考虑抽取特定领域的关键词作为基础知识以实现RAG。 企业官网及专利数据量巨大调用LLM存在耗时超长的问题好在有2台8卡的机器可以做分布式推理提高响应性能。 总体的方案设计如下 图虽然简单明了但其中的细节还是值得玩味的。 词级匹配模块 (1) 针对垂直领域基于标签的含义及经验知识人工整理标签可能涉及的关键词如智能汽车可能存在智能驾驶、自动泊车、变道辅助等但人工整理的关键词有限 (2) 针对企业及专利数据采用LACJieba分词(注意人工整理的词表不进行拆分)然后使用KeyBert编辑距离进行关键词匹配(keybert底层模型采用目前效果最优的xiaobu-embedding-v2)筛选出关键词可能匹配的映射标签 分类RAG模块 (1) 每类标签的第3层级下的第4级标签的个数有限因此首先针对标签的前3层级进行分类。取巧的地方在于先粗后精即前3层级对应的标签个数较多因此拆分为N组每组通过prompt调用LLM输出一个结果然后再针对输出的结果进行聚合再调用一次LLM生成细粒度的标签 (2) 前3层级标签确定之后再基于第4层级标签进行末级标签确定 功能特点 1、为什么使用关键词进行RAG 答关键词虽然无法直接映射对应的标签(客官可以想想为什么)但关键词有较强的背景提示因此prompt中关键词有值的标签筛选出来的概率更大一些 2、关键词语义匹配为什么还需要增加编辑距离 答因为语义相似度模型一般针对较短文本的比较针对词的比较效果较差因此引入编辑距离提高词级匹配度 3、同一个关键词对应多个标签的场景如何解决 答通过底层的LLM进行分辨具体应该属于哪一个 4、分类RAG是如何考虑的 答由于标签数量较多层级较深而且LLM的输入长度有限因此采用化繁为简(或先分后合)的方式将整个标签体系先进行分组然后调用LLM输出每个分组输出结果再对结果进行整合再次调用LLM进行细粒度分类确认 5、分类RAG先粗后细有什么好处 答粗粒度分类LLM只能观察到给定的一组标签而看不到整体标签粗粒度划分好之后细粒度再次确认有助于提高分类的准确性。实验结果表明准确率可以从70%-80%上升到85%-90%当然该实验只是针对该特定场景但缺点是增加了LLM的响应时间。 6、标签划分N组后调用LLM如何提高响应性能 答由于部署的是Qwen2量化版且有2台8张卡可以使用因此起了8个vllm进程用haproxy做请求转发从而提高LLM的响应性能。实验表明7W数据只需要耗时1天左右即可跑完结果单节点非量化版本可能需要几个礼拜才能跑完。 7、具体效果层面如何 答基于这一套方案针对每个标签进行随机采样抽检准确率能保持在85%-95%之间 8、为什么不增加fewshot呢 答此处的关键词就类似于fewshot示例若直接以公司或专利作为fewshot首先所属标签示例范围较广不好整理其次严重影响LLM的响应时间因为输入长度变长。 9、人工未整理的关键词场景如何确保分类准确 答依赖于底层LLM能力这就是为什么选择Qwen2-72B的原因当前Qwen2-72B的效果属于业界翘首。 未来优化点 如果想要进一步提升准确率当前方案已经预留口子即标签的详细说明及垂直领域关键词的人工整理。标签说明越详细关键词整理的越完备分类的准确性就会越高。 但引出的问题是关键词的人工整理耗时耗力如何进一步减少人工整理成为下一步的优化方向。 总结 一句话足矣~ 本文主要是采用LLM实现产业治理领域的多标签分类任务包括具体的方案LLM工程层面优化实现效果以及未来的优化方向。 文章转载自mengrennwpu 原文链接https://www.cnblogs.com/mengrennwpu/p/18369900 体验地址引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构