当前位置: 首页 > news >正文

网站建设需求模板下载交换友情链接的意义是什么

网站建设需求模板下载,交换友情链接的意义是什么,一个人做的网站做什么好,程家桥街道网站建设一、TL;DR 重要性:数据质量 > 数据数量数据质量提升原则:提升数据多样性和分布和提升数据质量和高质量数据数量具体如何提升:针对传统NN任务、LLM任务和MLLMs任务,方法和侧重点不一样如何使用这些方法:…

一、TL;DR

  1. 重要性:数据质量 > 数据数量
  2. 数据质量提升原则提升数据多样性和分布和提升数据质量和高质量数据数量
  3. 具体如何提升:针对传统NN任务、LLM任务和MLLMs任务,方法和侧重点不一样
  4. 如何使用这些方法将这些方法做成算子写入pipeline框架进行大规模使用
  5. 做完这些还缺什么:数据飞轮+数据合成

二、总体原则

数据重要性维度:数据质量 > 数据数量

数据质量维度,我觉得阿里的data-juicer总结的很好,如下所示:

  1. 提升数据多样性和分布
  2. 提升数据质量和高质量数据数量

总体来说,阿里采用了一些启发式的规则以算子的形式通过ray部署进入数据pipeline,将源源不断的各类数据通过这些算子进行去重和过滤,得到最终的数据集。

三、如何提升数据质量

不同的任务对数据质量的提升方法不一样,如下所示。

3.1 detection/seg/classification等传统NN任务

  1. 传统的NN任务可以使用active learning/coreset挑选/数据蒸馏的方式来做,基本可以做到30%的数据达到90%以上的性能,比如我之前的博客:
    1. https://blog.csdn.net/lovep1/article/details/146779443
    2. 核心集:DeepCore: A Comprehensive Library for CoresetSelection in Deep Learning-CSDN博客

3.2 LLM等大语言模型相关的任务

可以使IFD/MoDs/困惑度等LLM相关质量指标进行NLP数据过滤,GPT3使用未开源的过滤手段可以将40T的数据压缩至400G,压缩率98%,LIMA可以只使用1000条数据训练,具体的方法可以参考我之前的博客

  1. https://blog.csdn.net/lovep1/article/details/147032636

    3.3 MLLMs等多模态任务

    可以使用启发式规则+清洗的方式进行过滤,可以参考我之前的博客:

    1. https://blog.csdn.net/lovep1/category_12871625.html
    2. 数据质量-MetaCLIP:DEMYSTIFYING CLIP DATA-CSDN博客

    四、如何提升数据多样性

    数据多样性一般从数据用途、数据形式和数据语义三个方面进行处理。核心目的:挑选出最具备diversity的分布:

    4.1 数据用途(我的理解)

    4.1.1 不同领域

    大模型预训练或者sft时不同领域进行混合得到的数据,相当于不同的下游任务的场景,可以参考我之前的博客:InternVL2.5:Expanding Performance Boundaries of Open-SourceMultimodal Models 论文理解-CSDN博客

    4.1.2 相同领域/相同模态

    对同类型或者同模态的数据从各种细节上要求多样性,比如同一种语言代表不同的语义、同一种语言不同的翻译等:

    1. 以视频模态为例,对地域、语言等做出多样性要求

    4.2 数据形式

    这边主要是指prompt和对应的answer的形式:

    1. prompt表达方式的多样性:同一个语义在不同的场景和上下文中回答
    2. prompt的难度:对prompt的难度进行把控,使得在同一语义空间的prompt变得足够的差异化和多样性,比如Wizard方法
    3. prompt/answer的长度:既要保留长数据,也要保留短数据,所谓的长数据还需要将各种重点信息隐藏在长句子中
    4. answer的分布多样性:answer需要足够的diversity

    4.3 数据语义

    数据语义其实在MLLMs中是存在的比较多的,我的理解是通过图像/视频语义的分布来进行数据的筛选,如下所示:

    数据质量-SemDeDup: Data-efficient learning at web-scale through semantic deduplication_semdedup去重-CSDN博客

    五、如何使用这些方法呢

    我们可以将上述的方法和规则做成算子写到data-juicer等框架里面,做成数据filter的pipeline,这样就可以大规模的将网上的爬虫数据、公开数据、领域数据进行蒸馏和压缩,从而获得高质量数据。

    http://www.hkea.cn/news/253423/

    相关文章:

  1. 开发一个交易网站多少钱在线工具
  2. 网站平台怎么建立的软文范例
  3. 移动应用开发专业学什么东莞seo软件
  4. 做宣传网站的公司手机百度极速版app下载安装
  5. 私人可以做慈善网站吗外贸如何推广
  6. 网站页面模板页面布局如何成为百度广告代理商
  7. 瑞安外贸网站建设曲靖百度推广
  8. 先做网站还是服务器销售营销方案100例
  9. 用卫生纸做的礼物街网站免费网页空间到哪申请
  10. 手游网站做cpc还是cpm广告号厦门网页搜索排名提升
  11. 人个做外贸用什么网站好宁波百度seo点击软件
  12. 诈骗网站怎么做的企业网站seo案例分析
  13. 如何做网站接口湖南营销型网站建设
  14. 进入兔展网站做PPt软文营销ppt
  15. app网站新闻危机公关
  16. 东莞关键词优化实力乐云seo南宁seo外包服务商
  17. 做网站都是用源码么免费注册个人网站不花钱
  18. 建设网站需要两种服务支持官网设计公司
  19. 安庆做网站seo建站收费地震
  20. 绵阳住房和城市建设局网站官网seo排名优化联系13火星软件
  21. 网站开发建设费用关键词异地排名查询
  22. 网站建设企业电话广州优化疫情防控举措
  23. 重庆模板网站建设百度网站域名注册
  24. 安徽建设厅网站地址网络广告推广方式
  25. 门户网站内容管理建设方案企业关键词优化推荐
  26. 北京网站建设公司飞沐小学生一分钟新闻播报
  27. 企业网站建设申请域名seo赚钱
  28. 2017网站开发前景百度网盘资源链接入口
  29. 平面广告设计主题seo是怎么优化上去
  30. 正规网站制作公司哪家好四年级写一小段新闻