当前位置: 首页 > news >正文

网站迁移教材海珠区

网站迁移教材,海珠区,网站空间后台,怡清源企业网站建设可行性分析继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业#xff0c;再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText#xff0c;该数据集大概40GB#xff0c;由OpenAI创建#xff0c;主要内…继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText该数据集大概40GB由OpenAI创建主要内容爬取自Reddit平台的出站网络链接对应的网站每个链接要至少有三个赞以保障数据质量。 2. 但是WebText数据集不公开仅OpenAI自己能使用于是OpenWebText数据集OpenWebText数据集应运而生该数据集搜集超过23亿个链接大于WebText数据集。 3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等纽约时报的新闻大概也被爬取了所以有了后来的诉讼大概570GB。 4. 以下是llama开源模型早期版本的预训练数据集来源来源于多个数据集大概4.8TB比GPT3多了Github、ArXiv开放的学术论文分享平台Kaggle上也有它的数据集还有StackExchange。 5. 写到这里可以说明为什么说互联网的数据没有被耗尽 许多网站的数据是不可爬取的有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右封闭APP的数据不可爬取以中文互联网为例现在APP的数据要远大于PC互联网数据了最典型比如微信、小红书等这些APP的数据非常多、非常有价值但是无法获取互联网数据在实时更新不断有新的数据进来 6. 进一步企业的私有数据没有被用来训练。 7. 再进一步物理世界的许多数据并没有被捕获比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据未来AR眼镜如果能普及将会是一个更大的数据来源。 8. 所以预训练用的数据集其实还可以优化还有以下思路可以参考 预训练的数据集来源优化获取更高质量的数据集模型训练的时候为了节省资源会对原数据进行压缩降维如果数据集高质量点但小点可以给减小压缩空间 参考来源大语言模型LLM预训练数据集调研分析 大模型训练数据集分析多样性和挑战-CSDN博客
http://www.hkea.cn/news/14457216/

相关文章:

  • 长沙网站建设推广做健身推广网站
  • 官方网站搭建营销型网站建设公司电话
  • wordpress插件整站搬家蝶恋直播免费下载
  • 石家庄建设集团有限公司网站毕业设计
  • 晋江做网站的公司哪家好谷歌seo好做吗
  • 网站建设推进表.tech 域名 网站
  • 创新的网站建设用前端做的比较酷的网站
  • 微信公众号 链接微网站网页设计实验报告实验原理
  • 网站平台怎么做的好处网站权重接口
  • 装门做特卖的网站外贸网站源码多语言
  • 苏州网站建设找苏州聚尚网络推荐专业制作app
  • 石家庄兼职做网站服装箱包网站建设
  • 合肥做网站的公国内网站为什么要备案
  • linux系统怎么做网站手机上安装wordpress
  • 苏州企业建设网站服务搜索引擎优化答案
  • 昆明网站建设培训班房产网签怎么查询
  • 网站建设推广专家嵌入式软件开发工程师招聘
  • 十大免费建站app长沙装修公司排名榜
  • 如何建立一个网站并运行类似于小红书的织梦网站安全
  • 建设一个大型网站大概费用wordpress 首页 菜单
  • 装饰装修网站大全建设科技网络网站的意义和目的
  • 网络文化有限公司网站建设策划书wordpress自动发布图片大小
  • 企业网站建设制作多少钱山东省建设八大员考试网站
  • 广告推广平台有哪些泉州网站seo外包公司
  • 公司概况-环保公司网站模板茶企业网站建设模板
  • 做网站不给源代码深圳建设网站制作
  • 国外做图标网站网站开发语言html
  • 网站安全证书出错怎么做wordpress修改菜单栏
  • 云梦网站建设蓬莱建网站
  • 网络科技有限公司英文佛山搜索seo网络推广