当前位置: 首页 > news >正文

湖南营销型网站建设磐石网络省钱网站迁移教材

湖南营销型网站建设磐石网络省钱,网站迁移教材,建设部招标网站,东莞建网站继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业#xff0c;再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText#xff0c;该数据集大概40GB#xff0c;由OpenAI创建#xff0c;主要内…继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText该数据集大概40GB由OpenAI创建主要内容爬取自Reddit平台的出站网络链接对应的网站每个链接要至少有三个赞以保障数据质量。 2. 但是WebText数据集不公开仅OpenAI自己能使用于是OpenWebText数据集OpenWebText数据集应运而生该数据集搜集超过23亿个链接大于WebText数据集。 3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等纽约时报的新闻大概也被爬取了所以有了后来的诉讼大概570GB。 4. 以下是llama开源模型早期版本的预训练数据集来源来源于多个数据集大概4.8TB比GPT3多了Github、ArXiv开放的学术论文分享平台Kaggle上也有它的数据集还有StackExchange。 5. 写到这里可以说明为什么说互联网的数据没有被耗尽 许多网站的数据是不可爬取的有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右封闭APP的数据不可爬取以中文互联网为例现在APP的数据要远大于PC互联网数据了最典型比如微信、小红书等这些APP的数据非常多、非常有价值但是无法获取互联网数据在实时更新不断有新的数据进来 6. 进一步企业的私有数据没有被用来训练。 7. 再进一步物理世界的许多数据并没有被捕获比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据未来AR眼镜如果能普及将会是一个更大的数据来源。 8. 所以预训练用的数据集其实还可以优化还有以下思路可以参考 预训练的数据集来源优化获取更高质量的数据集模型训练的时候为了节省资源会对原数据进行压缩降维如果数据集高质量点但小点可以给减小压缩空间 参考来源大语言模型LLM预训练数据集调研分析 大模型训练数据集分析多样性和挑战-CSDN博客
http://www.hkea.cn/news/14333209/

相关文章:

  • 给酒吧做网站一个在线做笔记的网站
  • 生鲜网站怎么做wordpress模版如何使用教程
  • 企业建网站的费用wordpress 会员 按月
  • 自助建站加盟微信公众平台如何绑定网站
  • 网站怎么进入后台维护同时部署WordPress和django
  • 常州网站搭建公司wordpress获取指定目录的文章
  • 山西网站制作平台网页制作与设计ppt
  • 鑫诺科技网站建设海南响应式网站建设哪里好
  • 美食app界面设计模板湖南网站建设seo
  • 网站301重定向 注意事项百度网站前面的图片
  • 福田网站制作浙江备案需要开启网站吗
  • 简单的网站设计图南通建筑人才网
  • 做网站需要多久大型网站怎样做优化PHP
  • 网站建设程序制作wordpress调用留言
  • 人才共享网站的建设方案怎么写贵阳利于优化的网站
  • 罗湖网站建设设计WordPress安装主题都不行
  • 网站访问量统计工具现在注册公司流程和费用
  • 网站首页模板代码电脑网络
  • 做网站平台的营业执照中天建设集团网站
  • 网站建设策划报价响应式网站模板 视差
  • 全媒体门户网站建设方案腾讯云服务器租用费用
  • 火车wordpress高州网站seo
  • 公交公司网站建设的意义网站搭建中企动力第一
  • 餐饮连锁企业网站建设方案用网站源码怎么做网站
  • 西安做网站的公司哪家好wordpress 数据库脚本
  • 焦作网站建设哪家公司好购物网站成功案例
  • 有哪些好的模板网站做网站坚持多少年会有起色
  • 宁波网站建设制作公司排名网站开发成本最低多少钱
  • 网站访问统计js代码设计师网站外网
  • 备案时网站名称可以重复吗绍兴seo排名收费