当前位置: 首页 > news >正文

深圳手机移动网站开发百度搜一搜

深圳手机移动网站开发,百度搜一搜,怎么给网站在百度地图上做爬虫,设计小程序多少钱前言 这是我的github上的一个介绍,关于如何训练中文版本的gpt2的。链接为: https://github.com/yuanzhoulvpi2017/zero_nlp 介绍 本文,将介绍如何使用中文语料,训练一个gpt2可以使用你自己的数据训练,用来:写新闻、…

前言

  1. 这是我的github上的一个介绍,关于如何训练中文版本的gpt2的。
  2. 链接为: https://github.com/yuanzhoulvpi2017/zero_nlp

介绍

  1. 本文,将介绍如何使用中文语料,训练一个gpt2
  2. 可以使用你自己的数据训练,用来:写新闻、写古诗、写对联等
  3. 我这里也训练了一个中文gpt2模型,使用了612万个样本,每个样本有512个tokens,总共相当于大约31亿个tokens

⚠️安装包

需要准备好环境,也就是安装需要的包

pip install -r requirements.txt

像是pytorch这种基础的包肯定也是要安装的,就不提了。

数据

数据来源

  1. 获得数据:数据链接,关注公众号【统计学人】,然后回复【gpt2】即可获得。
  2. 获得我训练好的模型(使用了15GB的数据(31亿个tokens),在一张3090上,训练了60多小时)

数据格式

  1. 数据其实就是一系列文件夹📁,然后每一个文件夹里面有大量的文件,每一个文件都是.csv格式的文件。其中有一列数据是content
  2. 每一行的content就代表一句话,截图如下
  3. 虽然数据有15GB那么大,但是处理起来一点也不复杂,使用 datasets
    包,可以很轻松的处理大数据,而我只需要传递所有的文件路径即可,这个使用 glob 包就能完成。

代码

⚙️训练代码train_chinese_gpt2.ipynb

⚠️注意

  1. 现在训练一个gpt2代码,其实很简单的。抛开处理数据问题,技术上就三点:tokenizergpt2_modelTrainer
  2. tokenizer使用的是bert-base-chinese
    ,然后再添加一下bos_tokeneos_tokenpad_token
  3. gpt2_model使用的是gpt2,这里的gpt2我是从0开始训练的。而不是使用别人的预训练的gpt2模型。
  4. Trainer训练器使用的就是transformersTrainer模块。(支撑多卡并行,tensorboard等,都写好的,直接调用就行了,非常好用)

📤推理代码infer.ipynb

⚠️注意

这个是chinese-gpt2的推理代码

  1. 将代码中的model_name_or_path = "checkpoint-36000"里面的"checkpoint-36000",修改为模型所在的路径。
  2. 然后运行下面一个代码块,即可输出文本生成结果
  3. 可以参考这个代码,制作一个api,或者打包成一个函数或者类。

🤖交互机器人界面chatbot.py

⚠️注意

  1. 修改代码里面的第4行,这一行值为模型所在的位置,修改为我分享的模型文件路径。
model_name_or_path = "checkpoint-36000"
  1. 运行
python chatbot.py
  1. 点击链接,即可在浏览器中打开机器人对话界面

更多

  1. 这个完整的项目下来,其实我都是全靠huggingface文档、教程度过来的.
  2. 我做的东西,也就是把Tokenizer改成中文的了,然后也整理了数据,别的大部分东西,都不是我做的了.
  3. 原文链接为https://huggingface.co/course/zh-CN/chapter7/6?fw=pt.

一起学习

其实,我更喜欢做应用,但是也要理解相关的背后原理,目前还在研究相关的gpt2原理还有相关的推理细节,这是我整理的链接,希望可以共同进步

  1. https://huggingface.co/blog/how-to-generate
  2. https://huggingface.co/gpt2
  3. https://huggingface.co/gpt2-large
http://www.hkea.cn/news/959405/

相关文章:

  • flash网站制作公司能打开各种网站的浏览器下载
  • 网站开发是叫系统吗站长工具seo排名查询
  • 站长之家html模板西安网站seo技术厂家
  • 重庆网站建设 渝seo交流论坛
  • 洛阳市网站建设宁波seo网络推广软件系统
  • 做网站用建站模版好还是定制好百度站点
  • 关注济南网站建设深圳市企业网站seo
  • 安溪县住房和城乡建设网站色盲
  • 合肥做英文网站今日头条国际军事新闻
  • 西安有哪些做网站的公司好邵阳疫情最新消息
  • asia域名的网站竞价广告
  • 怎么注册公司支付宝账号seo求职信息
  • 多语言网站怎么做网络推广平台公司
  • 山东公司注册网站怎样写营销策划方案
  • 河北省香河县建设局网站中国互联网协会
  • 北京丰台区网站建设游戏推广赚佣金的平台
  • 网站没排名怎么办搜索引擎广告优化
  • wordpress内容主题模板网络网站推广选择乐云seo
  • 电子元器件商城网站建设百度开户怎么开
  • 企业网站开发基本流程百度博客收录提交入口
  • 甘特图模板关于网站建设微信营销模式
  • 网站建设的swot分析长尾关键词挖掘精灵
  • 发布自己的做家教的网站网店运营推广登录入口
  • b s网站系统如何做性能测试百度推广运营怎么做
  • 洛阳seo外包公司费用seo的中文意思
  • 政府网站建设遵循的原则seo网站内容优化
  • java做网站具体步骤邵阳seo优化
  • 自己做的网站如何放进服务器今天今日头条新闻
  • 男装网站的网站建设背景惠州seo按天计费
  • 如何快速提高网站排名互联网项目推广