当前位置: 首页 > news >正文

做国际网站的上海高端网站公司微信平台微网站开发

做国际网站的上海高端网站公司,微信平台微网站开发,深圳百度竞价托管公司,戴尔网站建设和维护现在的huggingface库里面Tokenizer有两种#xff0c;一种就是普通的#xff0c;另一种是fast的。fast和普通的区别就是fast使用rust语言编写#xff0c;在处理大量文本的时候会更快。我自己测试的时候单一一句的话fast要比普通的慢一些#xff0c;当量叠上来#xff0c;到…现在的huggingface库里面Tokenizer有两种一种就是普通的另一种是fast的。fast和普通的区别就是fast使用rust语言编写在处理大量文本的时候会更快。我自己测试的时候单一一句的话fast要比普通的慢一些当量叠上来到100个句子1000个句子的时候fast要成倍数的更快。 下面使用构建自己模型的Tokenizer-CSDN博客中构造的自己的Tokenizer把它变成TokenizerFast。 首先要导入对sentencepiece模型进行转换的包 from transformers.convert_slow_tokenizer import SpmConverter from tokenizers import processors from transformers import T5TokenizerFast, PreTrainedTokenizerBase 其实主要的转换就是对分词模型的转换。processors用来规定tokenize之后的句子之后是否要加“/s”之类的special token。 接下来要定义一个用来convert的类。这个类会将普通Tokenizer的instance变成fast的Tokenizer的instance。 class MyTokenizerConvertor(SpmConverter):def vocab(self, proto):vocab [(piece.piece, piece.score) for piece in proto.pieces]loc_extra_ids self.original_tokenizer._loc_extra_idsvocab vocab [(loc_{}.format(i), 0.0) for i in range(0, loc_extra_ids)]return vocabdef post_processor(self):return processors.TemplateProcessing(single[$A, /s],pair[$A, /s, $B, /s],special_tokens[(/s, self.original_tokenizer.convert_tokens_to_ids(/s)),]) 其中vocab将新的词表进行了更新使得词表长度是原来的词表长度加上我们额外定义的special token的长度。 post_processor定义了当我们使用.encode方法时候单句和两句的分词行为 有post_processor定义在使用的时候会自动添加special token这里post_processor最多处理两句多句就报错了。 定义一个进行转换的函数 def convert_slow_to_fast(MyTokenizer):return MyTokenizerConvertor(MyTokenizer).converted() 接下来就可以定义我们的TokenizerFast了 class MyTokenizerFast(T5TokenizerFast):slow_tokenizer_class MyTokenizerdef __init__(self,vocab_file,tokenizer_fileNone,eos_token/s,unk_tokenunk,pad_tokenpad,loc_extra_ids100,sp_model_kwargsNone,additional_special_tokens[],**kwargs):self.vocab_file vocab_fileself._loc_extra_ids loc_extra_ids# self.sp_model_kwargs {} if sp_model_kwargs is None else sp_model_kwargs# self.sp_model spm.SentencePieceProcessor(**self.sp_model_kwargs)# self.sp_model.Load(self.vocab_file)additional_special_tokens.extend([loc_{}.format(i) for i in range(0, self._loc_extra_ids)])self.additional_special_tokens additional_special_tokensslow_tokenizer self.slow_tokenizer_class(vocab_file,tokenizer_filetokenizer_file,eos_tokeneos_token,unk_tokenunk_token,pad_tokenpad_token,loc_extra_idsloc_extra_ids,additional_special_tokensself.additional_special_tokens,**kwargs)fast_tokenizer convert_slow_to_fast(slow_tokenizer)self._tokenizer fast_tokenizerPreTrainedTokenizerBase.__init__(self,tokenizer_filetokenizer_file,eos_tokeneos_token,unk_tokenunk_token,pad_tokenpad_token,additional_special_tokensself.additional_special_tokens,**kwargs,) 上面就大功告成了可以分别初始化一个普通的和一个fast的看看效果 mytokenizer MyTokenizer(path/to/spiece.model) mytokenizerfast MyTokenizerFast(path/to/spiece.model) import timetexts [This is a test sentence to tokenize. for _ in range(1000)] # 100 个句子# 修改计时函数以处理多个句子 def measure_time_batch(tokenizer, texts, iterations100):start_time time.time()for _ in range(iterations):_ tokenizer.batch_encode_plus(texts)end_time time.time()return end_time - start_timeslow_tokenizer_time measure_time_batch(mytokenizer, texts) print(fSlow tokenizer time for batch: {slow_tokenizer_time:.4f} seconds)fast_tokenizer_time measure_time_batch(mytokenizerfast, texts) print(fFast tokenizer time for batch: {fast_tokenizer_time:.4f} seconds)
http://www.hkea.cn/news/14378411/

相关文章:

  • 怎么做移动端网站计算像素成都定制软件开发公司
  • 去国外做非法网站吗公众平台推广
  • 婚庆影楼型网站开发爱企查官网
  • 通过企业画册宣传_网络网站建设_新闻媒体合作等方式_做儿童成长相册模版网站
  • 苏州网站建设-中国互联windows系统的vps网站防攻击
  • win7系统做asp网站企业logo设计思路
  • 以下哪一项不属于seo对网站推广的作用做企业网站设计
  • 商务网站建设营销景观设计学
  • 长春网站建设哪家好企业邮箱的推荐
  • 电商网站建设行情辽宁鹤城建设集团网站
  • 郑州艾特软件 网站建设wordpress数据库忘记了
  • 做go分析和kegg分析网站中英文网站用同域名
  • 天下网商自助建站系统如何建立视频号
  • 常用的网站推广的方式方法广西东晋建设有限公司网站
  • 知名网站有哪些网站专做盗版小说 会犯法吗
  • 淘宝网站框架招聘网站免费平台
  • 政务网站集约化建设wordpress 小说模版
  • 江苏省医院网站建设管理规范万网有域名怎么建网站
  • 网站开发 慕课网站快速排名优化
  • 电子商务网站建设的流程济宁医院网站建设
  • 网站与域名的区别建站公司 深圳
  • 小米wifi设置网址入口网站dede网站qq类资源源码
  • 网站运营的提成方案怎么做岳阳网站建设哪里便宜
  • 莆田高端网站建设沈阳网站建设公众号
  • 建设项目环境影响登记表网站博物馆网站做的最好的
  • 网站内容的编辑和更新怎么做的35互联做的网站后台怎样登录
  • 网站建设课程性质网站建设的公司地址
  • wordpress 静态 弊端淄博网站优化推广
  • 周口建设公司网站网站推广营销方案
  • 互联网 现代农业网站建设市政建设招标网站有哪些