当前位置: 首页 > news >正文

电子商务网站规划与管理庆阳市建设局网站

电子商务网站规划与管理,庆阳市建设局网站,企业推广专员招聘,手机排名哪个网站最权威文章目录 解决tiktoken库调用get_encoding时SSL超时1. 获取词表文件url2. 手动下载词表文件并保存到本地3. 复制并重命名文件4. 环境变量中设置tiktoken cache5. 使用tiktoken库参考资料 解决tiktoken库调用get_encoding时SSL超时 最近在看Build a Large Language Model (From… 文章目录 解决tiktoken库调用get_encoding时SSL超时1. 获取词表文件url2. 手动下载词表文件并保存到本地3. 复制并重命名文件4. 环境变量中设置tiktoken cache5. 使用tiktoken库参考资料 解决tiktoken库调用get_encoding时SSL超时 最近在看Build a Large Language Model (From Scratch) 这本书。在该书的第二章中作者尝试使用tiktoken库构建一个tokenizer。然而当我执行以下代码时程序报错。 import tiktoken tokenizer tiktoken.get_encoding(gpt2)ConnectTimeout: HTTPSConnectionPool(hostopenaipublic.blob.core.windows.net, port443): Max retries exceeded with url: /encodings/gpt2.tiktoken (Caused by ConnectTimeoutError(urllib3.connection.HTTPSConnection object at 0x7fd41b819630, Connection to openaipublic.blob.core.windows.net timed out. (connect timeoutNone)))这个错误的根本原因是构建tokenizer时tiktoken库尝试下载词表文件遇到网络问题而失败。一个可行的解决方案时先手动下载文件到本地然后让tiktoken直接从本地文件读取数据并构建tokenizer。 1. 获取词表文件url First, let’s grab the tokenizer blob URL from the source on your remote machine. If we trace the get_encoding function, we find it calls a function from tiktoken_ext.openai_public which has the blob URIs for each encoder. Identify the correct function, then print the source 首先需要查看一下构建我们所需的tokenizer需要哪些词表文件。我这里需要使用构建名为gpt2的tokenizer。从下面的输出信息可以看到还有 o200k_base, p50k_base等可供选择。结果显示构建gpt2tokenizer需要下载vocab.bpe和encoder.json两个文件。 import tiktoken_ext.openai_public import inspectprint(dir(tiktoken_ext.openai_public)) # The encoder we want is cl100k_base, we see this as a possible functionprint(inspect.getsource(tiktoken_ext.openai_public.gpt2)) # The URL should be in the load_tiktoken_bpe function call运行结果 [ENCODING_CONSTRUCTORS, ENDOFPROMPT, ENDOFTEXT, FIM_MIDDLE, FIM_PREFIX, FIM_SUFFIX, __builtins__, __cached__, __doc__, __file__, __loader__, __name__, __package__, __spec__, cl100k_base, data_gym_to_mergeable_bpe_ranks, gpt2, load_tiktoken_bpe, o200k_base, p50k_base, p50k_edit, r50k_base] def gpt2():mergeable_ranks data_gym_to_mergeable_bpe_ranks(vocab_bpe_filehttps://openaipublic.blob.core.windows.net/gpt-2/encodings/main/vocab.bpe,encoder_json_filehttps://openaipublic.blob.core.windows.net/gpt-2/encodings/main/encoder.json,vocab_bpe_hash1ce1664773c50f3e0cc8842619a93edc4624525b728b188a9e0be33b7726adc5,encoder_json_hash196139668be63f3b5d6574427317ae82f612a97c5d1cdaf36ed2256dbf636783,)return {name: gpt2,explicit_n_vocab: 50257,# The pattern in the original GPT-2 release is:# rs|t|re|ve|m|ll|d| ?[\p{L}]| ?[\p{N}]| ?[^\s\p{L}\p{N}]|\s(?!\S)|\s# This is equivalent, but executes faster:pat_str: r(?:[sdmt]|ll|ve|re)| ?\p{L}| ?\p{N}| ?[^\s\p{L}\p{N}]|\s(?!\S)|\s,mergeable_ranks: mergeable_ranks,special_tokens: {ENDOFTEXT: 50256},}2. 手动下载词表文件并保存到本地 根据步骤1获得的url手动下载词表文件并保存到本地。 3. 复制并重命名文件 新建一个文件夹.tiktoken将下载的词表文件复制至该文件夹。重命名各文件新的文件值可以通过执行以下代码获取。blobpath是步骤1中获取的该文件对应的url值。 import hashlibblobpath your_blob_url_here cache_key hashlib.sha1(blobpath.encode()).hexdigest() print(cache_key)比如对于我刚刚下载的encoder.json文件结果如下 import hashlibblobpath https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/encoder.json cache_key hashlib.sha1(blobpath.encode()).hexdigest() print(cache_key)6c7ea1a7e38e3a7f062df639a5b80947f075ffe6于是将encoder.json重命名为6c7ea1a7e38e3a7f062df639a5b80947f075ffe6注意重命名后的文件不带.json后缀。 4. 环境变量中设置tiktoken cache 执行以下代码指定tiktoken cache为.titoken文件夹。注意每次使用tiktoken库时都要运行下述代码。 import ostiktoken_cache_dir path_to_folder_containing_tiktoken_file os.environ[TIKTOKEN_CACHE_DIR] tiktoken_cache_dir# validate assert os.path.exists(os.path.join(tiktoken_cache_dir, cache_key))5. 使用tiktoken库 现在应该可以正常使用tiktoken库构建tokenizer。 encoding tiktoken.get_encoding(gpt2) encoding.encode(Hello, world)[15496, 11, 995]参考资料 [1] SSLError: HTTPSConnectionPool(host‘openaipublic.blob.core.windows.net’, port443): Max retries exceeded with url · Issue #281 · openai/tiktoken (github.com) [2] python - how to use tiktoken in offline mode computer - Stack Overflow
http://www.hkea.cn/news/14465684/

相关文章:

  • 网站模板打包下载sem竞价是什么意思
  • 爱心互助网站开发站长平台seo
  • 阜蒙县建设学校网站是什么wordpress弄个人博客好吗
  • 购物网站建设多少钱手机网站开发相关问题
  • 网站开发用什么电脑做网站的前台用什么工具
  • iis7.5发布网站教程网站设计模板是什么
  • 展示型商城订单网站建设赤峰建设银行网站
  • 网站备案对网站负责人的要求新建网站如何推广
  • 建设网站是要先建站在备案么东莞百度推广优化公司
  • 北京海淀公司网站icp备案网站页面设计制作费
  • wordpress翻译公司网站top域名的网站打不开
  • 阿里巴巴网站域名注册怎么自己设计logo
  • 固安企业网站建设杭州企业自助建站系统
  • 什么类型网站免费笑话网站系统
  • 企业网站建设方案平台seo这个行业怎么样
  • 网站文件夹名称广州自建网站哪家服务好
  • 北京企业建站定制抖音关键词排名系统
  • 城关网站seo五屏网站建设哪家有
  • 用ps怎么做网站步骤wordpress音乐模板下载
  • 企业电商网站优化注册城乡规划师合格标准
  • 北京网站设计价格seo引流什么意思
  • 做网站建设的合同网站建设培训班价格
  • 北京考试学院网站首页wordpress表格主题
  • 网站流量排名查询湖北襄阳网站建设
  • 河南网站设计黑龙江省住房和城乡建设网站
  • 建设二手商品网站总结建设银行官网首页 网站
  • 旅游网站设计与实现论文wordpress cms 插件
  • 企业购网站建设做个简单的公司网站要多少钱
  • 微信微博网站建设意见书怎么选择移动网站建设
  • 深圳网站设计廊坊公司购物系统数据库设计