当前位置: 首页 > news >正文

做好的网页上传到wordpress前端seo优化

做好的网页上传到wordpress,前端seo优化,找客户软件,微信代理网站模板目录 机器翻译与数据集下载和预处理数据集预处理步骤词元化词汇表该部分总代码 固定长度阶段或填充该部分总代码 转换成小批量数据集用于训练训练模型总代码 机器翻译与数据集 import os import torch from d2l import torch as d2l下载和预处理数据集 #save d2l.DATA_HUB[fr… 目录 机器翻译与数据集下载和预处理数据集预处理步骤词元化词汇表该部分总代码 固定长度阶段或填充该部分总代码 转换成小批量数据集用于训练训练模型总代码 机器翻译与数据集 import os import torch from d2l import torch as d2l下载和预处理数据集 #save d2l.DATA_HUB[fra-eng] (d2l.DATA_URL fra-eng.zip,94646ad1522d915e7b0f9296181140edcf86a4f5)#save def read_data_nmt():载入“英语法语”数据集data_dir d2l.download_extract(fra-eng)with open(os.path.join(data_dir, fra.txt), r,encodingutf-8) as f:return f.read()raw_text read_data_nmt() print(raw_text[:75])预处理步骤 import os import torch from d2l import torch as d2l# 下载和预处理数据集 # 将数据集的下载链接和校验码与fra-eng标识关联起来 d2l.DATA_HUB[fra-eng] (d2l.DATA_URL fra-eng.zip,94646ad1522d915e7b0f9296181140edcf86a4f5)def read_data_nmt():载入 “英语-法语” 数据集 # 下载并解压数据集data_dir d2l.download_extract(fra-eng)# 读取数据并返回with open(os.path.join(data_dir, fra.txt), r, encodingutf-8) as f:return f.read()# 几个预处理步骤 def preprocess_nmt(text):预处理 “英语-法语” 数据集# 判断字符是否是特定标点符号并且前一个字符不是空格def no_space(char, prev_char):return char in set(,.!?) and prev_char ! # 替换特殊字符为空格转换为小写text text.replace(\u202f, ).replace(\xa0, ).lower()out [# 对于每个字符如果它的索引大于0即不是第一个字符并且满足 no_space 函数的条件,则在该字符前添加一个空格否则直接使用该字符。 char if i 0 and no_space(char, text[i - 1]) else char# enumerate 函数将字符串 text 中的每个字符及其索引打包成元组i为下标、char为字符for i, char in enumerate(text)]return .join(out) # 将处理后的字符列表转换为字符串# 调用函数读取数据集 raw_text read_data_nmt() # 调用预处理函数处理原始文本 text preprocess_nmt(raw_text) # 打印处理后的文本的前80个字符 print(text[:75]) 词元化 import os from d2l import torch as d2l# 下载和预处理数据集 # 将数据集的下载链接和校验码与fra-eng标识关联起来 d2l.DATA_HUB[fra-eng] (d2l.DATA_URL fra-eng.zip,94646ad1522d915e7b0f9296181140edcf86a4f5)def read_data_nmt():载入 “英语-法语” 数据集 # 下载并解压数据集data_dir d2l.download_extract(fra-eng)# 读取数据并返回with open(os.path.join(data_dir, fra.txt), r, encodingutf-8) as f:return f.read()# 几个预处理步骤 def preprocess_nmt(text):预处理 “英语-法语” 数据集# 判断字符是否是特定标点符号并且前一个字符不是空格def no_space(char, prev_char):return char in set(,.!?) and prev_char ! # 替换特殊字符为空格转换为小写text text.replace(\u202f, ).replace(\xa0, ).lower()out [# 对于每个字符如果它的索引大于0即不是第一个字符并且满足 no_space 函数的条件,则在该字符前添加一个空格否则直接使用该字符。 char if i 0 and no_space(char, text[i - 1]) else char# enumerate 函数将字符串 text 中的每个字符及其索引打包成元组i为下标、char为字符for i, char in enumerate(text)]return .join(out) # 将处理后的字符列表转换为字符串# 指定处理的示例数量。如果为 None则处理所有行。 def tokenize_nmt(text, num_examplesNone):词元化 “英语-法语” 数据数据集 # 存储英语和法语的词元序列source, target [], []# 将每一行及其索引打包成元组 (i, line)for i, line in enumerate(text.split(\n)):# 如果指定了num_examples且当前行索引i大于num_examples则结束循环if num_examples and i num_examples:break# 按制表符分割行parts line.split(\t)# 如果行中包含了两个部分if len(parts) 2:# 将英语部分按空格分割为词元并添加到source列表source.append(parts[0].split( )) # 英语# 将法语部分按空格分割为词元并添加到target列表target.append(parts[1].split( )) # 法语return source, target# 调用函数读取数据集 raw_text read_data_nmt() # 调用预处理函数处理原始文本 text preprocess_nmt(raw_text)# 调用函数词元化文本 source, target tokenize_nmt(text) # 打印source和target的前6个词元序列 print(source[:6]) print(target[:6]) 绘制每个文本序列所包含的标记数量的直方图。 import os import torch from d2l import torch as d2l# 下载和预处理数据集 # 将数据集的下载链接和校验码与fra-eng标识关联起来 d2l.DATA_HUB[fra-eng] (d2l.DATA_URL fra-eng.zip,94646ad1522d915e7b0f9296181140edcf86a4f5)def read_data_nmt():载入 “英语-法语” 数据集 # 下载并解压数据集data_dir d2l.download_extract(fra-eng)# 读取数据并返回with open(os.path.join(data_dir, fra.txt), r, encodingutf-8) as f:return f.read()# 几个预处理步骤 def preprocess_nmt(text):预处理 “英语-法语” 数据集# 判断字符是否是特定标点符号并且前一个字符不是空格def no_space(char, prev_char):return char in set(,.!?) and prev_char ! # 替换特殊字符为空格转换为小写text text.replace(\u202f, ).replace(\xa0, ).lower()out [# 对于每个字符如果它的索引大于0即不是第一个字符并且满足 no_space 函数的条件,则在该字符前添加一个空格否则直接使用该字符。 char if i 0 and no_space(char, text[i - 1]) else char# enumerate 函数将字符串 text 中的每个字符及其索引打包成元组i为下标、char为字符for i, char in enumerate(text)]return .join(out) # 将处理后的字符列表转换为字符串# 指定处理的示例数量。如果为 None则处理所有行。 def tokenize_nmt(text, num_examplesNone):词元化 “英语-法语” 数据数据集 # 存储英语和法语的词元序列source, target [], []# 将每一行及其索引打包成元组 (i, line)for i, line in enumerate(text.split(\n)):# 如果指定了num_examples且当前行索引i大于num_examples则结束循环if num_examples and i num_examples:break# 按制表符分割行parts line.split(\t)# 如果行中包含了两个部分if len(parts) 2:# 将英语部分按空格分割为词元并添加到source列表source.append(parts[0].split( )) # 英语# 将法语部分按空格分割为词元并添加到target列表target.append(parts[1].split( )) # 法语return source, target# 调用函数读取数据集 raw_text read_data_nmt() # 调用预处理函数处理原始文本 text preprocess_nmt(raw_text)# 调用函数词元化文本 source, target tokenize_nmt(text) # 设置图形大小 d2l.set_figsize() # 绘制每个文本序列所包含的标记数量的直方图根据句子长度做的直方图 _, _, patches d2l.plt.hist([[len(l)for l in source], [len(l) for l in target]],label [source,target]) # 添加标签 # 遍历第二个直方图的每个矩形 for patch in patches[1].patches:# 设置矩形的填充样式为斜线patch.set_hatch(/) # 添加图例位于右上角 d2l.plt.legend(locupper right) d2l.plt.show() 词汇表 # 创建源语言的词汇表对象 src_vocab d2l.Vocab(source, min_freq2,reserved_tokens[pad, bos, eos]) # pad表示句子的填充bos 表示句子开始eos表示句子结束min_freq2表示句子长度小于2个就不要了 # 计算词汇表的大小 print(len(src_vocab)) 该部分总代码 import os import torch from d2l import torch as d2l# 下载和预处理数据集 # 将数据集的下载链接和校验码与fra-eng标识关联起来 d2l.DATA_HUB[fra-eng] (d2l.DATA_URL fra-eng.zip,94646ad1522d915e7b0f9296181140edcf86a4f5)def read_data_nmt():载入 “英语-法语” 数据集 # 下载并解压数据集data_dir d2l.download_extract(fra-eng)# 读取数据并返回with open(os.path.join(data_dir, fra.txt), r, encodingutf-8) as f:return f.read()# 几个预处理步骤 def preprocess_nmt(text):预处理 “英语-法语” 数据集# 判断字符是否是特定标点符号并且前一个字符不是空格def no_space(char, prev_char):return char in set(,.!?) and prev_char ! # 替换特殊字符为空格转换为小写text text.replace(\u202f, ).replace(\xa0, ).lower()out [# 对于每个字符如果它的索引大于0即不是第一个字符并且满足 no_space 函数的条件,则在该字符前添加一个空格否则直接使用该字符。 char if i 0 and no_space(char, text[i - 1]) else char# enumerate 函数将字符串 text 中的每个字符及其索引打包成元组i为下标、char为字符for i, char in enumerate(text)]return .join(out) # 将处理后的字符列表转换为字符串# 指定处理的示例数量。如果为 None则处理所有行。 def tokenize_nmt(text, num_examplesNone):词元化 “英语-法语” 数据数据集 # 存储英语和法语的词元序列source, target [], []# 将每一行及其索引打包成元组 (i, line)for i, line in enumerate(text.split(\n)):# 如果指定了num_examples且当前行索引i大于num_examples则结束循环if num_examples and i num_examples:break# 按制表符分割行parts line.split(\t)# 如果行中包含了两个部分if len(parts) 2:# 将英语部分按空格分割为词元并添加到source列表source.append(parts[0].split( )) # 英语# 将法语部分按空格分割为词元并添加到target列表target.append(parts[1].split( )) # 法语return source, target# 调用函数读取数据集 raw_text read_data_nmt() # 调用预处理函数处理原始文本 text preprocess_nmt(raw_text)# 调用函数词元化文本 source, target tokenize_nmt(text) # 创建源语言的词汇表对象 src_vocab d2l.Vocab(source, min_freq2,reserved_tokens[pad, bos, eos]) # pad表示句子的填充bos 表示句子开始eos表示句子结束min_freq2表示句子长度小于2个就不要了 # 计算词汇表的大小 print(len(src_vocab)) 固定长度阶段或填充 序列样本都有一个固定的长度截断或填充文本序列 # 序列样本都有一个固定长度截断或填充文本序列 def truncate_pad(line, num_steps, padding_token):截断或填充文本序列# 如果文本序列长度超过了指定的长度if len(line) num_steps:# 截断文本序列取前num_steps个词元return line[:num_steps]# 填充文本序列添加padding_token直到长度达到num_stepsreturn line [padding_token] * (num_steps - len(line)) # 对源语言的第一个文本序列进行截断或填充 print(truncate_pad(src_vocab[source[0]], 10, src_vocab[pad]))该部分总代码 import os import torch from d2l import torch as d2l# 下载和预处理数据集 # 将数据集的下载链接和校验码与fra-eng标识关联起来 d2l.DATA_HUB[fra-eng] (d2l.DATA_URL fra-eng.zip,94646ad1522d915e7b0f9296181140edcf86a4f5)def read_data_nmt():载入 “英语-法语” 数据集 # 下载并解压数据集data_dir d2l.download_extract(fra-eng)# 读取数据并返回with open(os.path.join(data_dir, fra.txt), r, encodingutf-8) as f:return f.read()# 几个预处理步骤 def preprocess_nmt(text):预处理 “英语-法语” 数据集# 判断字符是否是特定标点符号并且前一个字符不是空格def no_space(char, prev_char):return char in set(,.!?) and prev_char ! # 替换特殊字符为空格转换为小写text text.replace(\u202f, ).replace(\xa0, ).lower()out [# 对于每个字符如果它的索引大于0即不是第一个字符并且满足 no_space 函数的条件,则在该字符前添加一个空格否则直接使用该字符。 char if i 0 and no_space(char, text[i - 1]) else char# enumerate 函数将字符串 text 中的每个字符及其索引打包成元组i为下标、char为字符for i, char in enumerate(text)]return .join(out) # 将处理后的字符列表转换为字符串# 指定处理的示例数量。如果为 None则处理所有行。 def tokenize_nmt(text, num_examplesNone):词元化 “英语-法语” 数据数据集 # 存储英语和法语的词元序列source, target [], []# 将每一行及其索引打包成元组 (i, line)for i, line in enumerate(text.split(\n)):# 如果指定了num_examples且当前行索引i大于num_examples则结束循环if num_examples and i num_examples:break# 按制表符分割行parts line.split(\t)# 如果行中包含了两个部分if len(parts) 2:# 将英语部分按空格分割为词元并添加到source列表source.append(parts[0].split( )) # 英语# 将法语部分按空格分割为词元并添加到target列表target.append(parts[1].split( )) # 法语return source, target# 序列样本都有一个固定长度截断或填充文本序列 def truncate_pad(line, num_steps, padding_token):截断或填充文本序列# 如果文本序列长度超过了指定的长度if len(line) num_steps:# 截断文本序列取前num_steps个词元return line[:num_steps]# 填充文本序列添加padding_token直到长度达到num_stepsreturn line [padding_token] * (num_steps - len(line))# 调用函数读取数据集 raw_text read_data_nmt() # 调用预处理函数处理原始文本 text preprocess_nmt(raw_text)# 调用函数词元化文本 source, target tokenize_nmt(text) # 创建源语言的词汇表对象 src_vocab d2l.Vocab(source, min_freq2,reserved_tokens[pad, bos, eos]) # pad表示句子的填充bos 表示句子开始eos表示句子结束min_freq2表示句子长度小于2个就不要了 # 对源语言的第一个文本序列进行截断或填充 print(truncate_pad(src_vocab[source[0]], 10, src_vocab[pad])) 转换成小批量数据集用于训练 def build_array_nmt(lines, vocab, num_steps):将机器翻译的文本序列转换成小批量# 遍历lines中的每个句子每个句子是一个词元列表并将每个词元通过vocab字典转换成对应的索引值从而得到一个由索引列表组成的列表。lines [vocab[l] for l in lines]print(lines)print(eos)# 每个句子后面加一个截止符eoslines [l [vocab[eos]] for l in lines]# 构建小批量数据集的张量表示将索引列表转换成为PyTorch张量arrayarray torch.tensor([truncate_pad(l, num_steps, vocab[pad]) for l in lines])# sum(1)沿着第一个维度即每个句子的长度方向求和得到每个句子的实际长度valid_len (array ! vocab[pad]).type(torch.int32).sum(1)# 返回小批量数据集的张量表示和实际长度return array, valid_len # valid_len 为原始句子的实际长度v示例 # 使用列表推导式更新 lines lines [[vocab[l] for l in sentence] for sentence in lines]print(lines) # 输出: [[1, 2], [3, 4, 5]]训练模型 def load_data_nmt(batch_size, num_steps, num_examples600):返回翻译数据集的迭代器和词汇表# 预处理原始数据集text preprocess_nmt(read_data_nmt())# 对预处理后的文本进行词元化source, target tokenize_nmt(text, num_examples)# 创建源语言词汇表对象src_vocab d2l.Vocab(source, min_freq2,reserved_tokens[pad, bos, eos])# 创建目标语言词汇表对象tgt_vocab d2l.Vocab(target, min_freq2,reserved_tokens[pad, bos, eos])# 将源语言文本序列转换为小批量数据集的张量表示和实际长度src_array, src_valid_len build_array_nmt(source, src_vocab, num_steps)# 将目标语言文本序列转换为小批量数据集的张量表示和实际长度tgt_array, tgt_valid_len build_array_nmt(target, tgt_vocab, num_steps)# 构建数据集的张量表示和实际长度的元组data_arrays (src_array, src_valid_len, tgt_array, tgt_valid_len)# 加载数据集并创建迭代器data_iter d2l.load_array(data_arrays, batch_size)# 返回数据迭代器和源语言、目标语言的词汇表对象return data_iter, src_vocab, tgt_vocab总代码 import os import torch from d2l import torch as d2l# 下载和预处理数据集 # 将数据集的下载链接和校验码与fra-eng标识关联起来 d2l.DATA_HUB[fra-eng] (d2l.DATA_URL fra-eng.zip,94646ad1522d915e7b0f9296181140edcf86a4f5)def read_data_nmt():载入 “英语-法语” 数据集 # 下载并解压数据集data_dir d2l.download_extract(fra-eng)# 读取数据并返回with open(os.path.join(data_dir, fra.txt), r, encodingutf-8) as f:return f.read()# 几个预处理步骤 def preprocess_nmt(text):预处理 “英语-法语” 数据集# 判断字符是否是特定标点符号并且前一个字符不是空格def no_space(char, prev_char):return char in set(,.!?) and prev_char ! # 替换特殊字符为空格转换为小写text text.replace(\u202f, ).replace(\xa0, ).lower()out [# 对于每个字符如果它的索引大于0即不是第一个字符并且满足 no_space 函数的条件,则在该字符前添加一个空格否则直接使用该字符。 char if i 0 and no_space(char, text[i - 1]) else char# enumerate 函数将字符串 text 中的每个字符及其索引打包成元组i为下标、char为字符for i, char in enumerate(text)]return .join(out) # 将处理后的字符列表转换为字符串# 指定处理的示例数量。如果为 None则处理所有行。 def tokenize_nmt(text, num_examplesNone):词元化 “英语-法语” 数据数据集 # 存储英语和法语的词元序列source, target [], []# 将每一行及其索引打包成元组 (i, line)for i, line in enumerate(text.split(\n)):# 如果指定了num_examples且当前行索引i大于num_examples则结束循环if num_examples and i num_examples:break# 按制表符分割行parts line.split(\t)# 如果行中包含了两个部分if len(parts) 2:# 将英语部分按空格分割为词元并添加到source列表source.append(parts[0].split( )) # 英语# 将法语部分按空格分割为词元并添加到target列表target.append(parts[1].split( )) # 法语return source, target# 序列样本都有一个固定长度截断或填充文本序列 def truncate_pad(line, num_steps, padding_token):截断或填充文本序列# 如果文本序列长度超过了指定的长度if len(line) num_steps:# 截断文本序列取前num_steps个词元return line[:num_steps]# 填充文本序列添加padding_token直到长度达到num_stepsreturn line [padding_token] * (num_steps - len(line))# 转换成小批量数据集用于训练 def build_array_nmt(lines, vocab, num_steps):将机器翻译的文本序列转换成小批量# 遍历lines中的每个句子每个句子是一个词元列表并将每个词元通过vocab字典转换成对应的索引值从而得到一个由索引列表组成的列表。lines [vocab[l] for l in lines]# 每个句子后面加一个截止符eoslines [l [vocab[eos]] for l in lines]# 构建小批量数据集的张量表示将索引列表转换成为PyTorch张量arrayarray torch.tensor([truncate_pad(l, num_steps, vocab[pad]) for l in lines])# sum(1)沿着第一个维度即每个句子的长度方向求和得到每个句子的实际长度valid_len (array ! vocab[pad]).type(torch.int32).sum(1)# 返回小批量数据集的张量表示和实际长度return array, valid_len # valid_len 为原始句子的实际长度# 训练模型 def load_data_nmt(batch_size, num_steps, num_examples600):返回翻译数据集的迭代器和词汇表# 预处理原始数据集text preprocess_nmt(read_data_nmt())# 对预处理后的文本进行词元化source, target tokenize_nmt(text, num_examples)# 创建源语言词汇表对象src_vocab d2l.Vocab(source, min_freq2,reserved_tokens[pad, bos, eos])# 创建目标语言词汇表对象tgt_vocab d2l.Vocab(target, min_freq2,reserved_tokens[pad, bos, eos])# 将源语言文本序列转换为小批量数据集的张量表示和实际长度src_array, src_valid_len build_array_nmt(source, src_vocab, num_steps)# 将目标语言文本序列转换为小批量数据集的张量表示和实际长度tgt_array, tgt_valid_len build_array_nmt(target, tgt_vocab, num_steps)# 构建数据集的张量表示和实际长度的元组data_arrays (src_array, src_valid_len, tgt_array, tgt_valid_len)# 加载数据集并创建迭代器data_iter d2l.load_array(data_arrays, batch_size)# 返回数据迭代器和源语言、目标语言的词汇表对象return data_iter, src_vocab, tgt_vocab# 读出 “英语-法语” 数据集中第一个小批量数据 # 加载翻译数据集的迭代器和词汇表设置每个小批量的大小和序列长度 train_iter, src_vocab, tgt_vocab load_data_nmt(batch_size2, num_steps8) # 遍历数据迭代器获取每个小批量的数据和有效长度 # X是英语、Y是法语 for X, X_valid_len, Y, Y_valid_len in train_iter:# 打印源语言序列的张量表示整数类型print(X:, X.type(torch.int32))# 打印源语言序列的有效长度print(valid lengths for X:, X_valid_len)# 打印目标语言序列的张量表示整数类型print(Y:, Y.type(torch.int32))# 打印目标语言序列的有效长度print(valid lengths for Y:, Y_valid_len)# 跳出循环只打印第一个小批量数据break
http://www.hkea.cn/news/14360667/

相关文章:

  • 免费网站模板html网站跳转qq
  • 无锡企业网站排名怎样才能建立自已的网站
  • 重庆网站推广系统重庆国外网站推广
  • 医院网站和微信公众号建设方案漫画网站建设教程视频
  • 淄博网站制作定制品牌网站建设的好处有什么用
  • 成都网页设计与网站建设云南建设厅官方网站
  • 高端网站建设谷美wordpress怎么注册用户名
  • 北京专业制作网站公司阿里云网站建设套餐
  • 北京性价比网站建设网店设计的意义
  • 单位门户网站建设工作建议wordpress国外主题破解
  • 网站主题及样式优化深圳 倡导居家办公
  • 企业网站的制作及维护wordpress 结构化数据
  • 惠州惠城网站建设东昌府区住房和城乡建设局网站
  • 济南网络推广新网站上线怎么做seo
  • 建个网站 网页空间多少网站开发都学什么
  • 网站域名怎样注销万能浏览器网页版
  • 设计网站案例网站义乌做网站多少钱
  • 太原谁想做网站wordpress接收邮件
  • 做网站编辑累吗网站搭建平台多少钱
  • 用云怎么做网站网页设计培训机构多少钱
  • it培训网站珍岛外贸网站建设
  • 深圳网站建设行吗wordpress主题 论坛
  • 百度搜索 相关网站佛山做礼物的网站
  • 企腾做的网站怎么样南山网站设计公司
  • 专业网站建设的意义广州seo排名
  • 湖南企业网站网站首页建设中页面
  • 公众号推广费用一般多少南宁seo多少钱报价
  • 网站底部浮动网站建设7个基本流程步骤有哪些
  • 优秀集团网站设计本地升级wordpress
  • 怎么做网站轮播图片河北 全部阳性了