当前位置: 首页 > news >正文

放图片网站产品外包装设计

放图片网站,产品外包装设计,wordpress 关闭搜索,网站建设dw实训总结基于MindNLP的Roberta模型Prompt Tuning 本文档介绍了如何基于MindNLP进行Roberta模型的Prompt Tuning#xff0c;主要用于GLUE基准数据集的微调。本文提供了完整的代码示例以及详细的步骤说明#xff0c;便于理解和复现实验。 环境配置 在运行此代码前#xff0c;请确保…基于MindNLP的Roberta模型Prompt Tuning 本文档介绍了如何基于MindNLP进行Roberta模型的Prompt Tuning主要用于GLUE基准数据集的微调。本文提供了完整的代码示例以及详细的步骤说明便于理解和复现实验。 环境配置 在运行此代码前请确保MindNLP库已经安装。本文档基于大模型平台运行因此需要进行适当的环境配置确保代码可以在相应的平台上运行。 模型与数据集加载 在本案例中我们使用 roberta-large 模型并基于GLUE基准数据集进行Prompt Tuning。GLUE (General Language Understanding Evaluation) 是自然语言处理中的标准评估基准包括多个子任务如句子相似性匹配、自然语言推理等。Prompt Tuning是一种新的微调技术通过插入虚拟的“提示”Token在模型的输入中以微调较少的参数达到较好的性能。 import mindspore from tqdm import tqdm from mindnlp import evaluate from mindnlp.dataset import load_dataset from mindnlp.transformers import AutoModelForSequenceClassification, AutoTokenizer from mindnlp.core.optim import AdamW from mindnlp.transformers.optimization import get_linear_schedule_with_warmup from mindnlp.peft import (get_peft_model,PeftType,PromptTuningConfig, )1. 定义训练参数 首先定义模型名称、数据集任务名称、Prompt Tuning类型、训练轮数等基本参数。 batch_size 32 model_name_or_path roberta-large task mrpc peft_type PeftType.PROMPT_TUNING num_epochs 202. 配置Prompt Tuning 在Prompt Tuning的配置中选择任务类型为SEQ_CLS序列分类任务并定义虚拟Token的数量。虚拟Token即为插入模型输入中的“提示”Token通过这些Token的微调使得模型能够更好地完成下游任务。 peft_config PromptTuningConfig(task_typeSEQ_CLS, num_virtual_tokens10) lr 1e-33. 加载Tokenizer 根据模型类型选择padding的侧边如果模型为GPT、OPT或BLOOM类模型则从序列左侧填充padding否则从序列右侧填充。 if any(k in model_name_or_path for k in (gpt, opt, bloom)):padding_side left else:padding_side righttokenizer AutoTokenizer.from_pretrained(model_name_or_path, padding_sidepadding_side) if getattr(tokenizer, pad_token_id) is None:tokenizer.pad_token_id tokenizer.eos_token_id4. 加载数据集 通过MindNLP加载GLUE数据集并打印样本以便确认数据格式。在此示例中我们使用GLUE的MRPCMicrosoft Research Paraphrase Corpus任务该任务用于句子匹配即判断两个句子是否表达相同的意思。 datasets load_dataset(glue, task) print(next(datasets[train].create_dict_iterator()))5. 数据预处理 为了适配MindNLP的数据处理流程我们定义了一个映射函数 MapFunc用于将句子转换为 input_ids 和 attention_mask并对数据进行padding处理。 from mindnlp.dataset import BaseMapFunctionclass MapFunc(BaseMapFunction):def __call__(self, sentence1, sentence2, label, idx):outputs tokenizer(sentence1, sentence2, truncationTrue, max_lengthNone)return outputs[input_ids], outputs[attention_mask], labeldef get_dataset(dataset, tokenizer):input_colums[sentence1, sentence2, label, idx]output_columns[input_ids, attention_mask, labels]dataset dataset.map(MapFunc(input_colums, output_columns),input_colums, output_columns)dataset dataset.padded_batch(batch_size, pad_info{input_ids: (None, tokenizer.pad_token_id),attention_mask: (None, 0)})return datasettrain_dataset get_dataset(datasets[train], tokenizer) eval_dataset get_dataset(datasets[validation], tokenizer)6. 设置评估指标 我们使用 evaluate 模块加载评估指标accuracy 和 F1-score来评估模型的性能。 metric evaluate.load(./glue.py, task)7. 加载模型并配置Prompt Tuning 加载 roberta-large 模型并根据配置进行Prompt Tuning。可以看到微调的参数量仅为总参数量的0.3%左右节省了大量计算资源。 model AutoModelForSequenceClassification.from_pretrained(model_name_or_path, return_dictTrue) model get_peft_model(model, peft_config) model.print_trainable_parameters()模型微调Prompt Tuning 在Prompt Tuning中训练过程中仅微调部分参数主要是虚拟Token相关的参数相比于传统微调而言大大减少了需要调整的参数量使得模型能够高效适应下游任务。 1. 优化器与学习率调整 使用 AdamW 优化器并设置线性学习率调整策略。 optimizer AdamW(paramsmodel.parameters(), lrlr)# Instantiate scheduler lr_scheduler get_linear_schedule_with_warmup(optimizeroptimizer,num_warmup_steps0.06 * (len(train_dataset) * num_epochs),num_training_steps(len(train_dataset) * num_epochs), )2. 训练逻辑定义 训练步骤如下 构建正向计算函数 forward_fn。定义梯度计算函数 grad_fn。定义每一步的训练逻辑 train_step。遍历数据集进行训练和评估在每个 epoch 结束时计算评估指标。 def forward_fn(**batch):outputs model(**batch)loss outputs.lossreturn lossgrad_fn mindspore.value_and_grad(forward_fn, None, tuple(model.parameters()))def train_step(**batch):loss, grads grad_fn(**batch)optimizer.step(grads)return lossfor epoch in range(num_epochs):model.set_train()train_total_size train_dataset.get_dataset_size()for step, batch in enumerate(tqdm(train_dataset.create_dict_iterator(), totaltrain_total_size)):loss train_step(**batch)lr_scheduler.step()model.set_train(False)eval_total_size eval_dataset.get_dataset_size()for step, batch in enumerate(tqdm(eval_dataset.create_dict_iterator(), totaleval_total_size)):outputs model(**batch)predictions outputs.logits.argmax(axis-1)predictions, references predictions, batch[labels]metric.add_batch(predictionspredictions,referencesreferences,)eval_metric metric.compute()print(fepoch {epoch}:, eval_metric)在每个 epoch 后程序输出当前模型的评估指标accuracy 和 F1-score。从结果中可以看到模型的准确率和 F1-score 会随着训练的进展逐渐提升。 总结 本案例通过Prompt Tuning技术在Roberta模型上进行了微调以适应GLUE数据集任务。通过控制微调参数量Prompt Tuning展示了较强的高效性。
http://www.hkea.cn/news/14421442/

相关文章:

  • php网站开发过程考试电子商务网站功能介绍
  • 织梦模板大气网站建设类网站模板网站右侧浮动导航
  • 集团网站建设思路国家企业信息公示系统官网官
  • 宁波企业网站搭建极速建站制作网站难不难
  • 个人网站设计企业服装定制尺寸量身表
  • 免费net网站空间wordpress导购插件
  • 餐饮培训网站建设素材网站视频
  • 视频图站主题 wordpress铜陵网络推广
  • 棋牌游戏网站建设费用惠州市建设局网站
  • 黄金网站大全免费2023网站可视化设计
  • 郑州网站推广地址广告设计自学网教程
  • 专业免费网站建设一般多少钱组织建设内容
  • 做网站页面的视频wordpress 点赞 用户
  • 学做网站快吗wordpress社交媒体插件
  • php网站培训做企业网站用服务器
  • 怎样做彩票网站代理做外贸如何建立网站
  • asp.net网站开发文档吉林最新消息今天新增
  • 企业网站开发模板在门户网站管理建设工作讲话
  • 信用网站建设网站后台可视化编辑
  • php做手机网站wordpress二维码登录
  • 响应式网站建设网站建网站维护需要多少钱
  • 白银网站运行文化传媒主播公司 东莞网站建设
  • 泰安网站开发哪家便宜帮人做兼职的网站
  • 济南企业营销型网站建设价格做网站 思源字体
  • 网站模块图片设备外贸用哪个网站
  • 个人电脑做服务器映射网站wordpress 搬家后图片不显示
  • 室内设计网站平台wordpress联系方式代码
  • 天津网站建设普斯泰网页设计公司注册
  • 焦作网站建设哪家权威标书制作是干啥的
  • 运营活动策划方案如何给网站优化