当前位置：首页 > news >正文

佛山外贸网站建设网站建设云服务

news 2026/4/14 23:04:00

佛山外贸网站建设,网站建设云服务,电子商务网站建设完整详细流程,怎么做网站 ppt原文链接#xff1a;https://www.cnblogs.com/yifanrensheng/p/13167796.html一、GPT简介1.1 背景目前大多数深度学习方法依靠大量的人工标注信息#xff0c;这限制了在很多领域的应用。此外#xff0c;即使在可获得相当大的监督语料情况下#xff0c;以无监督学习的方式学…原文链接https://www.cnblogs.com/yifanrensheng/p/13167796.html一、GPT简介1.1 背景目前大多数深度学习方法依靠大量的人工标注信息这限制了在很多领域的应用。此外即使在可获得相当大的监督语料情况下以无监督学习的方式学到的表示也可以提供显着的性能提升。到目前为止最引人注目的证据是广泛使用预训练词嵌入来提高一系列NLP任务的性能。1.2 简介GPT主要出论文《Improving Language Understanding by Generative Pre-Training》GPT 是Generative Pre-Training的简称从名字看其含义是指的生成式的预训练。GPT 采用两阶段过程第一个阶段是利用语言模型进行预训练无监督形式第二阶段通过 Fine-tuning 的模式解决下游任务监督模式下。回到顶部二、GPT模型概述2.1 第一阶段上图展示了 GPT 的预训练过程其实和 ELMO 是类似的主要不同在于两点特征抽取器不是用的 RNN而是用的 Transformer上面提到过它的特征抽取能力要强于 RNN这个选择很明显是很明智的ELMO使用上下文对单词进行预测而 GPT 则只采用 Context-before 这个单词的上文来进行预测而抛开了下文。GPT 使用 Transformer 的 Decoder 结构并对 Transformer Decoder 进行了一些改动原本的 Decoder 包含了两个 Multi-Head Attention 结构GPT 只保留了 Mask Multi-Head Attention如下图所示。2.2 第二阶段上面讲的是 GPT 如何进行第一阶段的预训练那么假设预训练好了网络模型后面下游任务怎么用它有自己的个性和 ELMO 的方式大有不同。上图展示了 GPT 在第二阶段如何使用。对于不同的下游任务来说本来你可以任意设计自己的网络结构现在不行了你要向 GPT 的网络结构看齐把任务的网络结构改造成和 GPT 的网络结构是一样的。在做下游任务的时候利用第一步预训练好的参数初始化 GPT 的网络结构这样通过预训练学到的语言学知识就被引入到你手头的任务里来了这是个非常好的事情。再次你可以用手头的任务去训练这个网络对网络参数进行 Fine-tuning【类似图像领域预训练的过程】那怎么改造才能靠近 GPT 的网络结构呢GPT 论文给了一个改造施工图如上对于分类问题不用怎么动加上一个起始和终结符号即可对于句子关系判断问题比如 Entailment两个句子中间再加个分隔符即可对文本相似性判断问题把两个句子顺序颠倒下做出两个输入即可这是为了告诉模型句子顺序不重要对于多项选择问题则多路输入每一路把文章和答案选项拼接作为输入即可。从上图可看出这种改造还是很方便的不同任务只需要在输入部分施工即可。2.3 效果在GPT出来之时效果是非常令人惊艳的在 12 个任务里9 个达到了最好的效果有些任务性能提升非常明显。回到顶部三、GPT模型解析GPT 训练过程分为两个部分无监督预训练语言模型和有监督的下游任务 fine-tuning。3.1 预训练语言模型给定句子 U[u1, u2, ..., un]GPT 训练语言模型时需要最大化下面的似然函数。文章中使用的是多层Transformer的decoder的语言模型。这个多层的结构应用multi-headed self-attention在处理输入的文本加上位置信息的前馈网络输出是词的概念分布。h0 表示GPT 的输入Wp 是单词位置的 EmbeddingWe 是单词的 Embedding。得到输入 h0 之后需要将 h0 依次传入 GPT 的所有 Transformer Decoder 里最终得到 ht。最后送到softmax得到 ht 再预测下个单词的概率。用V表示词汇表大小L表示最长的句子长度dim 表示 Embedding 维度则 Wp 是一个 L×dim 的矩阵We 是一个V×dim 的矩阵。3.2 下游任务 fine-tuningGPT 经过预训练之后会针对具体的下游任务对模型进行微调。微调的过程采用的是有监督学习训练样本包括单词序列 [x1, x2, ..., xm] 和类标 y。GPT 微调的过程中根据单词序列 [x1, x2, ..., xm] 预测类标 y。Wy 表示预测输出时的参数微调时候需要最大化以下函数。GPT 在微调的时候也考虑预训练的损失函数所以最终需要优化的函数为回到顶部四、总结GPT 预训练时利用上文预测下一个单词ELMO和BERT 下一篇将介绍是根据上下文预测单词因此在很多 NLP 任务上GPT 的效果都比 BERT 要差。但是 GPT 更加适合用于文本生成的任务因为文本生成通常都是基于当前已有的信息生成下一个单词。优点RNN所捕捉到的信息较少而Transformer可以捕捉到更长范围的信息。计算速度比循环神经网络更快易于并行化实验结果显示Transformer的效果比ELMo和LSTM网络更好缺点对于某些类型的任务需要对输入数据的结构作调整对比bert没有采取双向形式削弱了模型威力

查看全文

http://www.hkea.cn/news/14266971/