网站开发模块,公司网站可以自己做么,建筑类期刊排名,有创意的营销案例文章目录 前言一、GPT-2做的改进二、GPT-2的表现总结 前言
《Language Models are Unsupervised Multitask Learners#xff0c;2019》
前文提到#xff0c;GPT-1利用不同的模型结构微调初步解决了多任务学习的问题#xff0c;但是仍然是预训练微调的形式#xff0c;GPT-… 文章目录 前言一、GPT-2做的改进二、GPT-2的表现总结 前言
《Language Models are Unsupervised Multitask Learners2019》
前文提到GPT-1利用不同的模型结构微调初步解决了多任务学习的问题但是仍然是预训练微调的形式GPT-1在未经微调的任务上有一定效果zero-shot 但是其泛化能力远远低于经过微调的有监督任务GPT-2主要基于该点进行了改进。 psGPT1发现预训练模型具有 zero-shot 的能力并且能随着预训练的进行不断增强。为了进一步验证 zero-shot 的能力OpenAI 在 GPT-1 提出一年后推出了 GPT-2。 GPT-2的目标旨在训练一个泛化能力更强的词向量模型它并没有对GPT-1的网络进行过多的结构的创新与设计只是使用了更多的网络参数1.5B和更大的数据集。
GPT-2 的核心思想就是当模型的容量非常大且数据量足够丰富时仅仅靠语言模型的学习便可以完成其他有监督学习的任务不需要在下游任务微调。即为多任务学习和T5类似。 也就是说所有的有监督学习都是无监督语言模型的一个子集。例如当模型训练完“Micheal Jordan is the best basketball player in the history”语料的语言模型之后便也学会了(question“who is the best basketball player in the history ?”answer:“Micheal Jordan”)的QA任务。 few-shot在模型做预测的时候给模型少量标注后的优质样本来作为条件。如GPT-3 one-shot和few-shot类似但是只允许看到一个样本。 zero-shot和one-shot类似但是不允许看到任何样本。直接做预测。如GPT-2 psfew-shot、one-shot、zero-shot均在推理输入阶段起作用不会更新梯度举例如下 few-shot“这个任务要求将中文翻译为英文。你好-hello再见-goodbye购买-purchase销售-”one-shot“这个任务要求将中文翻译为英文。你好-hello销售-”zero-shot“这个任务要求将中文翻译为英文。销售-” 一、GPT-2做的改进
去掉了fine-tuning层 不再针对不同任务分别进行微调建模即不定义这个模型应该做什么任务模型自动识别需要做什么任务。就像T5的text to text。Larger Dataset WebTextGPT-2收集了更加广泛、数量更多的语料组成数据集。该数据集包含800万个网页大小为40GLarger Model GPT-2将Transformer堆叠的层数从12层增加到48层隐层的维度为1600参数量达到了15亿Bert的参数量3亿、T5参数量110 亿。Larger dictionarylarger sequnece length and larger batch size。 GPT-2将词汇表数量增加到50257个最大的上下文大小 (context size) 从GPT的512提升到了1024 tokensbatchsize增加到512。调整LN层将layer normalization放到每个sub-block之前并在最后一个Self-attention后再增加一个layer normalization。初始化修改初始化的残差层权重维缩放为原来的 1 / N 1/ \sqrt N 1/N 其中N是残差层的数量。
二、GPT-2的表现
在8个语言模型任务中仅仅通过zero-shot学习GPT-2就有7个超过了state-of-the-art的方法在“Children’s Book Test”数据集上的命名实体识别任务中GPT-2超过了state-of-the-art的方法约7%“LAMBADA”是测试模型捕捉长期依赖的能力的数据集GPT-2将困惑度从99.8降到了8.6在阅读理解数据中GPT-2超过了4个baseline模型中的三个在法译英任务中GPT-2在zero-shot学习的基础上超过了大多数的无监督方法但是比有监督的state-of-the-art模型要差GPT-2在文本总结的表现不理想但是它的效果也和有监督的模型非常接近。 总结
先看一下GTP2在不同数据集上的精度 ps模型精度指标 PPLPerplexity困惑度在自然语言处理中语言模型的任务是对给定的文本序列进行概率估计即根据先前的单词预测下一个单词的概率。困惑度提供了一个衡量语言模型对给定文本序列预测的不确定性程度的度量。 具体来说困惑度是对模型在给定数据集上的概率分布进行评估的指标。在一个给定的文本序列上困惑度是一个标量值表示模型对该序列的预测的平均困惑程度即模型认为该序列所对应的概率的逆数。困惑度越低表示模型在给定的序列上的预测越准确模型对数据集的拟合程度越好。 即 P P L 2 H ( P , Q ) PPL2^{H(P,Q)} PPL2H(P,Q) H ( P , Q ) − ∑ x P ( x ) l o g Q ( x ) H(P,Q)-\sum_xP(x)logQ(x) H(P,Q)−∑xP(x)logQ(x)预测序列Q和真实序列PACCAccuracy准确率衡量模型在指定任务上完形填空任务、文本分类任务等的准确率。 BPCBits Per Character每字符比特数BPC 是一种衡量模型性能的指标用于评估模型生成文本的效率和质量。BPC 衡量了模型生成的文本与真实文本之间的差异其计算方式通常是使用交叉熵损失Cross Entropy Loss除以每个字符的比特数。这个值越低表示模型生成的文本越接近真实文本模型的性能越好。 ps数据集解释 LAMBADALAMBADA是一个用于语言模型评估的数据集其中包含了来自小说文本的句子。任务是给定前文并要求模型预测下一个单词但这些句子在结尾处被截断要求模型在没有上下文线索的情况下进行预测。即英文完形填空模式 CBT-CN 和 CBT-NECBTChildren’s Book Test是一个用于测试机器阅读理解的数据集由Facebook于2016年提出。任务是从一本儿童读物中选出21个连续的句子。然后将前20个句子视为上下文然后推断第21个句子中缺少的单词。CBT-CNChildren’s Book Test-Chinese和CBT-NEChildren’s Book Test-Natural Language Explanation是CBT的中文版本和自然语言解释版本。WikiText2 和 WikiText103WikiText是从维基百科收集的用于语言模型预训练和评估的数据集。WikiText2是包含较小语料库的版本而WikiText103是包含较大语料库的版本。其中的文本被用来训练模型以预测下一个单词或字符即在给定先前的文本序列后预测下一个单词或字符的概率。PTBPenn TreebankPTB是一个常用的用于语言建模和序列预测任务的数据集包含了华尔街日报的文章。enwik8 和 text8这是两个常用的用于字符级别语言建模任务的数据集。enwik8是维基百科的一个子集而text8是enwik8的一个更小的子集用于快速训练和评估模型。1BW1BW是一个用于预训练语言模型的数据集包含来自互联网的多语言文本总计约10亿字节。