当前位置：首页 > news >正文

网站页面设计制作百事通做网站

news 2026/5/3 16:15:42

网站页面设计制作,百事通做网站,代理公司注册新公司的费用,深圳模板网站建设公司GPT系列 GPT#xff08;Generative Pre-trained Transformer#xff09;是一系列基于Transformer架构的预训练语言模型#xff0c;由OpenAI开发。以下是GPT系列的主要模型#xff1a; GPT#xff1a;GPT-1是于2018年发布的第一个版本#xff0c;它使用了12个Transformer…GPT系列 GPTGenerative Pre-trained Transformer是一系列基于Transformer架构的预训练语言模型由OpenAI开发。以下是GPT系列的主要模型 GPTGPT-1是于2018年发布的第一个版本它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。 GPT-2GPT-2于2019年发布是GPT系列的第二个版本。它比GPT-1更大更强大使用了24个Transformer编码器层和1.5亿到15亿个参数之间的不同配置。GPT-2在生成文本方面表现出色但由于担心滥用风险OpenAI最初选择限制了其训练模型的发布。 GPT-3GPT-3于2020年发布是GPT系列的第三个版本也是目前最先进和最强大的版本。它采用了1750亿个参数拥有1750亿个可调节的权重。GPT-3在自然语言处理NLP任务中表现出色可以生成连贯的文本、回答问题、进行对话等。 GPT-3.5GPT-3.5是在GPT-3基础上进行微调和改进的一个变种它是对GPT-3的进一步优化和性能改进。 GPT系列的模型在自然语言处理领域取得了巨大的成功并在多个任务上展示出了强大的生成和理解能力。它们被广泛用于文本生成、对话系统、机器翻译、摘要生成等各种应用中对自然语言处理和人工智能领域的发展有着重要的影响。 GPT系列是当前自然语言处理领域下最流行也是商业化效果最好的自然语言大模型并且他的论文也对NLP的领域产生巨大影响GPT首次将预训练-微调模型真正带入NLP领域同时提出了多种具有前瞻性的训练方法被后来的BERT等有重大影响的NLP论文所借鉴。目录 GPT系列前言Zero-Shot贡献GPT-2提出的方法训练数据集输入表示模型架构前言 BERT的横空出世利用与GPT相似的思路使用Transformer编码器训练了更大的模型得到了比GPT更好的效果但是GPT的作者Alec Radford仍然坚定Transformer解码器在此类任务中的效果同样好几个月后发表了GPT-2Alec Radford训练一个比BERT更大的模型但他发现将GPT-1模型在更大的数据集训练一个更大的模型(15亿参数)仍然与BERT模型对比优势不太明显提到了Zero-Shot的概念(当然这个概念在GPT-1中就提到了在GPT-2论文将其作为主要卖点) Zero-Shot “Zero-shot” 是一个术语通常用于机器学习和自然语言处理领域。这个术语指的是模型在没有事先接受相关任务的训练数据的情况下执行任务的能力。换句话说这是模型能够在未见过的情境中进行推理和处理的能力。在自然语言处理中zero-shot 学习通常指的是模型能够处理未知词汇或主题的能力。例如如果一个文本分类模型在训练时没有见过关于某个特定主题的样本但在测试时却能够正确分类相关文本那么我们就可以说这个模型具有 zero-shot 学习能力。这种能力的实现通常涉及到使用预训练的模型这些模型在大量数据上进行了训练从而学到了通用的语言和知识表示。这样的模型能够泛化到新领域或任务即使它们在训练时没有见过相关的数据。在这篇论文中Zero-shot指的是在使用GPT来完成一些下游任务的时候不需要下游任务任何标注的信息也不需要训练模型最终他们也得到了一些有说服力的结果。贡献我们先说GPT-2的贡献我们都知道自然语言处理任务例如问答、机器翻译、阅读理解和摘要通常通过对特定任务数据集的监督学习来完成。作者证明了GPT模型可以在没有任何有标签的数据也就是上面讲的Zero-shot进行训练后就可以在多个任务中取得良好的效果。他们在包含数百万个网页称为 WebText的新数据集上进行训练时语言模型开始在没有任何显式监督的情况下学习这些任务。当以文档加问题为条件时语言模型生成的答案在 CoQA 数据集上达到 55 F1 - 在不使用 127,000 多个训练示例的情况下匹配或超过 4 个基线系统中的 3 个的性能。语言模型的容量对于零样本任务迁移的成功至关重要增加它的容量可以提高跨任务的对数线性方式的性能。我们最大的模型 GPT-2 是一个 1.5B 参数 Transformer它在零样本设置下的 8 个测试语言建模数据集中的 7 个上取得了最先进的结果但仍然不适合 WebText。模型中的示例反映了这些改进并包含连贯的文本段落。这些发现为构建语言处理系统提供了一条有希望的道路该系统可以从自然发生的演示中学习执行任务。 GPT-2提出的方法下面我们讲讲GPT-2做了什么事情 GPT团队有很大野心他们认为自己开发的通用系统框架应该能够执行不同的任务即使对于相同的输入它不仅以输入为条件也要以执行的任务为条件。简单来说我们知道一般的语言模型都基于下面的公式 P ( 输出 ∣ 输入 ) P(输出|输入) P(输出∣输入) 但是GPT-2对于下面的公式建模 P ( 输出 ∣ 输入 , 任务 ) P(输出|输入,任务) P(输出∣输入,任务) 举个例子对于翻译任务训练集的形式应为如下 ( 翻译为法语 , 中文文本 , 法语文本 ) (翻译为法语, 中文文本,法语文本) (翻译为法语,中文文本,法语文本) 对于阅读理解的任务训练集的形式应为如下 ( 回答问题 , 段落 , 问题 , 答案 ) (回答问题,段落,问题,答案) (回答问题,段落,问题,答案) 训练数据集一般以任务为驱动的模型训练都是基于一个特定领域的数据集上的但是GPT想要做的是通用的模型所以在数据集上他们选择的是网络爬虫。 GPT团队创建了一个强调文档质量的新的网页抓取方法。为了做到这一点他们只抓取了经人工筛选/过滤的网页。手动筛选完整的网页抓取将非常昂贵因此作为起点我们抓取了所有来自社交媒体平台Reddit的外部链接这些链接至少获得了3个赞karma。这可以被视为一个启发式指标用于判断其他用户是否认为该链接有趣、有教育意义或仅仅是好笑的。简单介绍一下Reddit Reddit是一个社交新闻聚合、讨论和内容分享的网站。它是由史蒂夫·霍夫曼Steve Huffman和亚伦·斯沃茨Aaron Swartz于2005年创建的。Reddit的用户可以在各种主题的论坛称为subreddit上发布文本、链接、图像和视频等内容并与其他用户进行讨论和互动。利用上面的方法抓取出了4500万个链接GPT团队获取其HTML响应经过一些预处理后提出其中有自然语言意义的内容创建了WebText数据集它包含超过800万个文档总共40GB的文本。论文中给出在WebText数据集中部分有关法语和英语翻译的自然发生的演示示例输入表示 GPT团队认为通用语言模型LM应该能够计算并生成任何字符串的概率。当前的大规模 LM 包括预处理步骤例如小写、标记化和词汇表外标记这些步骤限制了可建模字符串的空间。字节对编码Byte Pair Encoding简称BPE是一种介于字符级和词级语言建模之间的实用方法它有效地在常见符号序列使用词级输入在不常见符号序列使用字符级输入之间进行插值。尽管其名称中包含byte字节但参考的BPE实现通常是基于Unicode代码点而不是字节序列进行操作的。为了对所有Unicode字符串进行建模这些实现需要包含完整的Unicode符号空间。这将导致基本词汇量超过130,000个在添加任何多符号标记之前就已经非常庞大。相比之下通常使用BPE的标记词汇量为32,000到64,000个这是可以接受的范围。与此相反字节级的BPE版本只需要一个大小为256的基本词汇表。然而直接将BPE应用于字节序列会导致合并的次优选择因为BPE使用基于频率的贪心启发式方法来构建标记词汇表。我们观察到BPE会包含许多常见单词的多个变体比如dog、dog!、dog?、dog.等。这导致词汇表有限的位置和模型容量分配不够优化。为了避免这种情况我们阻止BPE在任何字节序列中跨字符类别进行合并。我们对空格space做了一个例外这显著提高了压缩效率同时只对一些单词在多个词汇标记之间进行了最小程度的分割。这种输入表示使我们能够将字级 LM 的经验优势与字节级方法的通用性结合起来。由于我们的方法可以为任何 Unicode 字符串分配概率因此这使我们能够在任何数据集上评估 LM而不管预处理、标记化或词汇大小如何。模型架构 GPT-2模型很大程度上遵循 OpenAI GPT-1模型的细节。对于GPT-1的架构这里我们不过多介绍只放出架构图供读者复习想了解具体的细节请看之前文章点击此处有如下的细节调整层归一化Ba et al., 2016被移至每个子块的输入类似于预激活残差网络。在最终的自注意力块之后添加了额外的层归一化。使用了修改后的初始化该初始化考虑了残差路径上随模型深度的累积。我们在初始化时将残差层的权重缩放为 1 / N 1/\sqrt{N} 1/N 其中 N 是残差层的数量。词汇量扩大到50,257个。我们还将上下文大小从 512 个标记增加到 1024 个标记并使用更大的批量大小 512。以上就是所有GPT-2的改动看似改动不大但是它却奠定了整个LLM的发展方向给出了自然语言通用架构的解决方法并设计了超大高质量的自然语言模型无监督训练数据集论文主要在讨论在没有给出明确任务的情况下使用大量语料训练出来的语言模型不需要额外的微调也可以完成许多自然语言任务得到比较满意的结果。

查看全文

http://www.hkea.cn/news/14516842/