当前位置: 首页 > news >正文

权威的南通网站建设wordpress发布失败

权威的南通网站建设,wordpress发布失败,软装设计的意义,国外做微课的网站T5(Text-to-Text Transfer Transformer) 是继BERT之后Google的又外力作#xff0c;它是一个文本到文本迁移的基于Transformer的NLP模型#xff0c;通过将 所有任务统一视为一个输入文本并输出到文本(Text-to-Text)中#xff0c;即将任务嵌入在输入文本中#xff0c;用文本的…T5(Text-to-Text Transfer Transformer) 是继BERT之后Google的又外力作它是一个文本到文本迁移的基于Transformer的NLP模型通过将 所有任务统一视为一个输入文本并输出到文本(Text-to-Text)中即将任务嵌入在输入文本中用文本的方式解决各种NLP的任务。T5是由google的Raffel等人于2019年提出了新的预训练模型其参数量高达110亿完爆BertLarge模型且在多项NLP任务中达到SOTA性能在NLP兴起了“迁移学习技术”热潮带来了一系列方法、模型和实距的创新。 本文从 基本信息、模型架构、多个官方模型以及其T5主要贡献与应用场景对T5做一个简要的介绍. 附录是相关的概念 模型架构 T5(Text-to-Text Transfer Transformer) 是基于Transformer结构的序列到序列(Seq2Seq)模型其主要特点是将多种NLP任务如翻译、摘要、问答等转化为一个统一的框架下进行训练。即在不同的具体任务上有不同的prefix指导模型对预训练目标进行大范围探索最后得到一个很强的baseline。而我们之后做这方面实验就能参考它的一套参数。 三种模型对比 为了解决Text-to-Text问题作者分别使用了三种结构作为实验Encoder-Decoder、Language model和Prefix LM。Language model和Prefix LM比较适用于NLU类问题但对于NLG实验结果表明Encoder-Decoder效果更好。所以T5选择了Encoder-Decoder结构。如下图所示 Encoder-Decoder: T5使用的就是Transformer标准的基本结构分成 Encoder 和 Decoder 两部分但有所区别对于Encoder部分是双向注意力词与词之间互相可见之后结果输给Decoder, Decoder部分当前时间步的词汇只能看到之前时间步的词汇。 Decoder-only: 在T5的自回归模型中当前时间步词汇只能看到之前时间步词汇。 GPT全系列及目前主流大模型均为 Decoder-only 结构。 Prefix LM: 通过巧妙的 Attention 设计实现双向注意力与单向注意力的结合一部分如 Encoder 一样能看到全体信息一部分如Decoder一样只能看到过去信息。 三种注意力机制对比 在同一种模型结构下这三种架构依旧是通过注意力机制的 Mask 控制下图表示不同注意掩码模式的矩阵。 上图中注意掩码模式的矩阵符号 自我注意力机制的输入和输出分别表示为x和y。第i行和第j列的深色单元格表示允许自我注意机制在输出时间步i关注输入元素j。浅色单元格表示不允许自我注意机制关注相应的i和j组合。 上图中左中右的三个图示说明说明 左图一个完全可见的掩码允许自我注意力机制在每个输出时间步关注完整的输入。中间因果掩码防止第i个输出元素依赖“未来”的任何输入元素。右图带有前缀的因果掩码允许自我注意力机制对输入序列的一部分使用完全可见的掩蔽 不同架构的一个主要区别因素是模型中不同注意力机制使用的“掩码”。同样运算复杂度的情况下Encoder-decoder结构的参数量是其他结构的两倍左右。 实验路径 明确的基础结构之后就开始考虑自监督的组织方式、掩码方式、比例等如何设计下图是一个实验路径最终探索最优结果 High-level approaches 高层次方法对比左图 Prefix LM: 即有条件文本生成输入完整文本输出从左到右预测BERT-style: 就是像 BERT 一样将一部分给破坏掉然后还原出来Deshuffling: 就是将文本打乱然后还原出来 Corrupted strategies 对文本一部分进行破坏时的策略(第二图) Mask: 如现在大多模型的做法将被破坏 token 换成特殊符如 [M];Replace spans: 可以把它当作是把上面 Mask 法中相邻[M] 都合成了一个特殊符每小段替换一个特殊符提高计算效率;Drop: 没有替换操作直接随机丢弃一些字符 Corrupted Rate 第三图文本的 Mask 比例论文中挑了 4 个值10%15%25%50%最后明确BERT 的 15% 是最最优选择 Corrupted Span length (第四图) Replace spans 对多长的 span 进行破坏选定了4个探索值: 23510 这四个值最后发现span平均长为3结果最好。 模型配置 模型参数 为了适应不同使用场景T5有五个不同size。Small、Base、Large、3B 和 11B 模型参数量分别为 6000 万、2.2 亿、7.7 亿、30 亿和 110 亿。 执行效果 最优总结 综上所述作者发现一个最优的预训练T5模型应该是这样的 目标函数Span-corruptionspan的平均长度为3corruption的概率为15% 更长的训练步数采用C4数据集继续训练1M步(bs2^11)总计约训练了1 万亿个token 模型大小 base版本24层隐层768维12个注意力头参数量为220Msmall版本12层隐层 512维8个注意力头参数量约为60MLarge版本48层隐层1024维16个注意力头参数量约为770M3B和11B版本48层隐层1024维分别为32/128个注意力头参数量达到了 2.8B和11B多任务预训练在非监督预训练时混合有监督任务可以涨点。微调在每个任务上微调Beam SearchBeam size为4长度惩罚为0.6 此段中文来自 zhuanlan.zhihu.com/p/580554368 ,但结论归属于T5论文作者见上上图) T5主要贡献 Text-to-Text Transfer F5最大的创新在于给整个NLP预训练模型领域提供了一个通用框架把所有任务都转化成一种文本。即将每个NLP任务包括NLU和NLG统一成了text-to-text的问题。如下图在翻译、问答、分类等四个不同任务上添加不同的prefix在输入上即可通过生成模型得到输出结果。 允许在不同的任务集合中使用相同的模型、损失函数、超参数等。 C4(Colossal Clean Crawled Corpus) 作者从Common Crawl里清出了750GB的训练数据并取名为Colossal Clean Crawled Corpus (超大型干净爬取数据)简称 C4。 Common Crawl是一种公开可用的web存档它通过从已删除的HTML文件删除标记和其他非文本内容来提供“web提取文本”, 该存档大约每月会新产生约20TB的抓取文本数据。但数据主要由诸如菜单、错误消息或重复文本之类的胡言乱语或锅炉板文本组成且有大量删减的文本或冒犯性语言、占位符文本、源代码等等。 应用场景 在过去的几年中随着深度学习技术的发展NLP领域取得了突破性进展。在众多的NLP模型中T5模型作为一种强大的语言生成模型在自然摘要、机器翻译、智能问答和文本分类等任务中表现出色成为了该领域的研究热点之一。 附-文本中涉及的相关深度学习的基本概念 SOTAState of the art) 是指在某一领域做的Performance里最好的modal, 一般是指在一些benchmark的数据集上跑分非常高的那些模型。 迁移学习 通俗来讲就是运用已有的知识来学习新的知识核心是找到已有知识和新知识之间的相似性用成语来说就是举一反三。 涌现 模型规模达到一定阈值以上后会在多步算术、大学考试、单词释义等场景的准确性显著提升称为涌现。 思维链(Chain-of-ThoughtCoT) 是指通过让大语言模型LLM将一个问题拆解为多个步骤一步一步分析逐步得出正确答案。需指出针对复杂问题LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。 NLU和NLG是指NLP(自然语言处理)的两个主要核心任务。NLU是所有支持机器理解文本内容的方法模型或任务的总称即能够进行常见的文本分类、序列标注、信息抽取等任务。NLG(自然语言生成) 将非语言格式的数据转换成人类可以理解的语言格式。 AI大模型学习路线汇总 大模型学习路线图整体分为7个大的阶段全套教程文末领取哈 第一阶段 从大模型系统设计入手讲解大模型的主要方法 第二阶段 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用 第三阶段 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统 第四阶段 大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统 第五阶段 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型 第六阶段 以SD多模态大模型为主搭建了文生图小程序案例 第七阶段 以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。 如何学习AI大模型 作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 一、全套AGI大模型学习路线 AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能 二、640套AI大模型报告合集 这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。 三、AI大模型经典PDF籍 随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。 四、AI大模型商业化落地方案 作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。
http://www.hkea.cn/news/14276446/

相关文章:

  • 商业网站建设的方法龙岩市兼职网
  • dw怎么做百度网站邯郸网站
  • 这几年做那个网站致富国外对网站开发的研究
  • 北京网站百度推广vps网站打开需要身份验证
  • 网站建设及网络营销公司注册网站有安全风险怎么注销
  • 百度手机点击排名工具黑帽seo技术培训
  • 自做建材配送网站网站集约化 建设方案
  • 如何提高网站浏览量平面设计师需要学习什么
  • 怎么样建公司网站wordpress如何添加tdk
  • 网站建设的结论和体会网站设计要求 优帮云
  • 国外的服务器网站pycharm 做网站
  • 苏州网站托管服务器网站打不开
  • vue做社区网站wordpress 模板挂马
  • 石家庄网站托管南充阆中网站建设
  • 预告网站正在建设中网上电商平台
  • 做网站开发 甲方提供资料wordpress博客主题 m1
  • 宜昌十堰网站建设哪家好外贸行业的现状分析及发展趋势
  • 福州公交集团网站建设建设规范文件在哪个网站发布
  • 郑州网站建设、网站开发属于知识产权吗
  • 访问失效链接 如何删除 网站维护安居客二手房出售信息
  • 广告设计网站哪个好业之峰家装公司地址
  • 网站备案要多少钱学动漫有什么出路
  • 三水网站开发查不到备案的网站
  • 浅谈博物馆网站建设意义网站开发编程入门学习
  • 免费申请域名的网站青岛市建设监理网站
  • 自己怎么做网站的聚合页面如何推广seo
  • 东莞企业网站建设营销重庆佳天下装饰公司电话
  • 地方网站系统网站开发 语言 架构 数据库
  • 学生作业 制作一个网站室内设计师证
  • 没网站域名可以做备案吗网站导航大全