网站建设汇编材料,微信小程序二次开发,腾讯公众微信号,网站建设实训心得与建议前言
在科技的浪潮中#xff0c;人工智能 (AI) 作为一股不可阻挡的力量#xff0c;持续推动着社会与科技的进步。本博客旨在深入剖析人工智能及其核心领域——神经网络、自然语言处理、统计语言模型、以及大规模语言模型——的演进历程#xff0c;以专业的视角展现这一领域…前言
在科技的浪潮中人工智能 (AI) 作为一股不可阻挡的力量持续推动着社会与科技的进步。本博客旨在深入剖析人工智能及其核心领域——神经网络、自然语言处理、统计语言模型、以及大规模语言模型——的演进历程以专业的视角展现这一领域的辉煌成就与未来展望。
人工智能的发展史从早期的符号主义、连接主义到如今的深度学习人工智能的每一次飞跃都离不开算法创新、计算能力提升及数据资源的丰富。神经网络作为人工智能的重要分支其发展历程尤为引人注目。从最初的简单感知机到如今的深度神经网络神经网络不仅在结构上变得更加复杂还在性能上实现了质的飞跃为人工智能的广泛应用奠定了坚实基础。
自然语言处理是人工智能的重要应用方向之一。从基于规则的语法分析到统计语言模型的广泛应用再到深度学习在自然语言处理中的突破性进展自然语言处理技术不断突破瓶颈实现了从简单文本处理到复杂语义理解的跨越。统计语言模型作为自然语言处理的重要工具其发展历程也是技术不断演进和优化的过程。
近年来大规模语言模型的出现更是将人工智能推向了新的高度。通过在大规模数据集上进行预训练大模型掌握了丰富的语言知识和常识推理能力为自然语言理解、机器翻译、智能问答等多个领域带来了革命性的变化。大模型的成功应用不仅展示了人工智能的无限潜力也为未来的智能应用提供了广阔的想象空间。
本博客将逐一梳理这些领域的发展历程探讨关键技术的演进轨迹分析成功案例的背后逻辑并展望未来的发展趋势。 文章目录 前言1.人工智能发展史1.1推理期1.2知识期1.3学习期1.4总结 2.神经网络的发展史2.1模型提出2.2冰河期2.3反向传播算法引起的复兴2.4流行度降低在这里插入图片描述2.5深度学习的崛起 3.NLP的发展历史3.1起源3.2基于规则3.3基于统计3.4深度学习和大数据驱动 4.统计语言模型的发展历程4.1N-Gram模型4.2Bag-of-Words模型4.3分布式表示4.4神经概率语言模型4.5Word2Vec4.6预训练语言模型 5.大模型时代的发展历史5.1基础模型阶段5.2能力探索阶段5.3突破发展阶段 结尾参考资料 1.人工智能发展史 以上是人工智能的发展史大致脉络可以分为大致三个阶段推理期、知识期和学习期每一阶段都标志着该领域显著的进步与转型。
1.1推理期
1950年图灵(Alan Turing) 的论文*《计算机器与智能》中提出了一个讨论讨论了创造一种“智能机器的可能性”。这个测试就是著名的图灵测试“一个人在不接触对方的情况下通过一种特殊的方式和对方进行一系列问答。如果在相当长的时间内他无法根据这些问题判断对方是人还是计算机那么就可以认为这个计算机是智能的。”* 图灵测试是测试人工智能从哲学讨论到科学研究的一个重要因素引导了人工智能的很多研究方向。在他定的大方向下计算机要通过图灵测试就必须要具备理解语言、学习、记忆、推理、决策的能力。
这样人工智能就延伸出了很多不同的字学科比如机器感知(CV语言信息处理)、学习模式识别机器学习强化学习、语言NLP、记忆知识表示、决策规划、数据挖掘等。以上都可以认为是人工智能的研究范畴。
图灵的工作通常被认为是现代人工智能的起点之一因为他从理论上探讨了机器智能的可能性。
1956年达特茅斯会议Dartmouth是人工智能领域的又一个重要的里程碑标志着人工智能正式作为一个独立的学科诞生。会议由约翰·麦卡锡John McCarthy和马文·明斯基Marvin Minsky组织旨在探索机器模拟智能的可能性。香农也在这次会议中 约翰·麦卡锡提出了人工智能的定义人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。 该会议之后的十几年被公认为是人工智能领域的黄金时期。在这一阶段众多早期的研究者们纷纷投身于这一新兴领域致力于通过逻辑演绎或事实归纳提炼出一系列精妙的规则以期为机器赋予智能。
然而当时的研究者们对人工智能的发展前景持有过于乐观的态度。他们满怀信心地预言“在未来的20年内机器将能够胜任人类所能完成的一切工作。”这一宏伟的愿景无疑激发了人们对人工智能的无限遐想与期待。
随着研究的不断深入研究者们逐渐发现这些基于简单逻辑和事实归纳的推理规则在面对复杂多变的现实世界时显得过于简陋和片面。这一发现无疑给原本乐观的预期泼了一盆冷水使得人工智能的研究陷入了前所未有的低谷。在这一困境中许多项目的研究经费被大幅削减人工智能领域的发展步伐也因此变得缓慢而艰难。然而正是这些挫折与困境促使研究者们开始重新审视和思考人工智能的发展方向与路径为后续的突破与崛起奠定了坚实的基础。
1.2知识期
到了20世纪七十年代研究者意识到了知识对于人工智能系统的重要性特别是对于一些复杂的任务需要专家来构建知识库。
这一时期出现了各种各样的专家系统Exper System并在特定的领域取得了很多成果。
专家系统可以简单理解为“知识库推理机”是一类具有专门的知识和经验的计算机智能程序系统。专家系统一般采用知识表示和知识推理等技术来完成通常由领域专家才能解决的问题因此也被称为基于知识的系统。
一个专家系统必须具备三要素 1领域专家知识2模拟专家思维3达到专家级水平
1.3学习期
图中的最后阶段1985年随着神经网络的崛起反向传播算法应用到了神经网络中人工智能步入了学习期。对于人类的很多智能行为我们很难知道其中的原理也无法描述智能行为背后的“知识”。因此研究者开始将研究重点转向让计算机从数据中自己学习。
机器学习Machine LearningML就是这样的方法。他的主要目的是设计和分析一些学习算法让计算机可以从数据经验中自动分析并获得规律之后利用学习到的规律对未知数据进行预测从而帮助人们完成一些特定任务。
1.4总结
在人工智能发展了60多年后机器虽然可以在某些方面超越人类但想让机器真正通过图灵测试具备真正意义上的人类智能这个目标看上去仍然遥遥无期。
2.神经网络的发展史 回顾历史今天遍布开花的神经网络并不是最近冒出来的新鲜玩意而是名副其实的老古董。神经网络的发展大致经过以上五个阶段。
2.1模型提出
第一阶段为1943年1969年这是神经网络发展的第一个高潮。
在1943年沃伦·麦卡洛克Warren McCulloch 和 沃尔特·皮茨Walter Pitts 在1943年发表了一篇论文提出了人工神经网络的概念。这一工作实际上是在研究生物神经系统的基础上构建出了一种可以进行逻辑计算的数学模型称为“麦卡洛克-皮茨神经元MP模型”它描述了简单神经元的工作方式。这个模型被认为是人工神经网络的雏形。 1948年阿兰·图灵提出了一种“B型图灵机”他可以基于Hebbian法则简单来说就是神经元同时活动则它们的连接就会加强来进行学习。
1951年沃伦·麦卡洛克Warren McCulloch 和 沃尔特·皮茨Walter Pitts的学生 马文·明斯基Marvin Minsky 建造了第一台神经网络机SNARC。 1958年弗兰克·罗森布拉特Frank Rosenblatt发明了感知机它是一种基于生物学神经元的简单模型。感知机提出了一种接近于人类学习过程的学习方法迭代、试错被认为是神经网络历史上的一个重要里程碑。 以上的工作为后续的人工智能和神经网络研究奠定了坚实的基础。在此之后研究者们深受启发纷纷投入到神经网络的研究中推动了该领域的快速发展。
2.2冰河期
第二阶段为 1969 年~1983 年是神经网络发展的第一个低谷期。
在此期间神经网络的研究处于长年停滞及低潮状态。
1969 年Marvin Minsky 出版《感知机》 一书指出了神经网络的两个关键缺陷:一是感知机无法处理“异或”回路问题;二是当时的计算机无法支持处理大型神经网络所需要的计算能力。 异或XOR问题异或是一个逻辑运算当两个输入不同时输出为1相同时输出为0。这个问题对于单层感知机来说是无法解决的因为单层感知机只能解决线性可分问题而异或问题是一个典型的线性不可分问题。 此外当时的算力和现在的算力可能相差数百万倍 这些论断使得人们对以感知机为代表的神经网络产生质疑并导致神经网络的研究进入了十多年的“冰河期”.
但是这一时期仍然有不少学者提出了很多有用的模型或算法。
1974年Paul Werbos 在神经网络领域取得了突破性进展他发明了反向传播算法BackPropagation简称BP。这一算法对于神经网络的学习和训练具有至关重要的意义它能够有效地调整网络中的权重从而提高网络的预测准确性。然而遗憾的是在当时这一重要发明并未获得应有的重视和认可其潜在价值被大大低估。
到了1980年福岛邦彦又提出了一种全新的多层神经网络模型——新知机Neocognitron。这一模型巧妙地融入了卷积和子采样操作为图像处理等任务提供了有力的支持。然而由于它采用的是无监督学习的方式来进行训练并未采用当时尚未被广泛认知的反向传播算法因此新知机在提出之初也并未引起学术界的足够重视。
尽管如此这些先驱者的贡献为后来的神经网络发展奠定了坚实的基础他们的创新精神和远见卓识在神经网络的历史上留下了深刻的印记。
2.3反向传播算法引起的复兴
第三阶段为 1983 年~1995年是神经网络发展的第二个高潮期。
这个时期中反向传播算法重新激发了人们对神经网络的兴趣.
1983 年物理学家约翰·霍普菲尔德John Hopfield提出了一种用于联想记忆(Associative Memory)的神经网络称为Hopfield网络.
Hopfield网络在旅行商问题上取得了当时最好结果并引起了轰动. 旅行商问题Traveling Salesman Problem, TSP是一个经典的组合优化问题它属于NP-hard问题范畴。具体来说旅行商问题涉及到一个旅行商或推销员需要拜访n个城市每个城市只能拜访一次最后回到出发的城市且要求总的旅行距离最短。对于每一对城市i和j都有一个距离或成本d(i, j)表示从城市i到城市j的旅行距离。旅行商的目标是找到一条路径使得他能够按照这个规则遍历所有城市并且总的旅行距离最短。 1984年杰弗里·辛顿Geoffrey Hinton 提出一种随机化版本的Hopfield 网络即玻尔兹曼机(Boltzmann Machine).
真正引起神经网络第二次研究高潮的是反向传播算法.
20世纪80年代中期一种连接主义还有两个主义是符号主义和行为主义模型开始流行即分布式并行处理(Parallel Distributed ProcessingPDP)模型.反向传播算法也逐渐成为PDP模型的主要学习算法.
这时神经网络才又开始引起人们的注意并重新成为新的研究热点. 符号主义是人工智能的先驱流派它主张通过符号逻辑推理实现人工智能。这一学派认为人类思维和认知过程可以通过符号系统来模拟计算机可以像人一样进行符号操作从而实现智能行为。符号主义注重知识表示和推理广泛应用于专家系统、自然语言处理等领域。其优点在于逻辑规则的清晰和易解释性但处理模糊和不确定性问题时存在局限。连接主义又称仿生学派或生理学派主张通过模拟神经元之间的相互连接和权值来实现人工智能。它强调从大量数据中学习并优化网络连接以实现智能行为。深度学习作为连接主义的一个重要分支在图像识别、语音识别等领域取得了巨大成功。连接主义具有模拟人脑处理信息的能力但网络训练需要大量时间和计算资源且结果缺乏可解释性。行为主义强调对行为和反馈的研究认为人工智能应该基于感知和行动让机器在与环境的交互中学习并优化行为。这一学派广泛应用于机器人控制、自动驾驶等领域。行为主义注重实时响应和适应性通过试错学习和奖惩机制来优化行为策略。然而它也需要大量的数据和运算支持且应用范围相对较窄。 随后将反向传播算法引入了卷积神经网络并在手写体数字识别上取得了很大的成功. 反向传播算法可以说是迄今最为成功的神经网络学习算法.
目前在深度学习中主要使用的自动微分可以看作反向传播算法的一种扩展.
然而梯度消失问题(Vanishing Gradient Problem)阻碍神经网络的进一步发展特别是循环神经网络. 为了解决这个问题采用两步来训练一个多层的循环神经网络: 1)通过无监督学习的方式来逐层训练每一层循环神经网络即预测下一个输入;22)通过反向传播算法进行精调
2.4流行度降低
第四阶段为1995年~2006年在此期间支持向量机(下图为高斯核函数的SVM)和其他更简单的方法(例如线性分类器)在机器学习领域的流行度逐渐超过了神经网络。 虽然神经网络可以很容易地增加层数、神经元数量从而构建复杂的网络但其计算复杂性也会随之增长而且当时的计算机性能和数据规模不足以支持训练大规模神经网络。 杂谈1–杨立昆和他的一生之敌
LeCun Yann他给自己起了个洋气的名字杨立昆和其他人发展的神经网络正开始被热捧的时候他一生较劲的对象万普尼克Vapnik(贝尔实验室的同事)出现了。20世纪90年代中期由 Vapnik 等人发明的支持向量机诞生它同样解决了线性不可分问题但是对比神经网络有全方位优势。
比如高效、可以快速训练;无须调参没有梯度消失问题;泛化性能好过拟合风险小。
支持向量机迅速打败多层神经网络成为主流。后来一度发展到只要你的论文中包含神经网络相关的字眼就非常容易被拒稿学术界那时对神经网络的态度可想而知。神经网络再次堕入黑暗。10年沉寂中只有几个学者仍然在坚持研究比如一再提及的Hinton 教授。 杂谈2–现代人工智能三驾马车
杨立昆Yann LeCun、杰弗里·辛顿Geoffrey Hinton和约书亚·本希奥Yoshua Bengio。 杨立昆 纽约大学教授Facebook AI研究院的首席AI科学家。 主要贡献在于卷积神经网络CNN这种网络在计算机视觉任务中得到了广泛应用。 开发了 LeNet这是一种用于手写数字识别的早期卷积神经网络。 杰弗里·辛顿 多伦多大学教授谷歌大脑团队的成员。 被誉为“深度学习之父”在反向传播算法和深度神经网络的研究方面做出了重大贡献。 他的工作推动了深度学习在语音识别、图像处理和自然语言处理中的应用。 我们学过的RMSprop也是他发明的 约书亚·本希奥Yoshua Bengio 蒙特利尔大学教授Mila蒙特利尔学习算法研究所的创始人之一。 他的研究涵盖深度学习的各个方面特别是在生成模型和序列模型方面的工作。 生成模型在变分自编码器VAE和生成对抗网络GAN方面做出了重要贡献。 序列模型改进了递归神经网络RNN和长短期记忆网络LSTM提升了处理时间序列数据的能力。 深度学习算法开发和推广了卷积神经网络CNN和深度信念网络DBN。 杂谈3–杰弗里·辛顿的传奇人生
辛顿出生在英国母亲是数学老师父亲是昆虫学家“国民生产总值”这个术语是他的经济学家舅舅发明的他的高曾祖父是现代计算科学的基础布尔代数的发明人。
后来他们搬家到了布里斯托进入了克利夫顿学院其实是顶尖私立学校可在他口中却是一个“二流公立学校”。
高中毕业后辛顿去了剑桥大学学习了物理和化学但是只读了一个月就退学了。
一年后他有重新申请了剑桥大学并转学建筑结果坚持一天就退学了。
然后又转向了物理学和生物学但是后来发现物理中的数学太难了。因此又转学了哲学花了一年修完了两年的课程。
辛顿说“这一年大有裨益因为我对哲学产生了强烈的抗体我想要理解人类意识的工作原理。”
于是他又又又又转向了心理学仅仅为了肯定“心理学家对人类的意识也不明所以”。
在1973年前往爱丁堡大学研究生学院学习人工智能之前他做了一年的木匠。
即使在当时辛顿已经确信不被看好的神经网络才是正确之路但是他的导师却在那时候刚改为支持人工智能的传统论点。
辛顿说“我的研究生生涯充满了暴风骤雨每周我和我的导师都会有一次争吵。我一直在做着交易我会说好吧让我再做6个月时间的神经网络我会证明他的有效性的。当六个月的时间结束了我又说我几乎要成功了再给我6个月。自此之后我一直说再给我五年时间而其他人也一直说你做这个都5年了他永远不会有效的。但终于神经网络奏效了”
2.5深度学习的崛起
第五阶段为从 2006 年开始至今在这一时期研究者逐渐掌握了训练深层神经网络的方法使得神经网络重新崛起.
2006年Hinton通过逐层预训练来学习一个深度信念网络并将其权重作为一个多层前馈神经网络的初始化权重再用反向传播算法进行精调.这种“预训练精调”的方式可以有效地解决深度神经网络难以训练的问题. 结构和全连接神经网络很像
他给多层神经网络相关的学习方法赋予了一个新名词–“深度学习”。
随着深度神经网络在语音识别和图像分类等任务上的巨大成功以神经网络为基础的深度学习迅速崛起.
近年来随着大规模并行计算以及GPU设备的普及计算机的计算能力得以大幅提高.此外可供机器学习的数据规模也越来越大.
在强大的计算能力和海量的数据规模支持下计算机已经可以端到端地训练直接优化任务的总体目标不分模块分阶段的训练,神经网络就是端到端的训练一个大规模神经网络不再需要借助预训练的方式.各大科技公司都投入巨资研究深度学习神经网络迎来第三次高潮。
3.NLP的发展历史
在过去的几十年里计算机科学领域经历了一场巨大的变革其中自然语言理解NLP作为一门重要的研究方向见证了从萌芽到蓬勃发展的辉煌历程。
从早期的基于规则的方法到现在以深度学习为核心的模型NLP的发展离不开科技的进步和学术界的不断探索。
3.1起源
NLP的思想可以追溯到阿兰·图灵当是提出的图灵测试通过与人类进行对话,来测试机器是否具有智能。如果机器能够让人类无法分辨它是机器还是真人,那么它就通过了图灵测试,被认为具有智能。
3.2基于规则
随后的数十年中人们尝试通过基于语法和语义规则的方法解决NLP领域的问题。但是人类的语言十分之多据统计人类大概有7000多种语言他们的语义规则又各不相同。所以这种方法几乎不可能涵盖所有的语言。 3.3基于统计
弗雷德里克·贾利尼克教授Frederick Jelinek等大牛们在当时采用了一种基于统计方法的方法解决语音识别的问题这样把一个基于规则的问题转换成了基于统计的数学问题这样NLP任务的准确率有了质的飞跃。
贾利尼克等人提出的这个框架对语音和语言处理领域产生了深远的影响从根本上使得语音识别技术有了实用的可能性。此外他曾担任约翰霍普金斯语言与语音处理中心主任在该中心培育了很多华人校友比如吴军博士等人。
从这个时候起人们通过基于统计的方法定义了语言模型这个概念。语言模型基于统计方法通过计算给定文本序列的概率分布来预测或生成文本
3.4深度学习和大数据驱动
进入21世纪后深度学习和大数据的结合推动了NLP的发展。随着计算能力的提升和大规模语料库的出现深度学习模型在多个NLP任务中取得了突破性进展。
卷积神经网络CNN虽然CNN主要用于图像处理但也被应用于文本分类和情感分析等NLP任务。
递归神经网络RNNRNN及其变体如LSTM和GRU在机器翻译、语言建模和文本生成等任务中取得了显著成果。
Attention机制2015年Bahdanau等人提出了注意力机制使得模型可以在编码过程中关注输入序列的不同部分提高了机器翻译的效果。
4.统计语言模型的发展历程
其实基于统计的语言模型其实出现的也很早他的发展历程和AI技术也很类似。虽然有理论但是早起的网络结构和数据量的局限早起的统计语言模型并没有突破性的应用。
以上是统计语言模型发展的里程碑。其中上半部分是语言模型的技术进展下半部分是词向量的技术进展。
这里把统计语言模型单独拿了出来讲是因为它在NLP领域中的基础性和重要性对后续技术的发展起了相当重要的铺垫作用为后来的技术发展提供了宝贵的经验和支持是NLP历史中不可或缺的一部分。
4.1N-Gram模型
1948年N-Gram模型诞生思路是基于前N-1个项目来预测序列的第N个项目所谓的项目就是词或短语。
4.2Bag-of-Words模型
1954年的词袋模型是一种简单且常用的文本表示方法他将文本表示为一个单词的集合不考虑单词在文本中的顺序。 这种表示方法中每个单词都可以表示为一个单词的频率向量对应一个特定的维度向量的值表示在文本中出现的次数。如下 4.3分布式表示
1986年的分布式表示是一种将词或短语表示为数值向量的方法。这种表示方法中单词的语义信息被分散到向量的各个维度上因此可以捕捉单词之间的相似性和关联性。
分布式表示主要基于单词在文本中的上下文来构建因此有较多的语义和句法信息。
这种表示有助于解决传统的词袋模型和one hot编码中的词汇鸿沟问题歧义同义词。
4.4神经概率语言模型
2003年的神经概率语言模型提出使用神经网络来学习单词之间的复杂关系打破了传统统计语言模型的局限。
这一思想为后续的神经网络语言模型的发展奠定了坚实基础是后续的神经网络语言模型CNN, RNN, LSTM的思想起点。
4.5Word2Vec
2013年出现的Word2Vec是一个重要的里程碑是一种通过训练神经网络模型来学习词汇的分布式表示简单高效。
他有两种主要的架构CBOW(Continuous Bag os Words)和Skim-Gram模型。 W2C生成的词向量可以捕捉到单词之间的相似性语义关联及词汇的句法信息。他的思想和训练结果被广泛用于许多NLP模型中。
4.6预训练语言模型
2018年后基于Transformer的预训练语言模型一统江湖在自然语言处理领域的许多任务的主导方法。
他通过更大的语料库和更加复杂的神经网络体系结构来进行语法和语义的信息学习这就是语言模型的预训练过程。
这些模型的具体的NLP任务中机器翻译、问答系统等上进行微调后表现的十分出色。并且不断刷新各大基准测试的SOTA(State Of The Art, 可以理解为某些领域的最高效果)。 图中的每个节点都为后续的技术诞生打下了基础其关键点是从基于规则的模型到基于统计的模型的跃迁以及海量的语料库训练出来的大模型的使用。
5.大模型时代的发展历史
大模型时代的到来彻底改变了NLP领域的发展路径自2017年Transformer提出以来NLP经历了基础模型阶段能力探索阶段和突破爆发阶段每个阶段都带来了显著的技术进步和应用创新。
5.1基础模型阶段
主要集中在2018年至2021年。2017 年瓦斯瓦尼Vaswani等人提出了 Transformer架构在机器翻译任务上取得了突破性进展。
2018年 Google 和 Open AI 分别提出了BERT和GPT-1模型开启了预训练语言模型时代。
经典的BERT系列模型如下
此后国内也相继推出了一系列的大规模语言模型包括清华大学 ERNIE(THU)、 百度 ERNIE(Baidu)、华为盘古-α等。
这个阶段研究主要集中语言模型本身包括仅编码器(Encoder Only)、编码器-解码器(Encoder-Decoder)、仅解码器(Decoder Only)等各种类型的模型结构都有相应的研究。模型大小与BERT相类似的算法通常采用预训练微调范式针对不同下游任务进行微调。但是模型参数量在10亿以上时由于微调的计算量很高这类模型的影响力 在当时相较 BERT 类模型有不小的差距 GPT系列OpenAI的生成式预训练模型GPT系列包括GPT-1、GPT-2和GPT-3。GPT-1首次引入了生成式预训练Generative Pretraining和自回归模型架构通过大规模语料库预训练提升了生成文本的流畅性。GPT-2以15亿参数的规模震惊业界展示了强大的生成能力。GPT-3更是将参数量提升至1750亿显著增强了模型的通用性和理解能力。
BERT谷歌提出的双向编码器表示BERT模型通过Masked Language ModelMLM和Next Sentence PredictionNSP任务进行预训练实现了对上下文的深度理解。BERT在多个NLP任务上取得了突破性进展广泛应用于问答系统、文本分类等领域。
ERNIE清华大学提出的增强表示模型ERNIE通过引入知识图谱进行预训练增强了模型对知识的理解和推理能力。ERNIE在多个中文NLP任务上表现优异展示了知识增强预训练的潜力。
PANGU- α \alpha α华为推出的PANGU- α \alpha α模型通过超大规模参数和大规模语料库预训练展示了强大的生成和理解能力。PANGU- α \alpha α在多项中文任务中表现出色。
其他模型这一时期还涌现了许多重要的模型如ALBERT参数共享和分解矩阵降低模型复杂度、RoBERTa通过更长时间预训练和更大数据集增强性能、**ELECTRA通过替换token检测任务提高预训练效率**等。这些模型在预训练范式、模型结构和任务设计上进行了多种创新解决了许多NLP领域的实际问题。
5.2能力探索阶段
能力探索阶段集中于2019年至2022年由于大规模语言模型很难针对特定任务进行微调研究人员们开始探索在不针对单一任务进行微调的情况下如何能够发挥大规模语言模型的能力。
2019年Radford 等人就使用GPT-2模型研究了大规模语言模型在零样本情况下的任务处理能力。在此基础上Brown等人在GPT-3模型上研究了通过语境学习(In-Context Learning)进行少样本学习的方法。将不同任务的少量有标注的实例拼接到待分析的样本之前输入语言模型使用语言模型根据实例理解任务并给出正确结果。
但是仅依赖基于语言模型本身其性能在很多任务上仍然很难达到有监督学习效果因此研究人员们提出了指令微调(Instruction Tuning)案将大量各类型任务统一为生成式自然语言理解框架并构造训练语料进行微调。大规模语言模型一次性学习数千种任务并在未知任务上展现出了很好的泛化能力。
这些方法从直接利用大规模语言模型进行零样本和少样本学习的基础上逐渐扩展到利用生成式框架针对大量任务进行有监督微调的方法有效提升了模型的性能。
几个概念– Zero-shot学习大模型通过预训练阶段获取大量知识在没有特定任务训练数据的情况下也能完成任务。GPT-3在Zero-shot学习上的表现尤其出色展示了强大的通用性。Few-shot学习大模型在提供少量示例的情况下能够快速适应新任务。通过在任务上下文中提供示例大模型能够理解并完成特定任务这一能力在GPT-3中得到了显著体现。指令微调通过在预训练模型上进行指令式微调Instruction Tuning模型能够更好地理解和执行自然语言指令。指令微调大大提升了模型的实用性和用户交互体验。有监督微调与强化学习结合有监督微调和强化学习技术进一步提升模型在特定任务上的性能。例如OpenAI的GPT-3通过有监督微调和PPOProximal Policy Optimization强化学习策略显著提高了对话生成质量。 5.3突破发展阶段
突破发展阶段以2022年11月的ChatGPT的发布为起点,大模型的发展进入了突破爆发阶段大模型的数量和应用场景实现了爆发式增长。
ChatGPT的发布2022年11月OpenAI发布的ChatGPT引发了全球范围内对话式AI的热潮。ChatGPT基于GPT-3.5通过大量对话数据进行微调在自然语言理语境学习(In-Context Learning)进行少样本学习的方法。将不同任务的少量有标注的解和生成方面表现出色成为了对话式AI的标杆。
模型数量爆发随着技术的进步和算力的提升各大科技公司和研究机构纷纷推出自己的大模型。Google的PaLM、Meta的OPT-175B、Microsoft的Turing-NLG等模型不断刷新参数规模和性能纪录。
多模态模型的崛起不仅限于文本处理多模态模型开始崭露头角能够处理文本、图像、音频等多种数据类型提升了模型的应用范围和能力。例如OpenAI的DALL-E和CLIP在图像生成和理解方面取得了显著进展。
应用场景的扩展大模型在各个领域的应用不断扩展从医疗诊断、法律咨询到教育培训均展示了强大的应用潜力。大模型在实际应用中的表现和价值得到了广泛认可。
下面是一些典型的开源和闭源大模型汇总 结尾
回顾人工智能及其关键分支的发展历程我们不禁为人类智慧的伟大和技术的力量所震撼。从最初的梦想与探索到如今的广泛应用与深刻影响人工智能不仅改变了我们的生活方式和工作模式更引领着人类社会迈向了一个全新的智能时代。
然而我们也应清醒地认识到人工智能的发展仍面临诸多挑战和未知。如何确保技术的安全可控、如何促进人机和谐共生、如何避免技术滥用和伦理风险……这些问题都需要我们共同思考和努力解决。
展望未来我们有理由相信随着技术的不断进步和应用的不断深化人工智能将在更多领域发挥更大的作用和价值。它将成为推动社会进步的重要力量为人类创造更加美好的明天。让我们携手并进共同迎接这个充满机遇与挑战的智能时代吧
参考资料
《神经网络与深度学习》 - 邱锡朋 《百面机器学习》 - 诸葛越 《GPT图解》 - 黄佳 《预训练语言模型》 - 邵浩 《大规模语言模型》 - 张齐