做网站怎么挣钱赚钱,网站主机租用多少钱,目前it行业哪个方向前景最好,贵阳网站建设多少钱大模型席卷全球#xff0c;彷佛得模型者得天下。对于IT行业来说#xff0c;以后可能没有各种软件了#xff0c;只有各种各样的智体#xff08;Agent#xff09;调用各种各样的API。在这种大势下#xff0c;笔者也阅读了很多大模型相关的资料#xff0c;和很多新手一样彷佛得模型者得天下。对于IT行业来说以后可能没有各种软件了只有各种各样的智体Agent调用各种各样的API。在这种大势下笔者也阅读了很多大模型相关的资料和很多新手一样开始脑子里都是一团乱麻随着相关文章越读越多再进行内容梳理终于理清了一条清晰的脉络。笔者希望通过三篇文章总结入门篇、原理篇和应用篇将思路写下来以便跟我一样的新手读者快速了解大模型的方方面面。在这里笔者先强调一下本系列文章的深度有限只是个人对大模型知识脉络的梳理同时也会借鉴一下同行的博客内容充实本文文末将会注明参考来源。
在开始阅读文章之前有几个问题读者可以先思考一下
什么是大模型大模型最终要解决的问题是什么
大模型LLM与人工智能AI
提到大模型全名大语言模型LLMLarge Language Model绕不开人工智能AIArtificial Intelligence这个概念。
目前业界对于AI的定义有很多但有一个令我印象深刻的说法让机器像人一样阅读、写作和交流。通过最近几年AGI的高速发展AI不仅仅能写作了还能进行各种各样的创作了。所以笔者认为这个说明可以进一步完善人工智能就是要让机器像人一样阅读、创作和交流。
阅读机器能够像人一样接收各种各样的输入并能够理解这些输入创作机器能够像人一样进行创作输出不仅仅只是写作还包括绘画、视频创作等等交流在上述理解输入和创作输出的基础上就自然而然可以实现机器像人一样交流并且在创作输出能力上可能比自然人更加优势。
要实现上述描述的人工智能首先就需要让机器理解人类的输入人类的输入方式比较多语言和文字首当其冲。要让机器理解语言和文字就需要进行语言建模语言建模的输出就是语言模型LMLanguage Model。
机器通过分析学习大量人类语言和文字最终获得一个语言模型。通过该模型机器好像听懂了用户输入一样对用户的输入进行对应的输出。而用户通过得到的机器输出也感觉机器理解了自己的意思。但实际这里的听懂和理解都是机器的运算。
那么这么厉害的模型是怎么来的呢
大模型LLM的发展与定义
和很多有故事的人的名字一样大模型一开始并不叫大模型。
大模型的发展经历了4个阶段 统计语言模型 SLMStatistical Language Model统计语言模型基于统计学习方法开发其基本思想是基于马尔可夫假设建立词预测模型。这种模型常见于我们的全文检索和推荐系统中通过统计词频等信息来做统计预测这种模型通常受到维数灾难的困扰。 神经语言模型 NLMNeutral Language Model通过神经网络如循环神经网络RNN来描述单词序列的概率。该模型引入了词的分布式表示这一概念并在聚合上下文特征即分布式词向量的条件下构建词预测函数。word2vec提出了构建简化的浅层神经网络来学习分布式单词表示的方法这些表示在各种NLP任务中被证明非常有效。 预训练语言模型 PLMPre-training Language Model基于自注意力机制的高度并行化Transformer架构在大规模无标签语料库上使用专门设计的预训练任务。该模型确立了“预训练和微调”学习范式。在这个范式下通常需要对PLM进行微调以适配不同的下游任务。 大语言模型 LLMLarge Language Model。研究人员发现扩展PLM扩展模型大小或数据大小通常会提高下游任务的模型性能许多研究通过训练越来越大的PLM来探索性能极限。随后发现当模型参数达到某一极限之后模型在解决一系列复杂任务中展示了惊人的能力这种能力被称为【涌现能力】。 关于涌现能力业界目前还有很多问题待研究解决。比如模型参数具体达到多少涌现能力会出现大模型为什么会突然出现涌现能力等。
通过大模型的发展阶段描述本节最后总结一下大模型LLM的定义。 大模型是一种采用Transformer架构模型参数达到百亿或千亿级的预训练模型。
大模型LLM的分类
目前业界涌现了非常多的大模型也看了网上一些关于对大模型分类归纳的文章都非常不错本节主要是对网上的分类信息进行总结。
本节将从以下三个方面来对大模型进行分类
根据算法原理分类
大模型的架构基本都是Transformer而Transformer详细的结构在google发布的论文《Attention Is All You Need》中进行了描述Transformer结构中有两个非常重要的部件Encoder和Decoder如下图所示 根据对Transformer结构的裁剪可以将目前的大模型分为三类
Encoder-Only裁剪了Decoder部件代表模型BERT到了2020年之后这类技术基本已经不再发展。Encoder-Decoder没有裁剪任何部件代表模型T5。Decoder-Only裁剪了Encoder部件代表模型GPT目前主导LLM领域的发展。
下面是一张结合了大模型出现时间以及所属架构分类的图片分别详细阐述了各个分类有哪些代表模型以及模型出现的时间。 根据输入内容分类
根据输入内容不同可以分为以下三类
语言大模型
指在自然语言处理Natural Language ProcessingNLP领域中的一类大模型通常用于处理文本数据和理解自然语言。 这类大模型的主要特点是它们在大规模语料库上进行了训练以学习自然语言的各种语法、语义和语境规则。 例如GPT 系列OpenAI、BardGoogle、文心一言百度。
视觉大模型
指在计算机视觉Computer VisionCV领域中使用的大模型通常用于图像处理和分析。 这类模型通过在大规模图像数据上进行训练可以实现各种视觉任务如图像分类、目标检测、图像分割、姿态估计、人脸识别等。 例如VIT 系列Google、文心UFO、华为盘古 CV、INTERN商汤。
多模态大模型
指能够处理多种不同类型数据的大模型例如文本、图像、音频等多模态数据。 这类模型结合了 NLP 和 CV 的能力以实现对多模态信息的综合理解和分析从而能够更全面地理解和处理复杂的数据。 例如DingoDB 多模向量数据库九章云极 DataCanvas、DALL-E(OpenAI)、悟空画画华为、midjourney。
根据应用领域分类
按照应用领域大模型主要可以分为 L0、L1、L2 三个层级 通用大模型 L0 是指可以在多个领域和任务上通用的大模型。 它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法在大规模无标注数据上进行训练以寻找特征并发现规律进而形成可“举一反三”的强大泛化能力可在不进行微调或少量微调的情况下完成多场景任务相当于 AI 完成了“通识教育”。 行业大模型 L1 是指那些针对特定行业或领域的大模型。 它们通常使用行业相关的数据进行预训练或微调以提高在该领域的性能和准确度相当于 AI 成为“行业专家”。 垂直大模型 L2 是指那些针对特定任务或场景的大模型。 它们通常使用任务相关的数据进行预训练或微调以提高在该任务上的性能和效果。
读完本文文章开篇的两个问题应该都有答案了。感谢各位读者的关注、收藏和点赞为后续原理篇和应用篇的编写提供动力
参考文献
大模型基本概念和分类介绍总结一张图总结大语言模型的技术分类、现状和开源情况《Attention is all you need》