西安网站建设有那些公司,网站静态化,网站设计的专业流程,网站ome系统怎么做机器学习和深度学习综述
1. 人工智能、机器学习、深度学习的关系
近些年人工智能、机器学习和深度学习的概念十分火热#xff0c;但很多从业者却很难说清它们之间的关系#xff0c;外行人更是雾里看花。在研究深度学习之前#xff0c;先从三个概念的正本清源开始。概括来说…机器学习和深度学习综述
1. 人工智能、机器学习、深度学习的关系
近些年人工智能、机器学习和深度学习的概念十分火热但很多从业者却很难说清它们之间的关系外行人更是雾里看花。在研究深度学习之前先从三个概念的正本清源开始。概括来说人工智能、机器学习和深度学习覆盖的技术范畴是逐层递减的三者的关系如 图1 所示即人工智能 机器学习 深度学习。 图1人工智能、机器学习和深度学习三者关系示意人工智能ArtificialIntelligenceAI是最宽泛的概念是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。由于这个定义只阐述了目标而没有限定方法因此实现人工智能存在的诸多方法和分支导致其变成一个“大杂烩”式的学科。机器学习MachineLearningML是当前比较有效的一种实现人工智能的方式。深度学习DeepLearningDL是机器学习算法中最热门的一个分支近些年取得了显著的进展并替代了大多数传统机器学习算法。
2. 机器学习
区别于人工智能机器学习、尤其是监督学习则有更加明确的指代。机器学习是专门研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能。这句话有点“云山雾罩”的感觉让人不知所云下面我们从机器学习的实现和方法论两个维度进行剖析更加清晰地认识机器学习的来龙去脉。
2.1 机器学习的实现
机器学习的实现可以分成两步训练和预测类似于归纳和演绎
归纳 从具体案例中抽象一般规律机器学习中的“训练”亦是如此。从一定数量的样本已知模型输入XXX和模型输出YYY中学习输出YYY与输入XXX的关系可以想象成是某种表达式。演绎 从一般规律推导出具体案例的结果机器学习中的“预测”亦是如此。基于训练得到的YYY与XXX之间的关系如出现新的输入XXX计算出输出YYY。通常情况下如果通过模型计算的输出和真实场景的输出一致则说明模型是有效的。
2.2 机器学习的方法论
机器学习的方法论和人类科研的过程有着异曲同工之妙下面以“机器从牛顿第二定律实验中学习知识”为例更加深入理解机器学习监督学习的方法论本质即在“机器思考”的过程中确定模型的三个关键要素假设、评价、优化。
2.2.1 案例机器从牛顿第二定律实验中学习知识 牛顿第二定律
牛顿第二定律是艾萨克·牛顿在1687年于《自然哲学的数学原理》一书中提出的其常见表述物体加速度的大小跟作用力成正比跟物体的质量成反比与物体质量的倒数成正比。牛顿第二运动定律和第一、第三定律共同组成了牛顿运动定律阐述了经典力学中基本的运动规律。 在中学课本中牛顿第二定律有两种实验设计方法倾斜滑动法和水平拉线法如 图2 所示。 图2牛顿第二定律实验设计方法相信很多同学都有摆弄滑轮和小木块做物理实验的青涩年代和美好回忆。通过多次实验数据可以统计出如 表1 所示的不同作用力下的木块加速度。 表1实验获取的大量数据样本和观测结果观察实验数据不难猜测物体的加速度aaa和作用力FFF之间的关系应该是线性关系。因此我们提出假设 aw⋅Fa w \cdot Faw⋅F其中aaa代表加速度FFF代表作用力www是待确定的参数。
通过大量实验数据的训练确定参数www是物体质量的倒数(1/m)(1/m)(1/m)即得到完整的模型公式aF⋅(1/m)a F \cdot (1/m)aF⋅(1/m)。当已知作用到某个物体的力时基于模型可以快速预测物体的加速度。例如燃料对火箭的推力FFF10火箭的质量mmm2可快速得出火箭的加速度aaa5。
2.2.2 如何确定模型参数
这个有趣的案例演示了机器学习的基本过程但其中有一个关键点的实现尚不清晰即如何确定模型参数w1/mw1/mw1/m
确定参数的过程与科学家提出假说的方式类似合理的假说可以最大化的解释所有的已知观测数据。如果未来观测到不符合理论假说的新数据科学家会尝试提出新的假说。如天文史上使用大圆和小圆组合的方式计算天体运行在中世纪是可以拟合观测数据的。但随着欧洲工业革命的推动天文观测设备逐渐强大已有的理论已经无法解释越来越多的观测数据这促进了使用椭圆计算天体运行的理论假说出现。因此模型有效的基本条件是能够拟合已知的样本这给我们提供了学习有效模型的实现方案。
图3 是以HHH为模型的假设它是一个关于参数www和输入xxx的函数用H(w,x)H(w, x)H(w,x) 表示。模型的优化目标是H(w,x)H(w, x)H(w,x)的输出与真实输出YYY尽量一致两者的相差程度即是模型效果的评价函数相差越小越好。那么确定参数的过程就是在已知的样本上不断减小该评价函数HHH和YYY的差距的过程。直到模型学习到一个参数www使得评价函数的值最小衡量模型预测值和真实值差距的评价函数也被称为损失函数损失Loss。 图3确定模型参数示意图假设机器通过尝试答对最小化损失大量的习题已知样本来学习知识模型参数www并期望用学习到的知识所代表的模型H(w,x)H(w, x)H(w,x)回答不知道答案的考试题未知样本。最小化损失是模型的优化目标实现损失最小化的方法称为优化算法也称为寻解算法找到使得损失函数最小的参数解。参数www和输入xxx组成公式的基本结构称为假设。在牛顿第二定律的案例中基于对数据的观测我们提出了线性假设即作用力和加速度是线性关系用线性方程表示。由此可见模型假设、评价函数损失/优化目标和优化算法是构成模型的三个关键要素。
2.2.3 模型结构
模型假设、评价函数和优化算法是如何支撑机器学习流程的呢如图4 所示。 图4机器学习流程模型假设世界上的可能关系千千万漫无目标的试探YYY$X$之间的关系显然是十分低效的。因此假设空间先圈定了一个模型能够表达的关系可能如蓝色圆圈所示。机器还会进一步在假设圈定的圆圈内寻找最优的$Y$XXX关系即确定参数www。评价函数寻找最优之前我们需要先定义什么是最优即评价一个YYY~XXX关系的好坏的指标。通常衡量该关系是否能很好的拟合现有观测样本将拟合的误差最小作为优化目标。优化算法设置了评价指标后就可以在假设圈定的范围内将使得评价指标最优损失函数最小/最拟合已有观测样本的YYY~XXX关系找出来这个寻找最优解的方法即为优化算法。最笨的优化算法即按照参数的可能穷举每一个可能取值来计算损失函数保留使得损失函数最小的参数作为最终结果。
从上述过程可以得出机器学习的过程与牛顿第二定律的学习过程基本一致都分为假设、评价和优化三个阶段
假设通过观察加速度aaa和作用力FFF的观测数据假设aaa和FFF是线性关系即aw⋅Fa w \cdot Faw⋅F。评价对已知观测数据上的拟合效果好即w⋅Fw \cdot Fw⋅F计算的结果要和观测的aaa尽量接近。优化在参数www的所有可能取值中发现w1/mw1/mw1/m可使得评价最好最拟合观测样本。
机器执行学习任务的框架体现了其学习的本质是“参数估计”Learning is parameter estimation。
上述方法论使用更规范化的表示如图5所示未知目标函数fff以训练样本D{D}Dx1y1…xnyn{x_1}{y_1}… {x_n}{y_n}x1y1…xnyn为依据。从假设集合HHH中通过学习算法AAA找到一个函数ggg。如果ggg能够最大程度的拟合训练样本DDD那么可以认为函数ggg就接近于目标函数fff。 图5规范化表示在此基础上许多看起来完全不一样的问题都可以使用同样的框架进行学习如科学定律、图像识别、机器翻译和自动问答等它们的学习目标都是拟合一个“大公式f”如 图6 所示。 图6机器学习就是拟合一个“大公式”3. 深度学习
机器学习算法理论在上个世纪90年代发展成熟在许多领域都取得了成功但平静的日子只延续到2010年左右。随着大数据的涌现和计算机算力提升深度学习模型异军突起极大改变了机器学习的应用格局。今天多数机器学习任务都可以使用深度学习模型解决尤其在语音、计算机视觉和自然语言处理等领域深度学习模型的效果比传统机器学习算法有显著提升。
相比传统的机器学习算法深度学习做出了哪些改进呢其实两者在理论结构上是一致的即模型假设、评价函数和优化算法其根本差别在于假设的复杂度。如 图6 第二个示例图像识别所示对于美女照片人脑可以接收到五颜六色的光学信号能快速反应出这张图片是一位美女而且是程序员喜欢的类型。但对计算机而言只能接收到一个数字矩阵对于美女这种高级的语义概念从像素到高级语义概念中间要经历的信息变换的复杂性是难以想象的如图7所示。 图7深度学习的模型复杂度难以想象这种变换已经无法用数学公式表达因此研究者们借鉴了人脑神经元的结构设计出神经网络的模型如图8所示。图8a展示了神经网络基本单元-感知机的设计方案其处理信息的方式与人脑中的单一神经元有很强的相似性图8b展示了几种经典的神经网络结构后续的章节中会详细阐述类似于人脑中多种基于大量神经元连接而形成的不同职能的器官。 图8模拟人脑结构针对各种任务设计不同的深度学习模型3.1 神经网络的基本概念
人工神经网络包括多个神经网络层如卷积层、全连接层、LSTM等每一层又包括很多神经元超过三层的非线性神经网络都可以被称为深度神经网络。通俗的讲深度学习的模型可以视为是输入到输出的映射函数如图像到高级语义美女的映射足够深的神经网络理论上可以拟合任何复杂的函数。因此神经网络非常适合学习样本数据的内在规律和表示层次对文字、图像和语音任务有很好的适用性。这几个领域的任务是人工智能的基础模块因此深度学习被称为实现人工智能的基础也就不足为奇了。
神经网络基本结构如 图9 所示。 图9神经网络基本结构示意图神经元 神经网络中每个节点称为神经元由两部分组成 加权和将所有输入加权求和。非线性变换激活函数加权和的结果经过一个非线性函数变换让神经元计算具备非线性的能力。 多层连接 大量这样的节点按照不同的层次排布形成多层的结构连接起来即称为神经网络。前向计算 从输入计算输出的过程顺序从网络前至后。计算图 以图形化的方式展现神经网络的计算逻辑又称为计算图也可以将神经网络的计算图以公式的方式表达 Yf3(f2(f1(w1⋅x1w2⋅x2w3⋅x3b)…)…)…)Y f_3 ( f_2 ( f_1 ( w_1\cdot x_1w_2\cdot x_2w_3\cdot x_3b ) … ) … ) … )Yf3(f2(f1(w1⋅x1w2⋅x2w3⋅x3b)…)…)…)
由此可见神经网络并没有那么神秘它的本质是一个含有很多参数的“大公式”。如果大家感觉这些概念仍过于抽象理解的不够透彻先不用着急下一章会以“房价预测”为例演示使用Python实现神经网络模型的细节。
3.2 深度学习的发展历程
神经网络思想的提出已经是70多年前的事情了现今的神经网络和深度学习的设计理论是一步步趋于完善的。在这漫长的发展岁月中一些取得关键突破的闪光时刻值得深度学习爱好者们铭记如 图10 所示。 图10深度学习发展历程1940年代首次提出神经元的结构但权重是不可学的。50-60年代提出权重学习理论神经元结构趋于完善开启了神经网络的第一个黄金时代。1969年提出异或问题人们惊讶的发现神经网络模型连简单的异或问题也无法解决对其的期望从云端跌落到谷底神经网络模型进入了被束之高阁的黑暗时代。1986年新提出的多层神经网络解决了异或问题但随着90年代后理论更完备并且实践效果更好的SVM等机器学习模型的兴起神经网络并未得到重视。2010年左右深度学习进入真正兴起时期。随着神经网络模型改进的技术在语音和计算机视觉任务上大放异彩也逐渐被证明在更多的任务如自然语言处理以及海量数据的任务上更加有效。至此神经网络模型重新焕发生机并有了一个更加响亮的名字深度学习。
为何神经网络到2010年后才焕发生机呢这与深度学习成功所依赖的先决条件大数据涌现、硬件发展和算法优化有关。 大数据是神经网络发展的有效前提。神经网络和深度学习是非常强大的模型需要足够量级的训练数据。时至今日之所以很多传统机器学习算法和人工特征依然是足够有效的方案原因在于很多场景下没有足够的标记数据来支撑深度学习。深度学习的能力特别像科学家阿基米德的豪言壮语“给我一根足够长的杠杆我能撬动地球”。深度学习也可以发出类似的豪言“给我足够多的数据我能够学习任何复杂的关系”。但在现实中足够长的杠杆与足够多的数据一样往往只能是一种美好的愿景。直到近些年各行业IT化程度提高累积的数据量爆发式地增长才使得应用深度学习模型成为可能。 依靠硬件的发展和算法的优化。现阶段依靠更强大的计算机、GPU、autoencoder预训练和并行计算等技术深度学习在模型训练上的困难已经被逐渐克服。其中数据量和硬件是更主要的原因。没有前两者科学家们想优化算法都无从进行。
3.4 深度学习改变了AI应用的研发模式
3.4.1 实现了端到端的学习
深度学习改变了很多领域算法的实现模式。在深度学习兴起之前很多领域建模的思路是投入大量精力做特征工程将专家对某个领域的“人工理解”沉淀成特征表达然后使用简单模型完成任务如分类或回归。而在数据充足的情况下深度学习模型可以实现端到端的学习即不需要专门做特征工程将原始的特征输入模型中模型可同时完成特征提取和分类任务如 图14 所示。 图14深度学习实现了端到端的学习以计算机视觉任务为例特征工程是诸多图像科学家基于人类对视觉理论的理解设计出来的一系列提取特征的计算步骤典型如SIFT特征。在2010年之前的计算机视觉领域人们普遍使用SIFT一类特征SVM一类的简单浅层模型完成建模任务。 说明
SIFT特征由David Lowe在1999年提出在2004年加以完善。SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、微视角改变的容忍度也相当高。基于这些特性它们是高度显著而且相对容易撷取在母数庞大的特征数据库中很容易辨识物体而且鲜有误认。使用SIFT特征描述对于部分物体遮蔽的侦测率也相当高甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下辨识速度可接近即时运算。SIFT特征的信息量大适合在海量数据库中快速准确匹配。 3.4.2 实现了深度学习框架标准化
除了应用广泛的特点外深度学习还推动人工智能进入工业大生产阶段算法的通用性导致标准化、自动化和模块化的框架产生如 图15 所示。 图15深度学习模型具有通用性特点在此之前不同流派的机器学习算法理论和实现均不同导致每个算法均要独立实现如随机森林和支撑向量机SVM。但在深度学习框架下不同模型的算法结构有较大的通用性如常用于计算机视觉的卷积神经网络模型CNN和常用于自然语言处理的长期短期记忆模型(LSTM)都可以分为组网模块、梯度下降的优化模块和预测模块等。这使得抽象出统一的框架成为了可能并大大降低了编写建模代码的成本。一些相对通用的模块如网络基础算子的实现、各种优化算法等都可以由框架实现。建模者只需要关注数据处理配置组网的方式以及用少量代码串起训练和预测的流程即可。
在深度学习框架出现之前机器学习工程师处于“手工作坊”生产的时代。为了完成建模工程师需要储备大量数学知识并为特征工程工作积累大量行业知识。每个模型是极其个性化的建模者如同手工业者一样将自己的积累形成模型的“个性化签名”。而今“深度学习工程师”进入了工业化大生产时代只要掌握深度学习必要但少量的理论知识掌握Python编程即可在深度学习框架上实现非常有效的模型甚至与该领域最领先的模型不相上下。建模领域的技术壁垒面临着颠覆也是新入行者的机遇。 图16深度学习框架大大减低了AI建模难度