西安做网站报价,西安网站开发建设,个人网站设计论文范文,外国网站 icp备案Hi#xff0c;大家好#xff0c;我是半亩花海。很早便想学习并总结一本很喜欢的机器学习图书——立石贤吾的《白话机器学习的数学》#xff0c;可谓通俗易懂#xff0c;清晰形象。那就在此分享并作为学习笔记来记录我的学习过程吧#xff01;本章的回归算法原理基于《基于… Hi大家好我是半亩花海。很早便想学习并总结一本很喜欢的机器学习图书——立石贤吾的《白话机器学习的数学》可谓通俗易懂清晰形象。那就在此分享并作为学习笔记来记录我的学习过程吧本章的回归算法原理基于《基于广告费预测点击量》项目欢迎大家交流学习 目录
一、最小二乘法概述
二、案例分析
1. 设置问题
2. 定义模型
3. 最小二乘法 一、最小二乘法概述
最小二乘法又称最小平方法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法同梯度下降类似都是一种求解无约束最优化问题的常用方法并且也可以用于曲线拟合来解决回归问题。 二、案例分析
下面根据《基于广告费预测点击量》这一项目展开最小二乘法的介绍和分析。
1. 设置问题
假设存在这样一个前提投入的广告费越多广告的点击量就越高进而带来访问数的增加。这样看这种假设类似于线性关系但实际上两者之间未必是简单的线性关系。
根据广告费和实际点击量的对应关系数据可以将两个变量用下面的图展示出来如下图图中的值是随便选的。 我们看着这张图可以猜猜如果花了200日元的广告费广告的点击量会是多少呢通过探索估计大概在500次左右吧。 这就是机器学习。我们所做的事情正是从数据中进行学习然后给出预测值。接下来我们就要使用机器学习像我们刚才做的那样尝试进行根据广告费预测点击量的任务。
当然实际要使用机器学习来解决的问题都会更复杂很多问题无法像这样画出图来。现在我们为了加深理解才用了这样一个简单的例子后面的例子会越来越难的。
2. 定义模型
那我们如何应用机器学习呢就刚刚的例子如下图所示我们可以把图想象为函数。只要知道通过图中各点的函数的形式就能根据广告费得知点击量了。但是点击量经常变化这叫作“点击量中含有噪声”所以函数并不能完美地通过所有的点。 这样看便是我们初中便学过的一次函数考虑到后面的学习为了防止当未知数增加时表达式中大量出现 a、b、c、d…这样的符号我们常常使用如下的“ 数字下标”的形式来表示未知数和推测值进而定义一次函数的表达式。 比如我们先任取两个数作为 、假设 那么当广告费为 100 日元时点击量的计算过程如下 函数 y 1 2x 的部分点信息如下 但实际上我们再看一下刚才的图会发现如果广告费为 100 日元那 么点击量应该大于 400。 这说明我们刚才确定的参数 完全不正确。 接下来我们就要使用机器学习来求出正确的 和 的值。
3. 最小二乘法
假设有 n 个训练数据 那么它们的误差之和可以用下面的表达式 表示。这个表达式称为目标函数其中 的 E 是误差的英语单词 Error 的首字母。ps计算误差一般不用绝对值而用平方。因为之后要对目标函数进行微分比起绝对值平方的微分更加简单。 其中 表达式为 其次 和 中的 i 不是 i 次幂的意思而是指第 i 个训练数据。
再者误差解释一下如下图所示图中的双向虚线箭头表示训练数据的点和 图像的误差。 我们实际来计算一下表达式 中 的值吧。设 然后将刚才列举的 4 个训练数据代入表达式。求出来的误差有点大…… 上述结果 112 176.5 这个值本身没有什么意义我们要通过一些方法修改参数 如之后所学习的神经网络中的调参等方式使得这个值变得越来越小。这种做法称为最小二乘法。