当前位置: 首页 > news >正文

网站建设电销话术网站建设.国风网络

网站建设电销话术,网站建设.国风网络,网站的域名做邮箱,网站点击率原因11.1 降维 降维的两种应用#xff1a;一是数据压缩#xff1b;二是可视化数据。 11.1.1 数据压缩 将相关性强的两个特征导致冗余#xff0c;可以直接去掉其中一个特征#xff0c;或者将两个特征进行某种转换#xff0c;得到一个特征。 11.1.2 可视化数据 直接看数据可…11.1 降维 降维的两种应用一是数据压缩二是可视化数据。 11.1.1 数据压缩 将相关性强的两个特征导致冗余可以直接去掉其中一个特征或者将两个特征进行某种转换得到一个特征。 11.1.2 可视化数据 直接看数据可能看不出什么现象出来 但是通过图来进行对比按照GDP或者是其他标准来看会更明显。 11.2 主成分分析PCA 假设我们有一个二维的样本x数据集当我们向对数据进行降维从二维到一维也就是想到找一条能够将数据投影成一条直线。PCA会找一个低维得平面刚刚的假设例子是一条直线然后将数据投影在上面使这些蓝色小线段长度有时也叫投影误差平方最小PCA要做的就是找到一个投影平面对数据进行投影使得能最小化这个距离。 主成分分析(PCA)是一种数据压缩的算法他将数据压缩到k维度并使得所有数据投影到新维度的距离最小。在应用PCA之前常规的做法是先进行均值归一化和特征常规化使得特征得均值为0并且其数值在可比较范围之内。 PCA做的就是对于二维降到一维要试着找到一个向量假设是()要找一个数据投影后能够最小化投影误差的方向在这个例子里希望PCA能找到这个向量。当把数据投影到存在的这条直线上时就会得到非常小的重构误差如上图所示。 对于N维降到K维我们要找的就不是单个向量来对数据进行投影二是想寻找K个方向来对数据进行投影来最小化投影误差。 PCA不是线性回归一个是投影距离一个是点与直线上点的距离。 下图的左边部分表示线性回归当我们处理线性回归时给定某个输入的特征量x来预测出某变量y的值。所以在线性回归中我们要做的就是拟合一条直线来最小化点和直线之间的平方误差要最小化的是图中蓝线之和的平方。下图的右边部分表示PCA在处理PCA中它要做的是试图最小化这些蓝色直线的长度是他们最短的正交距离。线性回归垂直x轴求预测与实际y差而PCA是垂直于拟合线求正交距离。 并且线性回归是用所有的x来预测y在PCA中没有区别对待没有什么特殊的变量y需要预测相反我们有一系列特征都是同等对待。 PCA执行过程首先对数据预处理进行均值归一化可能也要进行特征缩放然后计算协方差最后得到一个k维的矩阵。 首先对数据进行均值归一化然后确定要压缩的目标维度即对应向量的个数PCA的目标是使得所有数据距离新维度的距离最小。 将n维降到k维下面是过程 在进行数据预处理后首先计算协方差covariance matrixSigma是nxn的矩阵 再进行特征缩放。 11.3 压缩重现 怎么样把降维的数据再重现回去 这里反求的x是近似的 11.4 确定维度K 为了选择k也就是主要成分的数量这里有一些有用的概念。 PCA所做的是尝试使得这个式子最小化这就是平均平方差投影误差。训练集数据的总方差(所有训练实例的范数得平均值)。也就是说它代表了我的数据点与(0,0)点平均有多远。当我们选择k时我们要取得最小值的k使得下图的不等式小于等于0.01。 选择k使得平均投影平方误差分子除以总方差分母也就是代表数据波动有多大。这里的0.01用术语说就是保留99%的方差特性也就是降维后保留的数据量要占到原数据的99以上。variance在这里不应该理解成为方差而是差异PCA其实是保留差异的分量将具有相关性。可能95%到99%是最常使用的数值。因为很多数据特征相关所以降维依然可以保留95%以上的特征。 实现这一点的步骤如下 如果你想要k的值让k1执行PCA算法计算下面这些变量的值然后检查下面不等式是否满足小于等于0.01如果不成立继续让k2k3k4...如果成立就选择k1。但是这样做效率不高。 可以使用PCA运算中已经写好的svd分解函数调用svd通过Sigma参数得到USV三个参数。其中S矩阵是一个对角阵。并且可以证明对于给定的k将变换成这样计算接下来要做的就是验证它是否小于等于0.01或者验证是否大于0.99。 11.5 PCA的应用 如果直接再交叉验证集和测试集上用PCA会过拟合所以只能用训练集降维矩阵去给测试机和交叉验证集做映射不能另外在上面做PCA。 PCA的应用首先它能进行数据压缩其次可以使用PCA去加速学习算法以及可视化。 PCA不能防止过拟合过拟合是由于某些异常数据的影响而产生的通过主成分分析只能去除异常数据内部的一部分噪音并不能把异常数据本身从数据集中去除异常数据在投影面上的异常性还是存在。解决过拟合的好方式使用正则化。 PCA有时候会丢失一些重要的数据信息这样训练出来的模型性能会减弱除非数据太大或者算法太慢才会考虑PCA。
http://www.hkea.cn/news/14430957/

相关文章:

  • 免费html5网站源码文化建设实施方案
  • 重庆市建设工程施工安全管理总站做损坏文档的网站
  • 怎么用dw做地图网站室内设计网课推荐
  • 如何建立网站服务器wordpress添加分类图片
  • 网站开发工程师符号代码dede二手车网站源码
  • 镇江本地网站正规网站建设代理
  • 微网站和普通网站区别网站开发前景
  • 西宁网站建设 哪家好做美工需要知道的设计网站
  • 企业网站建设目的南宁建设公司网站
  • 惠州网站制作询问薇西安有哪些做网站建设的公司
  • 在哪个网站做外贸生意好中国建设银行企业信息门户网站
  • 莱芜关于网站建设的公司县网站建设运维情况自查报告
  • 网站怎么添加关键词改网站js代码
  • 做网站制作挣钱吗google网站登录入口
  • 同性做视频网站港港网app下载最新版
  • 谷歌网站模板江西赣州最新消息
  • 马鞍山 网站建设 有限公司建设淘宝客网站多少钱
  • 做佩戴护身符的厂家网站网站制作设计发展前景
  • 易优建站苏州好的网络科技公司
  • asp做留言板网站摄影网站设计方案
  • 自适应网站设计账户竞价托管公司
  • wordpress备份网站网站建设要学哪些
  • 怎样用vs2017做网站网站搜什么关键词好
  • 前端做用vue做后台多还是做网站多有什么可以做兼职的正规网站
  • 兰州网站制作公司在哪里网站空间名
  • 青岛专业做网站优化昆明网站建设问问q778925409耍強
  • 网站盈利方式太原免费自助建站模板
  • 珠海建网站公司画册宣传册设计
  • 企业网站的功能列表软件定制开发服务收费多少
  • 闵行网站建站多少钿百度怎么做广告