当前位置: 首页 > news >正文

建设明星网站的目的论文桂林建设信息网站

建设明星网站的目的论文,桂林建设信息网站,中文网址的作用,四川广汇建设有限公司网站一.大数据的特点#xff1a; 数据多#xff0c;类型多#xff0c;更新快#xff0c;更新内容多。 二.分类#xff08;classification#xff09;与混淆矩阵#xff08;confusion matrix#xff09; 这里的分类说的是二分类问题#xff0c;比如说把人分为好人和坏人 数据多类型多更新快更新内容多。 二.分类classification与混淆矩阵confusion matrix 这里的分类说的是二分类问题比如说把人分为好人和坏人即非黑即白。混淆矩阵就是将Actual value和predicted value进行统一整理其实就是记录模型的准确程度比如说我们可以规定Actual是好人Predicted也是好人那么矩阵值为0.Actual是好人Predicted是坏人为1.Actual是坏人Predicted是坏人值为2等等。这样可以清晰的看到模型在什么地方出现了偏差。比如说我们要区分男女那我们模型规定身高高于一米二的全是男人那混淆矩阵中肯定会出现很多Actual为女人Predicted是男人值为2的情况那我们就能很清楚的知道我们要把身高提高了因为很多女生其实也是很高的。并且classification是一个supervised learning过程就是从训练资料中学到或建立一个模式或者是函数并依此模式推测新的实例。 三.聚类clustering 聚类是一种unsupervised learning过程比如研究超市商品购物组合用了聚合函数后我们发现牛奶面包黄油可以归为一类subset但整个过程中的这些subset都不是我们预先给模型的都是模型自己发现的所以是一种unsupervised过程。 四.回归regression 回归其实属于聚类的一种结果就比如说我们在二维图像上有很多点最后我们通过clustering我们发现其实有三组点那我们不能跟小学生似的对这些点直接画圈而是通过回归将其整合成三条曲线以三个函数表达这三个subset。另外这里引进一个overfitting的概念过学习就是在聚类的regression过程中如何找一条切合的曲线呢最简单的就是直接把所有点穿起来肯定准确但是这条曲线的表达是很复杂的并且不能泛化通俗来讲就是我们自己都不知道曲线接下来会往哪里弯曲完全取决于新加进来的点这样显然是不对的。另外在classification也就是supervised learning中体现在特征的过多选取中就比如我们要实现人脸识别我们的特征连他每根头发的摆放位置都包含头发位置对于人脸识别并不是重要特征并且储存量巨大且极难泛化明显属于过拟合现象。 五.可视化 一是可以用于拿到数据之后直接对整体进行可视化也就是通过我们的人眼直接对数据进行大体的分析。二是可以用于将结果呈现给大众。 六.问卷的隐私调查 例如调查人群当中有多少人吸大麻我们可以将同一批人群分为两组。一共两个问题第一个问题是你吸大麻吗第二个问题是你不吸大麻吗选其一回答回答True or False。然后一组直接选其一回答True or False得到p*(true)和p*(false)。另一组问你会回答第一个问题还是第二个问题得到p(回答第一个问题的概率)。那么人群中抽大麻的概率为p(True)的话。就有p*(true) p * p(true) (1 - p) (1 - p(true)),那么p(true) (p*(True) p - 1)/(2p - 1). 七.cloud computing(云计算) 总体一句就是“Pay as you go”, 就比如我们平时购物的话客流量会很少但是当购物节的时候买东西的人就会很多但是我们如果按顶流购置服务器的话就会导致很大的浪费所以产生了云服务器也就是需要的时候我们再去租服务器。当然也有别的云服务比如一些平台我们平常不怎么使用那么就是“platform as a service”。 八.survivalship bias 这个例子就是说一所军工厂想为飞机加装甲找了个统计学家来发现飞回来的飞机都是机翼与尾翼中弹可能很多人直接就会给这两个地方加装甲但是我们忽略的问题是击中其他位置的飞机是不是都飞不回来其实飞回来的飞机没有中弹的地方是否才是最重要的位置呢比如说油箱驾驶舱等。这也就启示我们不要被一些数据的表面现象所迷惑要结合事实比如要调查天猫集团商铺数量与每个商铺机器交易额的关系那我们可能发现商铺数量越多平均交易额会更大但我们如果要从这个图看这个行业的发展状况通常我们会忽略时间这个维度可能我们看的60万商家平均每天交易额是20w只是前年的数据但今年的数据是只有10万商家每天交易额是2000.也就让我们重视起bias问题有效解决bias问题的方法就是结合现实来综合考虑。 九.数据清洗 我们这里说的清洗一般就是去特征值补数据或者抽象出一个数据类型。就比如我们要找一块石头大概的密度我们就可以把石头的形状以及颜色这些特征值去掉然后只保留体积和质量那就把一块石头抽象成了一个序对。然后是补数据比如说人的体重很多人没有填那我们可以做一个正态分布对称轴是65kg让数据显得更为自然。
http://www.hkea.cn/news/14341863/

相关文章:

  • 网站一定要备案吗pc端手机网站 样式没居中
  • 多个域名 一个网站搜索引擎优化的策略主要有
  • 电子商务网站建设与管理的感受wordpress影视模版
  • 网站怎么icp备案企业网站设计价格
  • 网站为什么要备案网站建设时怎么附加数据库
  • 有域名 如何免费建设网站金华做企业网站公司
  • 北京龙鼎网站建设公司建立客户档案表格模板
  • 深圳营销型网站推广湖州企业网站制作
  • 昆明seo网站排名北京房屋装修公司哪家好
  • 做视频网站的挣钱吗免费制作封面网站
  • 东城网站建设哪家好wordpress tag 打不开
  • 网站群建设厂家北京网页设计公司兴田德润优选
  • 潍坊 开发区网站建设商标查询官网入口免费
  • 合肥制作网站企业温州中小企业网站制作
  • 南昌商城网站建设公司wordpress 返回顶部 插件
  • 深圳光明建设局官方网站如何制作一个属于自己的网站
  • 网站开发哪家公司好网站建设要考虑哪些方面
  • 小游戏网站建设4399游戏官网
  • 电子商务中网站开发wordpress关闭功能
  • 佛山seo网站优化免费项目发布平台
  • 网站改版的费用wordpress小程序后台
  • dede织梦网站成都创意网站设计
  • 先进的网站建设wordpress如何显示摘要
  • 青春网页制作素材百度快速优化软件
  • 如何做旅游网站推广百度识图 上传图片
  • 深圳品牌网站策划红色php企业网站模板下载
  • php 网站做分享功能有没有找项目的网站
  • 公司做企业网站的必要性海南州建设厅官方网站
  • 深圳专业网站开发公司wordpress备案号格式
  • 电子商务网站建设期末试题答案05个人博客网页制作模板田田田田田田田田田田