当前位置: 首页 > news >正文

购物网站模板 phpwordpress科技公司主题

购物网站模板 php,wordpress科技公司主题,centos.wordpress,全国二级建造师注册查询系统入口数据挖掘——数据预处理 数据预处理数据预处理 ——主要任务数据清洗如何处理丢失的数据如何处理噪声数据如何处理不一致数据 数据集成相关分析相关系数(也成为皮尔逊相关系数)协方差 数据规约降维法#xff1a;PCA主成分分析降数据——抽样法数据压缩 数据预处理 数据预处理… 数据挖掘——数据预处理 数据预处理数据预处理 ——主要任务数据清洗如何处理丢失的数据如何处理噪声数据如何处理不一致数据 数据集成相关分析相关系数(也成为皮尔逊相关系数)协方差 数据规约降维法PCA主成分分析降数据——抽样法数据压缩 数据预处理 数据预处理 ——主要任务 数据清理 填写缺失值平滑噪声数据识别或删除离群并解决不一致问题 数据集成 整合多个数据库多维数据集或文件 数据规约 降维降数据数据压缩 数据转换 规范化离散化 数据清洗 属性值缺失 例如职业“ ”丢失 噪音错误或离群 例如工资“-10”错误 不一致的代码或不符的名称 年龄“42”生日“03/07/1997”曾经评级“1,2,3”现在评级“ABC” 如何处理丢失的数据 忽略元组当类标号缺少时通常这么做监督式机器学习中训练集缺乏类标签。当每个属性缺少值比例比较大时效果比较差手动填写遗漏值工作量大自动填写 使用属性的平均值填充空缺值最有可能的值基于诸如贝叶斯公式或决策树推理 如何处理噪声数据 箱线图检测离群数据删除离群点 如何处理不一致数据 不一致的代码或不符的名称 年龄“42”生日“09/24/1998”曾经评级“1,2,3”现在评级“ABC” 方法 计算推理、替换全局替换 数据集成 将来自多个数据源的数据组合成一个连贯的数据源 整合多个数据库经常发生数据冗余 Object identification相同的属性或对象可能有不同的名字在不同的数据库中Derivable data一个属性可能是“派生”的另一个表中的属性例如跑步能力 通过相关性分析和协方差分析可以检测到冗余的属性仔细集成来自多个数据源可能有助于减少/避免冗余和不一致的地方并提高读取速度和质量 相关分析 相关系数(也成为皮尔逊相关系数) r p , q ∑ ( p − p ˉ ) ( q − q ˉ ) ( n − 1 ) σ p σ q ∑ ( p q ) − n p q ‾ ( n − 1 ) σ p σ q r_{p, q}\frac{\sum(p-\bar{p})(q-\bar{q})}{(n-1) \sigma_{p} \sigma_{q}}\frac{\sum(p q)-n \overline{p q}}{(n-1) \sigma_{p} \sigma_{q}} rp,q​(n−1)σp​σq​∑(p−pˉ​)(q−qˉ​)​(n−1)σp​σq​∑(pq)−npq​​ 其中 n n n是元组的数目而 p p p和 q q q是各属性的具体值 σ p σ_p σp​和 σ q σ_q σq​是各自的标准偏差。 当r0时表示两变量正相关r0时两变量为负相关。当|r|1时表示两变量为完全线性相关即为函数关系。当r0时表示两变量间无线性相关关系。当0|r|1时表示两变量存在一定程度的线性相关。且|r|越接近1 两 变量间线性关系越密切|r|越接近于0表示两变量的线性相关越弱。一般可按三级划分|r|0.4为低度线性相关0.4≤|r|0.7为显著性相关 0.7≤|r|1为高度线性相关。 协方差 Cov ⁡ ( p , q ) E ( ( p − p ˉ ) ( q − q ˉ ) ) ∑ i 1 n ( p i − p ˉ ) ( q i − q ˉ ) n r p , q Cov ⁡ ( p , q ) σ p σ q \begin{array}{c}\operatorname{Cov}(p, q)E((p-\bar{p})(q-\bar{q}))\frac{\sum_{i1}^{n}\left(p_{i}-\bar{p}\right)\left(q_{i}-\bar{q}\right)}{n} \\r_{p, q}\frac{\operatorname{Cov}(p, q)}{\sigma_{p} \sigma_{q}}\end{array} Cov(p,q)E((p−pˉ​)(q−qˉ​))n∑i1n​(pi​−pˉ​)(qi​−qˉ​)​rp,q​σp​σq​Cov(p,q)​​ 其中n是元组的数目p和q是各自属性的具体值 σp和σq是各自的标准差。 正相关 C o v p , q 0 Covp,q0 Covp,q0负相关 C o v p , q 0 Covp,q 0 Covp,q0不相关 C o v p , q 0 Covp,q 0 Covp,q0 可具有某些对随机变量的协方差为0但不是独立的。一些额外的假设例如数据是否服从多元正态分布做了协方差为0意味着独立。 它可以简化计算: C o v ( A , B ) E ( ( A − A ˉ ) ( B − B ˉ ) ) ∑ i 1 n ( a i − A ˉ ) ( b i − B ˉ ) n E ( A B ) − A ˉ B ˉ Cov(A,B)E((A-\bar{A})(B-\bar{B}))\frac{\sum_{i1}^n(a_i-\bar{A})(b_i-\bar{B})}{n}E(AB)-\bar{A}\bar{B} Cov(A,B)E((A−Aˉ)(B−Bˉ))n∑i1n​(ai​−Aˉ)(bi​−Bˉ)​E(AB)−AˉBˉ 数据规约 为什么数据规约datareduction 由于数据仓库可以存储TB的数据因此在一个完整的数据集上运行时复杂的数据分析可能需要一个很长的时间。 数据规约三种方法 降维降数据数据压缩 降维法PCA主成分分析 PCA主成分分析法核心idea 数据中很多属性之间可能存在这样或那样的相关性能不能找到一个方法将多个相关性的属性组合仅仅形成一个属性 降数据——抽样法 简单随机抽样(SimpleRandomSampling) 相等的概率选择不放回抽样(Samplingwithout replacement) 一旦对象被选中则将其删除 有放回抽样(Samplingwithreplacement) 选择对象不会被删除 分组抽样 每组抽相近个数用于偏斜数据 样本大小对数据质量的影响: 从8000个点分别抽2000和500个点 2000个点的样本保留了数据集的大部分结构500个点的样本丢失了许多结构 数据压缩 函数映射给定的属性值更换了一个新的表示方法每个旧值与新的值可以被识别方法 规范化按比例缩放到一个具体区间 最小 - 最大规范化Z-得分正常化小数定标规范化 离散化 最小-最大规范化 v ′ v − min ⁡ A m a x A − min ⁡ A ( n e w _ m a x A − n e w − min ⁡ A ) n e w − min ⁡ A v^{\prime}\frac{v-\min A}{max A-\min A}\left(\right. \left.new\_max A-n e w_{-} \min A\right) new_{-} \min A v′maxA−minAv−minA​(new_maxA−new−​minA)new−​minA v v v即需要规范的数据 z-分数规范化 v ′ v − 均值 A 标准 差 A v\frac{v-均值A}{标准差_A} v′标准差A​v−均值A​ 离散化方法 非监督离散化法 等宽法根据属性的值域来划分使每个区间的宽度相等等频法根据取值出现的频数来划分将属性的值域划分成个小区间并且要求落在每个区间的样本数目相等聚类利用聚类将数据划分到不同的离散类别
http://www.hkea.cn/news/14350660/

相关文章:

  • 盐城网站开发公司做网站编辑应该注意什么
  • 网站色调代号广西南宁云尚网络科技有限公司
  • 做地方旅游网站2023年中国500强企业
  • wp做网站需要多久seo网站是什么
  • 北京 网站设计 地址通州湛江个人网站建设
  • 做外贸网站用什么软件网站开发应注意什么
  • 网站建设与开发课程内容黑白高端网站建设
  • 锦州网站建设医院网站跳出率高
  • php做的购物网站山东省住房和城乡建设厅电话号码
  • 公司后台网站怎么做房地产销售技巧和话术
  • 鞍山做网站企业邢台头条新闻
  • 石景山网站开发深圳全网营销网站建设
  • 黄村专业网站开发公司北京seo优化哪家好
  • 辽宁手机版建站系统开发做se要明白网站
  • 旅行网站模板室内设计心得体会500字
  • 网站制作软件小学wordpress多条件搜索插件
  • 网站预算表怎么做wordpress安装权限管理
  • 承德网站建设设计淄博公司做网站
  • 电子商务网站建设详细策划wordpress 原图查看
  • 中咨城建设计有限公司 网站成都广告公司制作
  • 中国十大热门网站做网站用啥语言
  • 网站制作素材图片中国足球世界排名
  • 常用的网站推广的方式方法wordpress 模版制作
  • 厦门网上房地产网官方网站怎么制作自己的链接
  • 没备案的网站可以做淘客响应的网站
  • 河北省住房和城乡建设厅网站首页网站被301
  • 动态站 网站地图怎么做电商推广都有哪些诀窍
  • 濮阳团购网站建设湖南专业竞价优化服务
  • 新网站建设哪家好模板网站哪家好
  • 静态网站 后台一个网站里面只放一个图片怎么做的