当前位置: 首页 > news >正文

seo 网站制作淘宝做seo要建网站吗

seo 网站制作,淘宝做seo要建网站吗,浙江临海市建设局网站,wordpress主题 直接拖拽式建站【人工智能Ⅰ】7-KNN 决策树 7-1 KNN#xff08;K near neighbour#xff09; 思想#xff1a;一个样本与数据集中的k个样本最相似#xff0c;若这k个样本大多数属于某类别#xff0c;则该个样本也属于这类别 距离度量 样本相似性用欧氏距离定义 L p ( x i , x…【人工智能Ⅰ】7-KNN 决策树 7-1 KNNK near neighbour 思想一个样本与数据集中的k个样本最相似若这k个样本大多数属于某类别则该个样本也属于这类别 距离度量 样本相似性用欧氏距离定义 L p ( x i , x j ) ( Σ l 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 / p L_p(x_i,x_j)(Σ_{l1}^{n}|x_i^{(l)}-x_j^{(l)}|^p)^{1/p} Lp​(xi​,xj​)(Σl1n​∣xi(l)​−xj(l)​∣p)1/p 流程 1计算已知类别数据集中的点与当前点之间的距离 2按递增排序距离 3选取与当前点距离最小的k个点 4统计k个点的类别及其频率 5返回频率最高的类别作为当前点的预测分类 优点 1简单有效 2适用大样本自动分类 缺点 1类别分类不标准化 2不均衡性 3计算量较大 k值选择 1误差 近似误差对现有训练集的训练误差过小说明过拟合估计误差对测试集的测试误差过小说明对未知数据的预测能力好 2k值 过小近似误差小估计误差大过大估计误差小近似误差大k值一般取一个较小的数采用【交叉验证法】择优 3交叉验证法 将数据集划分为N个大小相似的互斥子集并且尽量保证每个子集数据分布的一致性。 这样可获取N组训练 - 测试集从而进行N次训练和测试。 7-2 决策树Decision tree 根据特征解决数据分类问题 每个节点选择一个特征提出问题通过判断将数据分为2类再继续提问问题是在已知各种情况发生概率基础上构成决策树求取值大于等于0的概率再投入新数据时根据树上的问题将数据划分到合适叶子上事先确定每个样本的属性和类别节点表示属性测试分支表示测试输出叶子节点表示类别 数据 1训练数据构造决策树即决策机制 2测试数据验证决策树的错误率 构造树的依据 1信息熵 表示信息的复杂程度 H − ∑ i 1 n p i ∗ l o g 2 ( p i ) H-∑_{i1}^np_i*log_2(pi) H−i1∑n​pi​∗log2​(pi) 2信息增益 划分数据集前后信息熵的差值 决策树过程 1选择根节点 计算决策的信息熵H和每个属性的信息熵 信息增益是【H - 选定属性的信息熵】 选取信息增益最大的属性作为根节点 2选择新的节点 3构建完整树 4剪枝 减少树的高度避免过拟合 1预剪枝干设定一个树高度当构建树达到高度时停止 2后剪枝任由决策树构建完成从底部开始判断哪些枝干应该剪掉 预剪枝更快后剪枝更精确 决策树总结 1 一棵决策树包含一个根节点、若干个内部结点和若干个叶结点 2在决策过程中提出的每个判定问题都是对某个属性的“测试”节点 3每个测试的结果或导出最终结论或导出进一步的判定问题 4根节点包含了样本全集其中叶节点对应于决策结果是或否其他每个结点对应于一个属性测试 5从根节点到每个叶节点的路径对应一个判定测试序列 决策树叶子节点的生成 递归过程 导致递归返回的情况 1当前节点包含的样本全属于同一类别无需划分 2当前属性为空或所有样本在所有属性上取值相同无需划分。把当前节点标记为叶节点并将其类别设定为该节点所含样本最多的类别 3当前节点包含的样本集为空不能划分同样把当前节点标记为叶节点 决策树学习的生成算法 根据不同的目标函数算法分为ID3、C4.5、CART 建立决策树的关键即在当前状态下选择哪个属性作为分类依据 算法类别ID3C4.5CART划分标准信息增益信息增益率基尼指数最小 决策树优缺点 优点 1易于理解和实现需要的背景知识少直接体现数据特点 2数据准备简单或不必要可同时处理数据型和常规型属性 3易于通过静态测试对模型评测可信度、逻辑表达式 缺点 1对连续性的字段比较难预测 2对有时间顺序的数据需要预处理 3若类别过多错误增加快 7-3 集成学习 通过建立几个模型组合解决单一预测问题 工作原理生成多个分类器 集成学习方法分类 1基于boosting提升 Adaboost梯度提升决策树GBDTXGBoostextreme gradient boostingLightGBM 基本思想 1每个样本均赋予一个权重 2T次迭代每次迭代后对分类错误的样本加大权重下次迭代更加关注分类错误的样本 特点 前面的学习器改变后面学习器的权重学习器采用串联方式连接 采用线性加权方式进行组合每个基学习器都有相应的权重对于错误率小的基学习器会有更大的权重 2基于bagging装袋 随机森林Random Forest极端随机树Extremely randomized treesExtra-Trees 基本思想 对原始训练样本集采用自助随机采样即有放回的随机采样产生n个新的训练样本子集以此分别训练n个基学习器最后采用某种组合策略集成为强学习器 特点 对于分类问题通常使用简单投票法对于回归问题通常使用简单平均法 Adaboost 1 初始化训练样本的权重分布每个样本具有相同权重 2训练一个弱分类器如果样本分类正确则在构造下一个训练集中它的权重就会被降低反之提高样本的权重 3用更新过的样本集去训练下一个弱分类器 4各个弱分类器的训练过程结束后加大分类误差率小的弱分类器的权重降低分类误差率大的弱分类器的权重 5 将所有弱分类组合成强分类器 随机森林 随机随机选取训练样本集、随机选取分裂属性集 森林多棵决策树 过程决策树的生长和投票 依靠决策树的投票选择决定最后的分类结果 每棵树的生成 1有放回的采样N个样本构成训练集 2无放回的随机选择m个特征计算其信息增益并择优通常 m sqrt(M) 3使用一般决策树的构建方法得到一棵分类或预测的决策树 4重复1-3步得到H棵决策树将某个测试样本输入H棵树得到H个结果使用投票机制或最终分类结果判别测试样本所属的类别 随机森林的生成 分类效果错误率的相关因素 1森林中任意2棵树的相关性 相关性越大错误率越大 2森林中每棵树的分类能力 每棵树的分类能力越强整个森林的错误率越低 随机森林唯一的参数特征选择个数m 减少m树的相关性和分类能力会降低 袋外错误率OOB error 最优m的选择主要依据计算袋外错误率 第k棵树的袋外样本数据没有参与第k棵树生成的训练实例 袋外错误率对每棵树用未被选中的训练样本点统计每棵树的误分率最后取平均值得到随机森林的袋外错误率 随机森林特点 优点 1-两个随机性的引入不容易陷入过拟合具有很好的抗噪声能力 2-对数据集适应能力强可处理连续型和离散型数据数据无需规范化可运行大数据集 3-不需要降维可处理高维特征的输入样本 4-在生成过程中可获得内部生成误差的无偏估计 5-可处理缺省值问题 缺点 1-噪声较大可能过拟合 2-对有不同级别属性的数据级别划分较多的属性会对随机森林产生更大的影响随机森林在这类数据上产出的属性权值不可信 投票机制 1简单投票机制 假设每个分类器平等 一票否决少数服从多数有效多数阈值表决 2贝叶斯投票机制 基于每个基本分类器在过去的分类表现设定一个权值按照这个权值进行投票 7-4 机器学习概念回顾 有监督学习分类回归 无监督学习聚类降维
http://www.hkea.cn/news/14570977/

相关文章:

  • 在线网站做图集相册中山有哪些网站建立公司
  • 河南省住房城乡建设厅官方网站具有品牌的做pc端网站
  • 做外贸网站市场分析信誉好的购物网站
  • 天河企业网站建设山西做网站建设的平台
  • 宁波自助建站模板东莞寮步二手车市场
  • 潍坊网站建设平台西安做网站选哪家公司
  • 如何建设网站的论文网站设计的国际专业流程
  • 网站注册转化率西安网站建设电话
  • 长沙网站设计流程推广注册app赚钱平台
  • 青岛模板化网站高端做网站公司哪家好
  • 网站建设案例模板电商网站 模板
  • 建设银行什么网站可买手表vi设计网站运动康复
  • 医疗网站前置审批取消网页美工设计报价单
  • 郑州网站建设目标深圳企业网站制作流程
  • 南通网站建设空间wordpress怎样建立多站点
  • 公司网站建设找谁后端开发和前端开发的区别
  • 如何提高网站排名的方法违法的网址能注册做一网站用吗
  • 贵州建设厅网站政务大厅网站title标签内容怎么设置
  • 博客类网站模板企业微信手机片网站制作
  • 深圳建站软件小区住宅可以注册公司吗
  • 微信网站建设开发嵌入式累还是程序员累
  • google网站推广重庆建设信息
  • 模板网站可以优化吗江苏省网架公司
  • 南京做网站优化公司网页设计学校网站
  • 温州微网站公司wordpress分栏
  • 站长之家查询工具c网站开发案例详解 pdf
  • 河北网站备案 多长时间通过广州正规网站制作公司
  • 上海企业网站扬州广陵城乡建设局网站
  • 做网站建设公司网易互客传统网站建设团队
  • 医疗网站是否全部需要前置备案合肥工程建设交易中心网站