当前位置: 首页 > news >正文

昆明网站优化工具网站备案号在哪里看

昆明网站优化工具,网站备案号在哪里看,商品推广文案,wordpress禁止加载谷歌字体决策树 决策树是一种基于树形结构的模型#xff0c;决策树从根节点开始#xff0c;一步步走到叶子节点#xff08;决策#xff09;#xff0c;所有的数据最终都会落到叶子节点#xff0c;既可以做分类也可以做回归。 特征选择 根节点的选择该用哪一个特征呢#xff…决策树 决策树是一种基于树形结构的模型决策树从根节点开始一步步走到叶子节点决策所有的数据最终都会落到叶子节点既可以做分类也可以做回归。 特征选择 根节点的选择该用哪一个特征呢接下来的节点呢我们的目标是根节点就像大当家一样可以更好的决策数据根节点下面的节点自然是二当家以此类推下去。所以需要找到一种衡量标准来计算通过不同特征进行分支选择后的分类情况找出最好的个当成根节点以此类推。 1.信息增益 首先介绍一下熵的概念熵是表示随机变量不确定性的度量。其实就是集合的混乱程度。举个例子A集合[1,1,1,1,1,1,1,2,2]B集合[1,2,3,4,5,6,7,8,9]显然A集合的熵值要低因为A里面只有两种类别相对稳定稳定一些B中种类很多熵值就会大很多。计算公式如下其中 D 表示样本集 K 表示样本集分类数pk表示第 k 类样本在样本集所占比例。Ent(D) 的值越小样本集的纯度越高。 下式表示用一个离散属性划分后对样本集的影响被称为信息增益Information Gain其中 D 表示样本集a 表示离散属性V 表示离散属性 a 所有可能取值的数量Dv表示样本集中第v种取值的子样本集。 当属性是连续属性时其可取值不像离散属性那样是有限的这时可以将连续属性在样本集中的值排序后俩俩取平均值作为划分点如下式所示其中 Ta表示平均值集合Dtv表示子集合当 v - 时表示样本中小于均值 t 的样本子集当 v 时表示样本中大于均值t的样本子集取划分点中最大的信息增益作为该属性的信息增益值。 Gain(D, a) 的值越大样本集按该属性划分后纯度的提升越高。由此可找到最合适的划分属性。 2.基尼系数 介绍一下基尼值如下式所示其中 D 表示样本集 K 表示样本集分类数pk表示第 k 类样本在样本集所占比例。Gini(D) 的值越小样本集的纯度越高。 下式表示用一个离散属性划分后对样本集的影响被称为基尼指数Gini Index其中 D 表示样本集a 表示离散属性V 表示离散属性 a 所有可能取值的数量Dv表示样本集中第 v 种取值的子样本集。 对于连续属性将连续属性排序后俩俩取平均值作为划分点如下式其中 Ta表示平均值集合Dtv表示子集合当 v - 时表示样本中小于均值 t 的样本子集当 v 时表示样本中大于均值 t 的样本子集取划分点中最小的基尼指数作为该属性的基尼指数值。 Gini_index(D, a) 的值越小样本集按该离散属性划分后纯度的提升越高。由此可找到最合适的划分属性。 3.均方误差 前面两种指标使得决策树可以用来做分类问题那么决策树如果用来做回归问题时就需要不同的指标来决定划分的特征这个指标就是如下式所示的均方误差MSE其中 Ta表示平均值集合ytv表示子集合标签当 v - 时表示样本中小于均值 t 的样本子集标签当 v 时表示样本中大于均值 t 的样本子集标签后一项为对应子集合标签的均值。 MSE(D, a) 的值越小决策树对样本集的拟合程度越高。由此可找到最合适的划分属性。 决策树剪枝策略 决策树剪枝的效果可以在以下几个方面体现 防止过拟合提高模型的泛化能力剪枝可以减少决策树的复杂性避免过度拟合训练数据。剪枝可以降低决策树的复杂度使其更具有泛化能力。剪枝后的树更加简单去除了过多的冗余信息和噪声更能捕捉数据中的一般规律而不是过多关注个别训练样本的特异性。 减少决策树的复杂度剪枝可以通过减少决策树的叶子节点数量和分支数量来简化模型。简化后的决策树更易于理解和解释并且可以减少计算和存储的需求。 提高模型的可解释性剪枝后的决策树更为简洁更容易理解和解释。剪枝可以去除决策树中的一些不必要的细节和分支使决策过程更加清晰明了。 1.预剪枝 边建立决策树边剪枝限制深度叶子节点个数叶子节点样本数信息增益量等。 2.后剪枝 建立决策树后再进行剪枝通过一定的衡量标准进行剪枝。叶子节点越多损失越大。 决策树实现 from sklearn import treeimport os import pandas as pd import numpy as np import sklearn import xgboost as xgbfrom utils.features import *import warnings warnings.filterwarnings(ignore)def load_datasets():pd.set_option(display.max_columns, 1000)pd.set_option(display.width, 1000)pd.set_option(display.max_colwidth, 1000)df pd.read_pickle(****.pickle)features darshan_featuresprint(df.head(10))df_train, df_test sklearn.model_selection.train_test_split(df, test_size0.2)X_train, X_test df_train[features], df_test[features]print(X_test)y_train, y_test df_train[value], df_test[value]print(y_test)return X_train, X_test, y_train, y_testdef model_train(X_train, X_test, y_train, y_test):# 决策树回归clf tree.DecisionTreeRegressor()# 拟合数据clf clf.fit(X_train, y_train)y_pred_test clf.predict(X_test)print(y_test)print(y_pred_test)error np.median(10 ** np.abs(y_test - y_pred_test))print(error)def main():X_train, X_test, y_train, y_test load_datasets()model_train(X_train, X_test, y_train, y_test)if __name__ __main__:main()
http://www.hkea.cn/news/14510152/

相关文章:

  • 能够做网站的资质菏泽市建设职工培训中心网站
  • 微信投票网站制作展示型网站建设流程方案
  • 网站建设在哪块做wordpress th7好卡
  • php p2p网站建设网站建设如何提高浏览量
  • 网站建设的整体流程有哪些?兰州模板网站建设
  • dede分类信息网站电商网站建设实训要求
  • 沈阳网站建设专业公司山东省建设厅网站特种作业
  • 学建设网站及功能网页设计的背景与意义
  • 怎么样网站速度快全局右下角弹窗wordpress
  • 网站建设mfdos 优帮云从网上怎么做网站营销
  • 网站的建设方式济南网站建设 刘彬彬
  • 快速网站开发课程wordpress主机在哪里看
  • 江西省住房城乡建设厅网站网站转回国内
  • 合肥制作网站价格交互设计是做什么的
  • 1个服务器可以做多少个网站擦彩网站开发
  • 网站在哪里建立中国建设银行网上银行官网
  • 网站的平面设计图用ps做学校网站建设的重要性
  • net网站开发框架做电商的步骤
  • 房产如何做网站网站推送
  • 深圳企业做网站公司国外vps
  • 学校网站建设的意见怎么制作网站教程图片
  • 做手机网站用什么程序好昆明seo关键词
  • 网站空间稳定性wordpress 移动端不显示
  • 企业网站html模板男女做受视频网站
  • 中融木业网站是那个网站做的怎么注册公司官网
  • 广州网站建设定制价格做网站零成本
  • 岳阳市 网站建设做公众号和网站主页的区别
  • 网站开发示例溧阳企业网站建设价格
  • 网站建设的意义以及重要性自建域名
  • 联想网站建设摘要网络营销策划方案展示