当前位置: 首页 > news >正文

昆山汽车网站建设电商网站系统

昆山汽车网站建设,电商网站系统,桂林漓江大瀑布酒店,wordpress算数的插件本文作者#xff1a;杨健#xff0c;九章云极 DataCanvas 主任架构师 如何有效提高模型的泛化能力#xff0c;始终是机器学习领域的重要课题。经过大量的实践证明比较有效的方式包括#xff1a; 利用Early Stopping防止过拟合通过正则化降低模型的复杂度使用更多的训练数…本文作者杨健九章云极 DataCanvas 主任架构师 如何有效提高模型的泛化能力始终是机器学习领域的重要课题。经过大量的实践证明比较有效的方式包括 利用Early Stopping防止过拟合通过正则化降低模型的复杂度使用更多的训练数据尽量使用更少的特征使用CV来选择模型和超参数使用Ensemble来提升泛化能力 Early stopping以及正则化是比较基本的方法这里就不赘述此外HyperGBM中还提供了4种高级特性专门用来提升模型的泛化能力 Pseudo-labeling半监督学习二阶特征筛选K-fold Cross-validationGreedy ensemble 1.Pseudo-labeling 伪标签技术主要应用在分类任务上本质上是通过半监督学习的方法来增加更多的训练数据以提升模型的泛化能力。其过程如下图所示主要分为三个阶段 1.第一阶段用训练数据训练模型 2.第二阶段使用第一阶段训练好的模型在无标注的数据上预测将其中置信度较高的数据合并到训练集中 3.第三阶段使用合并后的数据重新训练模型 Image from: https://www.analyticsvidhya.com/blog/2017/09/pseudo-labelling-semi-supervised-learning-technique/ 示例代码HyperGBM中只需设置pseudo_labeling会自动完成伪标签学习 from tabular_toolbox.datasets import dsutils from sklearn.model_selection import train_test_split from hypergbm.search_space import search_space_general from hypergbm import make_experiment # load data into Pandas DataFrame df dsutils.load_bank() target y train, test train_test_split(df, test_size0.3) test.pop(target)#create an experiment experiment make_experiment(train,targettarget,pseudo_labelingTrue) #run experiment estimator experiment.run() # predict on test data without target values pred estimator.predict(test)2.二阶特征筛选 通过特征筛选过滤掉无效特征或者噪音数据能有效降低模型的复杂度。传统的特征筛选方法一类是在训练之前通过相关性指标评估或者是基于模型的特征评估排序然后根据阈值或者是排序选择n个特征用于训练另一类是先训练模型然后根据模型本身提供的特征重要性来选择一部分特征重新训练。第一类方法有明显的缺陷就是特征的评估标准和实际用于训练的模型无关也不会考虑特征之间的交互关系。第二类方法有明显的改进但也存在一个问题就是模型提供是在训练数据上的重要性并不能体现在评估数据或测试数据上特征的重要性。因此HyperGBM中引入了独特的二阶特征筛选策略来克服以上缺点。它的工作方式如下首先执行一阶段AutoML过程然后选择其中表现最好的n个模型使用permutation模式评估特征重要性删除低于某一阈值的特征后重新执行AutoML过程。 这里主要介绍一下permutation特征筛选首先基于已经训练好的模型在评估集上得到一个baseline评分然后分别将每一列特征变成噪音数据后重新评估评分等于或高于baseline评分说明该特征对模型没有增益甚至于是有损的如果评分下降说明该特征是对模型有益的用这个和baseline评分的差值做为特征筛选的参考值选择特征。 示例代码如下 #create an experiment experiment make_experiment(train,targettarget, feature_reselectionTrue, feature_reselection_estimator_size10, feature_reselection_threshold1e-5, )3.K-fold Cross-validation 交叉验证被证明是模型选择和超参数优化中最有效的验证方式示例代码如下 #create an experiment experiment make_experiment(train,targettarget, cvTrue, num_folds3, )4.Greedy Ensemble Greedy Ensemble是使用基于voting的集成学习方法实现原理可以参考: https://www.sciencedirect.com/science/article/abs/pii/S0031320310005340 示例代码 #create an experiment experiment make_experiment(train,targettarget, ensemble_size20, # 0 to disable ensemble )以上四种方法可以组合起来使用。
http://www.hkea.cn/news/14549711/

相关文章:

  • 老域名对做网站的win优化大师有用吗
  • 站长之家查询工具哈尔滨 网站开发
  • 企业网站项目流程顺德网站建设信息
  • 北京做兼职网站有哪些帮一个公司做网站多少钱
  • 网站被k十大原因企业门户账号是什么
  • 同一个网站可以同时做竞价和优化关东建设有限公司网站
  • 吉林省城乡建设部网站海南省海口市网站建设
  • 手机建站cms体验式营销
  • ps网站界面设计天津百度推广
  • 网站建设都包含哪些内容四川省建设厅网站证
  • 保险网站程序源码西安做网站的公司报价
  • 给宝宝做衣服网站湘潭网站建设的公司
  • 重庆做商城网站张家港建设局官方网站
  • 做网站是用什么语言wordpress设置配置文件报错
  • 协会建设网站的必要性wordpress 分页 未找到页面
  • wordpress站点目录广州网络营销十年乐云seo
  • 常设中国建设工程法律网站为什么说能进中交不进中建
  • 北京网页网站设计制作句容市网站seo优化排名
  • 建设网站目录金花站长工具
  • 做seo推广做网站有用吗广东省住房城乡建设厅门户网站
  • 洛阳制作网站公司吗新注册企业名单
  • 布吉商城网站建设定制网络流量监控软件
  • iis 如何新建网站专业移动微网站建设
  • 网站开发提案模板wordpress绝对连接换相对链接
  • 网站站长统计代码wordpress contact us
  • 郑州做网站好的公中信建设有限责任公司世界排名
  • 弄一个网站多少钱如何网站建设平台
  • 东莞建网站的公网站自适应是什么做的
  • 电力建设规范下载网站网站平台建设规划
  • .net做的网站打开速度缓慢水果网站系统的建设与实现