当前位置: 首页 > news >正文

网站怎么做百科网站备案 域名过期

网站怎么做百科,网站备案 域名过期,上海做网站建设的公司排名,优秀的电商网站上一篇文章中#xff0c;某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作#xff0c;《可视化数据科学平台在信贷领域应用系列一#xff1a;数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤#xff0c;数据清洗。…上一篇文章中某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作《可视化数据科学平台在信贷领域应用系列一数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤数据清洗。 首先让我们一起来看下他的数据清洗心得以及如何高效的利用工具完成数据清洗工作。认识“数据清洗” 为什么需要“数据清洗” 在进行机器学习建模时数据清洗是必不可少的步骤。数据清洗的目的是确保数据的准确性、完整性和一致性提升数据集的数据质量提高机器学习模型的性能。 数据清洗的必要性主要体现在以下两个方面 正确有效的模型离不开数据清洗。数据中的缺失值、异常值和错误数据均会影响模型的准确性甚至导致模型错误数据质量是模型质量的基础保证。通过数据清洗步骤校正或排除这些数据提升数据质量和可靠性排除无效数据对模型造成的扰动有效提升模型的泛化能力。 数据清洗可提高模型开发效率。数据中异常值和错误数据会导致模型开发的效率降低。正所谓“磨刀不误砍柴工”完整的数据清洗工作有效提升后续特征衍生和模型开发的效率。 如何进行“数据清洗” 数据清洗是建立可靠模型的关键步骤它确保了模型在训练和应用阶段的准确性和稳定性。 数据清洗的主要步骤包括 数据检查首先要对数据进行检查了解数据的总体情况包括数据的类型、格式、完整性、集中度等。 数据转换根据机器学习模型对训练数据的要求对数据类型进行转换适配例如将类别型数据转换为数值型数据或进行数值编码。 数据清理基于数据检查的结果对数据进行清理包括缺失值、异常值、重复值、错误值。 利用RapidMiner 的Turbo Prep模块进行数据清洗 数据清洗是信用模型开发数据准备工作的重要内容。数据清洗工作的主要内容有以下几个方面。 我们从数据库提取的数据集通常会因为各种原因存在种种问题应对特征值缺失、重复数据等错误数据进行修正或剔除提升数据准确性。 数据集中的特征质量不一存在高集中度、高相关性等问题也应当在数据清洗环节对低质量特征进行排除。实践中对于集中度超过95%、相关系数大于0.8的特征应当剔除。 为适配不同类型的模型应当对特定类型的特征进行编码或转码。对于评分卡模型应当对连续性特征进行离散化处理又称“分箱”离散化增强了特征的稳定性提升了模型的泛化能力。而对于限定连续型特征入模的模型则应将类别型特征进行编码使之适配模型入模要求。 我们沿用上一节采用的UCI台湾信用卡数据集数据检查工作我们已经在探索性数据分析一篇中完成对数据集有了整体认识也知晓了各特征列的特点。下面我们运用RapidMiner来实操数据转换和数据清理工作。 01、TRANSFORM 数据转换 首先看一下数据转换TRANSFORM模块所支持的操作包括了重命名RENAME、改变类型CHANGE TYPE、删除REMOVE、拷贝COPY、筛选FILTER、范围截取RANGE、采样SAMPLE、排序SORT、替换REPLACE和拆分SPLIT。 应用数据转换TRANSFORM模块可实现数据集的灵活变换融合多个基本操作的组合可完成更复杂的数据变换处理。 图1数据变换操作记录 例如我们希望将性别为“1-男”的数据筛选出来随机抽样2000条记录并按照年龄排序将FILTER、SAMPLE、SORT组合运用即可。如图1RM会将所有的操作记录储存下来以便用户查看或进行回退操作。 实践中基于数据检查和探索性分析的结果我们可以借助数据转换TRANSFORM模块实现对数据表的加工变换排除掉异常值和错误数据。 02、CLEANSE  数据清洗 数据清洗CLEANSE支持对数据集进行多项清洗操作包括移除低质量特征REMOVE LOW QUALITY、移除相关特征REMOVE CORELATED、缺失值填充REPLACE MISSING、标准化NORMALIZATION、离散化DISCRETIZATION、哑变量编码DUMMY ENCODING主成分分析PCA、去重REMOVE DUPLICATES涵盖了数据清洗的所有常规操作。 重点介绍一下自动清洗AUTO CLEANSINGRapidMiner可以自动对数据集执行数据清理自动化地完成数据清洗为机器学习建模做好准备对新手用户或者业务人员十分友好。 图2自动清洗AUTO CLEANSING 如图2所示仅需几个简单的操作步骤即可完成数据清洗。RapidMiner还提供了两种可能提高数值列质量的选项可供选择主成分分析PCAPrincipal Component Analysis一种通过将数据点映射到一个新空间来减少数据维数的方法和归一化通常有助于使所有列的范围大致相同排除量纲对模型的影响。 针对信贷风控建模移除相关特征REMOVE CORELATED和离散化DISCRETIZATION这两个操作就必须要聊聊了。 移除相关特征通常设定相关系数筛选阈值0.8过滤掉高相关性特征中 iv 较低的特征。过滤高相关特征可有效避免高相关特征在模型训练过程中耦合干扰使开发的模型更加健壮增强了模型的线上运行稳定性。 图3 用户信用额度原始分布 图4 用户信用额度分箱后分布 通过离散化DISCRETIZATION将连续型特征进行“分箱”操作RM内置了“等距分箱”和“等频分箱”用户可按需设定分箱箱数。如图3和图4经过离散化操作我们将特征“信用额度”从连续性特征“等距分10箱”得到了新的分组类别特征增强了特征稳定性排除了极端值和噪声值对模型的影响增强了模型稳定性和泛化能力。 如何看待RapidMiner 数据清洗是非标工作但 Altair RapidMiner 在数据清洗过程中能够很大的提效有鲜明的优势特点 数据转换与清洗功能模块完备无论是在数据转换还是数据清洗模块中RM所能够支持的基本操作十分完备通过组合操作可完成数据清洗相关的工作内容操作简洁灵活高效。 自动化数据清洗RapidMiner 的AUTO CLEANSING提供了极为简化的数据清洗自动化执行模块非专业数据科学家亦可在RM的提示下快速完成数据清洗工作。 若您对数据分析以及人工智能感兴趣想要站在全球视野看待人工智能的发展 一定不要错过6月20日面向工程师的全球人工智能线上会议“AI for Engineers” 会议将邀请全球知名专家与权威学者共同探讨生成式人工智能(GenAI) 如何助力产品设计研发 点击立即免费报名 关于 Altair RapidMiner Altair RapidMiner 数据分析与人工智能平台是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署同时又支持数据和流数据的实时分析可视化的数据分析平台。 欲了解更多信息欢迎访问 www.altair.com.cn
http://www.hkea.cn/news/14373656/

相关文章:

  • 网站 语言切换怎么做app和小程序的区别
  • 手机 网站 开发linode wordpress建站
  • 做彩票网站程序违法吗黑龙江省住房与建设厅网站
  • 做网站南京获取网站浏览者手机号
  • 嘉定网站建设公司视频号怎么付费推广
  • 保定建设网站设计公司介绍模板
  • 运城网站建设运城天气wordpress文章密码爆破
  • 做网站用哪个eclipse情感营销
  • 网站制作网站模板网站建设著作权
  • 企业网站样式政务网站安全建设工作计划
  • 建站优化易下拉系统yy直播间
  • 出名的网站有哪些化妆品购物网站模板
  • 网站建设电网站推广的手段
  • 国外优秀网站小程序制作要求
  • 北京平台网站建设费用信息发布的网站怎么做
  • 哪里找专业做网站的公司网站设计制作策划书
  • 企业网站的作用和意义成绩查询
  • 网上有做口译的网站么网站建设运行环境
  • 好推建站多平台网页制作
  • 如何做旅游小视频网站企业年金个人查询
  • 网站开发服务器wordpress最新版新建页面选择模板
  • 网站建设 空间什么系统免费素材库
  • 婚庆公司网站搭建dedecms 生成网站地图
  • 运城做网站的公司宿迁网站制作公司
  • 网站开发什么技术网站跳转怎么做360
  • 专业做俄语网站建设伍佰亿网站怎么做
  • 河北网站建设市面价陕西省城乡住房建设部网站
  • 怎样查询网站的备案号电子商务网站建设名词解释
  • 外贸网站 seo项目建设程序
  • 深圳龙华网站开发济南房产查询网官网