当前位置: 首页 > news >正文

网站正在建设中空白模板啥都有是什么购物平台

网站正在建设中空白模板,啥都有是什么购物平台,网站开发的在淘宝上是什么类目,衡水哪有做网站的目录1、数据挖掘概述2、数据挖掘常用库3、模型介绍3.1 分类3.2 聚类3.3 回归3.4 关联3.5 模型集成4、模型评估ROC 曲线5、模型应用1、数据挖掘概述 数据挖掘#xff1a;寻找数据中隐含的知识并用于产生商业价值 数据挖掘产生原因#xff1a;海量数据、维度众多、问题复杂 数… 目录1、数据挖掘概述2、数据挖掘常用库3、模型介绍3.1 分类3.2 聚类3.3 回归3.4 关联3.5 模型集成4、模型评估ROC 曲线5、模型应用1、数据挖掘概述 数据挖掘寻找数据中隐含的知识并用于产生商业价值 数据挖掘产生原因海量数据、维度众多、问题复杂 数据挖掘作用 分类问题该新闻是属于体育新闻还是娱乐新闻还是其他类型聚类问题地上掉落的一堆树叶哪些属于同一棵树回归问题已知前几年的房价数据预测明年的房价关联问题推荐算法 数据挖掘流程 业务理解和业务方充分沟通明确需求数据理解数据准备 数据清洗 .缺失值处理删除、填充、不做处理 .异常值处理数据本身错误记录时错误、数据本身是正常的但不符号业务实际某账号游戏充值10万要对正常异常值保留甚至特别留意 .数据偏差处理数据严重不对等不均衡情况 .特征选择 构建训练集和测试集方法留出法、交叉严重法、自助法 构建模型评估模型模型部署 2、数据挖掘常用库 数学模块math 日期时间模块datetime 随机模块random 文件模块操作file 正则匹配模块re 系统接口模块sys import math dir(math) #查看math中所有方法名称 help(math) #match的描述以及方法的介绍3、模型介绍 3.1 分类 分类是有监督的学习过程。 处处理分类问题首先要有一批已经有标签结果的数据经过分类算法的学习 就可以预测新的未知数据的分类。 分类模型 KNN 算法、决策树算法、随机森林、SVM 等 3.2 聚类 聚类是无监督的聚类就是把一个数据集划分成多个组的过程使得组内的数据尽量高度集中而和其他组的数据之间尽量远离。这种方法是针对已有的数据进行划分不涉及未知的数据。 3.3 回归 回归与分类问题十分相似都是根据已知的数据去学习然后为新的数据进行预测。但是不同的是分类方法输出的是离散的标签回归方法输出的结果是连续值 3.4 关联 关联问题对应的方法就是关联分析。这是一种无监督学习关联分析是要在已有的数据中寻找出数据的相关关系。比如在我们津津乐道的啤酒与尿布 3.5 模型集成 模型集成也可以叫作集成学习其思路就是去合并多个模型来提升整体的效果 训练多个并列的模型或者串行地训练多个模型 模型集成的 3 种方式 Bagging(装袋法)多次随机抽样构建训练集每构建一次就训练一个模型最后对多个模型的结果附加一层决策使用平均结果作为最终结果。随机森林算法就运用了该方法 Boosting(增强法):是串行的训练即每次把上一次训练的结果也作为一个特征不断地强化学习的效果。 Stacking堆叠法是对前面两种方法进行了扩展训练的多个模型既可 以进行横向扩展也可以进行串行增强最终再使用分类或者回归的方法把前面模型的结果进行整合。 其中的每一个模型可以使用不同的算法对于结构也没有特定的规则真正是 “黑猫白猫抓住老鼠就是好猫”。所以在使用堆叠法时就需要你在具体业务场景中不断地去进行尝试和优化以达到最佳效果。 4、模型评估 模型评估就是对你的模型进行多种维度的评估来确认你的模型是否可以应用。 准确率指标 TPtrue positive原本为真且被预测为真TNtrue negative原本为真但预测为假FPfalse positive原本为假但被预测为真FNfalse negative原本为假且预测为假 计算数值 准确率预测正确的比例 (TPFN)/(TPTNFPFN) 在所有样本中预测正确的概率精确率在所有真的样本中被预测为真的比例 TP/(TPFP)你认为的正样本中有多少是真的正确的概率召回率按预测结果分在所有预测为真的样本中实际也是真的比例 TP/(TPFN)正样本中有多少是被找了出来 ROC 曲线 两个值真正例率和假正例率 真正例率TP/TPFN 假正例率FP/FPTN 使用这两个值在坐标系上画出一系列的点纵坐标是真正例率横坐标是假正例率把这些点连起来形成的曲线就是 ROC 曲线 ROC 曲线下方的面积是 AUC 值Area Under Curve曲线下面积ROC 曲线和 AUC 值可以反映一个模型的稳定性当 ROC 曲线接近对角线时说明模型输出很不稳定模型就越不准确 一些其他指标泛化能力过拟合与欠拟合、可解释性、鲁棒性、模型速度 这些模型评估大多适用于分类模型因为分类模型是一种监督模型对于无监督模型本身没有非常明确的结果标准所以也很难找到一个衡量指标 5、模型应用 模型产出结果都需要应用到业务当中去 服务架构部署一些概念 Flask Web 框架在日常的任务中可以使用 Flask 作为构建我们的 Web 服务框架它是用 Python 来实现的。 Gunicorn HTTP 服务可以理解成 HTTP 服务器需要注意的是 Gunicorn 只能运行在 Linux 服务器上面。 Nginx 负载均衡Nginx 是一个功能很强大的 Web 服务项目它可以用作负载均衡器很多大公司都在使用。负载均衡用于通过集群中的多个服务器或实例将工作负载进行分布目的是避免任何单一资源发生过载进而将响应时间最小化、程序吞吐量最大化。在上图中负载均衡器是面向客户端的实体会把来自客户端的所有请求分配到集群中的多台服务器上。 客户端业务的具体场景可能是手机 App也可能是其他服务器应用客户端会向托管用于模型预测的架构服务器发送请求。比如今日头条 App 页面下拉将会调用推荐算法模型进行推荐内容的计算。
http://www.hkea.cn/news/14560180/

相关文章:

  • 手机 网站电商直播app开发公司
  • saas建站 彩页自己做网站怎么上传
  • 长沙网站建设外贸凡客诚品售后服务官方
  • 榆林高端网站建设如何设计企业h5网站建设
  • 长春做公司网站1.电子商务网站建设的核心是( )
  • 完整版网站推广方案网站建设方案华为
  • 网站树状结构图怎么做网站制作那家便宜
  • 山东德州网站建设哪家便宜温州 建网站
  • 开源 wordpress 主题沧州网站建设优化
  • 安徽 网站信息内容建设wordpress添加侧栏
  • 哪些网站容易被百度收录昆明平台开发公司
  • iis 发布网站 500在线qq登录无需下载
  • 网站服务器租赁费用wordpress和vue哪个好
  • wordpress 中文安装河北网站优化建设
  • 沈阳做网站优化的公司关键词查询网
  • 建设网站查询余额做网站端口映射
  • 贵阳网站开发培训重庆网站建设 渝
  • 建设网站工作室的问题疑问网页界面设计的特点在于
  • wordpress 电影解析佛山网站优化怎么做
  • 柳州企业网站开发公司网站开发要什么基础
  • 建设银行官网首页网站招聘企业网站添加栏目
  • 做网站怎么跑业务做详情页的网站
  • 广州好的做网站公司仿牌网站 域名注册
  • 外贸网站源码php如何做视频网站旗下账号
  • 电子商务网站建设与维护试题深圳市seo上词点击软件
  • 电子商务企业网站策划设计找版面网站
  • 网站的建设目标文档深圳软件培训机构名单
  • 锐酷网站建设教程网页设计教程免费下载
  • 长沙教育网站开发网站建设为大学生服务
  • 做网站一般长宽多少钱开发小程序需要哪些技术