当前位置: 首页 > news >正文

武汉网站建设027网站排名软件包年

武汉网站建设027,网站排名软件包年,做彩票网站网址,网站建设开发合同模板1.机器学习的步骤 1. 数据搜集 其中数据划分,是将数据集分为训练集、验证集和测试集(通常不考虑时间) 2. 数据清洗 3. 特征工程 提取对象:原始数据(特征提取一般在特征选择之前) 提取目的:…

1.机器学习的步骤

1. 数据搜集

其中数据划分,是将数据集分为训练集、验证集和测试集(通常不考虑时间)

2. 数据清洗

3. 特征工程

  1. 提取对象:原始数据(特征提取一般在特征选择之前)

  2. 提取目的:自动地构建新的特征,将原始数据转换为一组具有明显物理意义(例如,几何特征、纹理特征)或统计意义的特征

  3. 常用方法:

    • 降维方面:PCA、ICA、LDA等

    • 图像方面:SIFT、Gabor、HOG等

    • 文本方面:词袋模型、词嵌入模型等

注意:传统机器学习跟深度学习在特征提取的区别:

深度学习不需要去做特征工程,模型自己对数据做特征工程

4. 数据建模

4.1 模型分类:

  • 概率模型:决策树、朴素贝叶斯、隐马尔科夫模型、高斯混合模型
  • 非概率模型:感知机、支持向量机、KNN、AdaBoost、K-means以及神经网络

4.2损失函数(衡量模型的好坏)

损失函数就是用来衡量模型预测结果跟真实数据之间的真值的。例如,平均损失函数(Quadratic Loss Function)L(Y,f(x)) = (Y- f(x))2,损失函数越小,模型性能越好。

所以我们在设定好一个模型之后,给定一个训练集,训练的目的就是去优化这个损失函数:

min ⁡ f 1 N ∑ i = 1 n L ( y i , f ( x i ) ) \mathop {\min }\limits_f {1 \over N}\sum\limits_{i = 1}^n {L{{({y_i},f({x_i}))}}} fminN1i=1nL(yi,f(xi))

4.3 优化算法

怎么求这个损失函数呢?怎求的具体算法就称为优化算法,现在主要的优化算法有:梯度下降法、牛顿法、拟牛顿法、ADAM等等。

4.4评价指标

(1).评测模型好坏的评价指标

  • 正确肯定(True Positive,TP):预测为真,实际为真

  • 正确否定(True Negative,TN):预测为假,实际为假

  • 错误肯定(False Positive,FP):预测为真,实际为假

  • 错误否定(False Negative,FN):预测为假,实际为真

(2).参考指标

Accuracy (准确率) = T P + T N T P + T N + F P + F N {{TP + TN} \over {TP + {\rm{TN}} + {\rm{FP + FN}}}} TP+TN+FP+FNTP+TN

Precision(精确率) = T P T P + F P {{TP} \over {TP + {\rm{FP}}}} TP+FPTP

Recall(召回率) = T P T P + F N {{TP} \over {TP + {\rm{FN}}}} TP+FNTP

F1 score = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l {{2 \times {\rm{Precision}} \times {\rm{Recall}}} \over {{\rm{Precision}} + {\rm{Recall}}}} Precision+Recall2×Precision×Recall
3.

2.数据集

2.1 K折交叉验证

交叉验证既可以解决数据集的数据量不够大的问题,也可以解决参数调优的问题。

步骤:

1.使用训练集训出k个模型

2.用k个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)

3.选取代价函数值最小的模型

4.用步骤3中选出的模型对测试集计算,得出推广误差(代价函数的值)

2.2 数据集的不均衡

数据不平衡是指数据集中各类样本数量不均匀的情况。这种情况会给模型的训练带来很大的问题

平滑数据集分布不平衡的解决方法:

SMOTE (Synthetic Minority Over-sampling Technique)算法:在少样本的距离的中间再生成一个新的样本

3.机器学习分类

  • 监督学习:输入的数据中有监督信息,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数

  • 无监督学习:输入数据中没有监督信息,采用聚类方法,学习结果为类别。典型的无监督学习有聚类,降维算法等。除此之外,还有自监督学习,半监督学习,对比学习等概念。

  • 强化学习:以环境为反馈(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法。

3.1 监督学习

  • 分类(classfication)

  • 回归(regression)

3.2 无监督

  • 聚类(Clustering)

  • 降维(Demensionality Reduction)

3.3 强化学习

用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

4.编程基础

  • 编程语言:python、R
  • 编程系统:Linux、anaconda
  • 编程平台:jupyter notebook , vscode,pycharm
  • 编程库:numpy,pandas,matplotlib,scikit-learn,pytorch,tensorflow
http://www.hkea.cn/news/579868/

相关文章:

  • 简述网站的推广策略产品设计
  • 商贸有限公司网站建设此网站服务器不在国内维护
  • 常州个人做网站制作小程序的软件
  • 郑州做网站公司dz论坛如何seo
  • 十堰商城网站建设网络营销seo优化
  • 小欢喜林磊儿什么网站做家教福州seo推广外包
  • 许昌网站开发博客营销
  • 做网站用jquery爱站网关键词挖掘
  • wordpress手动裁剪seo营销推广服务公司
  • 英文网站建设网站海南网站制作公司
  • 网页设计与网站建设主要内容软文营销的特点
  • 一起做网站17广州最新小组排名
  • 最专业的网站设计公司有哪些论坛企业推广
  • 单页网站怎么做外链个人网页
  • 宁波城乡住房建设局网站有效的网络推广
  • 网站建设 深圳销售crm客户管理系统
  • 高端网站开发设计站长之家字体
  • 免费网站建站工具购买域名的网站
  • 淘宝联盟怎么做网站百度网站提交
  • 前端做用vue做后台多还是做网站多青岛网站快速排名优化
  • 岳阳网站开发公司海淀区seo多少钱
  • 2017年做网站维护总结百度搜索软件
  • 南京网站建设公司点击器原理
  • 网站怎么编辑搜狗网站提交入口
  • 自建网站做外贸的流程广告推广方式
  • 警告欺骗网站模板免费注册
  • 获取网站访客信息seo分析师招聘
  • 制作网页的网站有哪些网站建设
  • 日本真人做爰无遮挡视频免费网站嘉兴关键词优化报价
  • 忻州市中小企业局网站贵州整站优化seo平台