邢台做网站推广的地方,网站建设开源程序,国内视差网站,怎么在vmware上做网站1.机器学习的步骤
1. 数据搜集
其中数据划分#xff0c;是将数据集分为训练集、验证集和测试集#xff08;通常不考虑时间#xff09;
2. 数据清洗
3. 特征工程 提取对象#xff1a;原始数据#xff08;特征提取一般在特征选择之前#xff09; 提取目的#xff1a;…1.机器学习的步骤
1. 数据搜集
其中数据划分是将数据集分为训练集、验证集和测试集通常不考虑时间
2. 数据清洗
3. 特征工程 提取对象原始数据特征提取一般在特征选择之前 提取目的自动地构建新的特征将原始数据转换为一组具有明显物理意义例如几何特征、纹理特征或统计意义的特征 常用方法 降维方面PCA、ICA、LDA等 图像方面SIFT、Gabor、HOG等 文本方面词袋模型、词嵌入模型等
注意传统机器学习跟深度学习在特征提取的区别 深度学习不需要去做特征工程模型自己对数据做特征工程 4. 数据建模
4.1 模型分类
概率模型决策树、朴素贝叶斯、隐马尔科夫模型、高斯混合模型等非概率模型感知机、支持向量机、KNN、AdaBoost、K-means以及神经网络等
4.2损失函数(衡量模型的好坏)
损失函数就是用来衡量模型预测结果跟真实数据之间的真值的。例如平均损失函数Quadratic Loss FunctionL(Y,f(x)) (Y- f(x))2损失函数越小模型性能越好。
所以我们在设定好一个模型之后给定一个训练集训练的目的就是去优化这个损失函数 min f 1 N ∑ i 1 n L ( y i , f ( x i ) ) \mathop {\min }\limits_f {1 \over N}\sum\limits_{i 1}^n {L{{({y_i},f({x_i}))}}} fminN1i1∑nL(yi,f(xi))
4.3 优化算法
怎么求这个损失函数呢怎求的具体算法就称为优化算法,现在主要的优化算法有梯度下降法、牛顿法、拟牛顿法、ADAM等等。
4.4评价指标
(1).评测模型好坏的评价指标 正确肯定True Positive,TP预测为真实际为真 正确否定True Negative,TN预测为假实际为假 错误肯定False Positive,FP预测为真实际为假 错误否定False Negative,FN预测为假实际为真
(2).参考指标
Accuracy (准确率) T P T N T P T N F P F N {{TP TN} \over {TP {\rm{TN}} {\rm{FP FN}}}} TPTNFPFNTPTN
Precision(精确率) T P T P F P {{TP} \over {TP {\rm{FP}}}} TPFPTP
Recall(召回率) T P T P F N {{TP} \over {TP {\rm{FN}}}} TPFNTP
F1 score 2 × P r e c i s i o n × R e c a l l P r e c i s i o n R e c a l l {{2 \times {\rm{Precision}} \times {\rm{Recall}}} \over {{\rm{Precision}} {\rm{Recall}}}} PrecisionRecall2×Precision×Recall 3.
2.数据集
2.1 K折交叉验证
交叉验证既可以解决数据集的数据量不够大的问题也可以解决参数调优的问题。
步骤
1.使用训练集训出k个模型
2.用k个模型分别对交叉验证集计算得出交叉验证误差代价函数的值
3.选取代价函数值最小的模型
4.用步骤3中选出的模型对测试集计算得出推广误差代价函数的值
2.2 数据集的不均衡
数据不平衡是指数据集中各类样本数量不均匀的情况。这种情况会给模型的训练带来很大的问题
平滑数据集分布不平衡的解决方法
SMOTE (Synthetic Minority Over-sampling Technique)算法在少样本的距离的中间再生成一个新的样本
3.机器学习分类 监督学习输入的数据中有监督信息以概率函数、代数函数或人工神经网络为基函数模型采用迭代计算方法学习结果为函数 无监督学习:输入数据中没有监督信息采用聚类方法学习结果为类别。典型的无监督学习有聚类降维算法等。除此之外还有自监督学习半监督学习对比学习等概念。 强化学习以环境为反馈奖/惩信号作为输入以统计和动态规划技术为指导的一种学习方法。
3.1 监督学习 分类classfication 回归(regression)
3.2 无监督 聚类Clustering 降维(Demensionality Reduction)
3.3 强化学习
用于描述和解决智能体agent在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
4.编程基础
编程语言python、R编程系统Linux、anaconda编程平台jupyter notebook , vscode,pycharm编程库numpy,pandas,matplotlib,scikit-learn,pytorch,tensorflow