深圳给企业做网站,潍坊做网站优化,wordpress+留言本,济南中建设计院网站决策树
#xff08;1#xff09;决策树是一种基本分类与回归方法。它的关键在于如何构建这样一棵树。决策树的建立过程中#xff0c;使用基尼系数来评估节点的纯度和划分的效果。基尼系数是用来度量一个数据集的不确定性的指标#xff0c;其数值越小表示数据集的纯度越高。…决策树
1决策树是一种基本分类与回归方法。它的关键在于如何构建这样一棵树。决策树的建立过程中使用基尼系数来评估节点的纯度和划分的效果。基尼系数是用来度量一个数据集的不确定性的指标其数值越小表示数据集的纯度越高。决策树的节点划分方式可以根据不同的算法和参数设置而不同。节点划分方式不同但是基尼系数的下降效果却是一样的只是具体数值不同。决策树的深度可以根据需求进行设置如果不限制决策树的深度它将一直延伸下去直到所有叶子节点的均方误差为0。 模型特点优点计算复杂度不高输出结果易于理解对中间值的缺失不敏感可以处理不相关特征数据。 缺点可能会产生过度匹配的问题 适用数据类型数值型和标称型 3决策树通常有三个步骤特征选择、决策树的生成、决策树的修剪。 4决策树的构造
决策树学习的算法通常是一个递归地选择最优特征并根据该特征对训练数据进行分割使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分也对应着决策树的构建。 1开始构建根节点将所有训练数据都放在根节点选择一个最优特征按着这一特征将训练数据集分割成子集使得各个子集有一个在当前条件下最好的分类。 2如果这些子集已经能够被基本正确分类那么构建叶节点并将这些子集分到所对应的叶节点去。 3如果还有子集不能够被正确的分类那么就对这些子集选择新的最优特征继续对其进行分割构建相应的节点如果递归进行直至所有训练数据子集被基本正确的分类或者没有合适的特征为止。 4每个子集都被分到叶节点上即都有了明确的类这样就生成了一颗决策树。
5决策树分析举例理解 例如小熊毕业了来到一家银行工作刚刚入行的小熊仔细整理了客户的基本信息。如下图 小熊根据以上信息得出基本结论 1按有工作分类 2按信誉分类的话 以上样本结果好像与数据结果相悖 那如果按有工作和信誉因素分类的话 如果客户有工作那就可以批准贷款如果客户没有工作的话我们再考虑他的信誉情况做出判断这就是利用决策树进行分类的过程。 标准可以用一个基尼系数来定义 采用基尼系数进行运算的决策树也称为CART决策树。 基尼系数gini用于计算一个系统中的失序现象即系统的混乱程度纯度。基尼系数越高系统的混乱程度就越高不纯建立决策树模型的目的就是降低系统的混乱程度体高纯度从而得到合适的数据分类效果。 基尼系数的计算公式如下 选择基尼数最小的来作为决策树下一级的标准。 Gini 1-p(批准)2-p(拒绝)2 当p(批准)1 p(拒绝)0 Gini1-10 当p(批准)0 p(拒绝)1 Gini1-0-10 当p(批准)0.5 p(拒绝)0.5 Gini1-0.25-0.250.5 以以上例子可以得出 Gini 1-p(9/15)2-p(6/15)20.48 Gini(工作是)1-5/5-00 Gini(工作否)1-4/10-6/100.48 Gini(工作)5/15Gini(工作是)10/15Gini(工作否)0.32 依次算出:Gini(房子)0.27 Gini(信誉)0.28 以上可知有房子的基尼系数最小所以依此为下一次分类的依据