当前位置: 首页 > news >正文

浙江网站建设平台百度精简版网页入口

浙江网站建设平台,百度精简版网页入口,小程序在哪里,电子商务的发展现状和前景趋势第六章.决策树(Decision Tree) 6.1 ID3算法,C4.5算法 1.决策树适用的数据类型 比较适合分析离散数据,如果是连续数据要先转换成离散数据再做分析 2.信息熵 1).概念: 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常不确…

第六章.决策树(Decision Tree)

6.1 ID3算法,C4.5算法

1.决策树适用的数据类型

比较适合分析离散数据,如果是连续数据要先转换成离散数据再做分析
在这里插入图片描述

2.信息熵

1).概念:

  • 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常不确定的事情(或者是我们一无所知的事情),需要了解大量信息->信息量的度量就等于不确定性的多少

2).公式:

在这里插入图片描述

3).示例:

  • 示例1:
    假设有一个普通骰子A,扔出1-6的概率都是1/6;骰子B,扔出1-5的概率为10%,扔出6的概率为50%,骰子C,扔出6的概率为100%

  • 计算:

    ①.骰子A:
    在这里插入图片描述
    ②.骰子B:
    在这里插入图片描述
    ③.骰子C:
    在这里插入图片描述

3.ID3算法

决策树会选择最大化信息增益来对结点进行划分。

1).信息增益计算公式:

在这里插入图片描述

2).公式示例:

在这里插入图片描述

  • 分析:
    在这里插入图片描述
  • 计算:
    在这里插入图片描述
    说明:
    ①.9/14,5/14对应Class:buys_computer那一列。

3).ID3算法示例:

·AllElectronics.csv中的数据:
在这里插入图片描述
·代码:

from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn import preprocessing
import graphviz
import csv# 导入数据
DTree = open(r'D:\\data\\AllElectronics.csv', 'r')
reader = csv.reader(DTree)#使用import csv是因为表格中含有很多字符# 获取第一行数据
headers = reader.__next__()
# print(headers)# 定义两个列表
featureList = []
labelList = []for row in reader:# 把Label存入ListlabelList.append(row[-1])rowDict = {}for i in range(1, len(row) - 1):# 建立一个数据字典rowDict[headers[i]] = row[i]featureList.append(rowDict)# print(featureList)# 把数据转换成01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
# print('x_data:'+ str(x_data))# 打印属性名称
feature_names = vec.get_feature_names_out()
# print(feature_names)# 打印标签
# print('labelList:'+ str(labelList))# 把标签转换成01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)
# print('y_data'+str(y_data))# 创建并拟合模型
DTree_model = tree.DecisionTreeClassifier(criterion='entropy')
DTree_model.fit(x_data, y_data)# 测试
x_test = x_data[0]
print('x_test:' + str(x_test))predictions = DTree_model.predict(x_test.reshape(1, -1))#变成二维数据
print('predict:' + str(predictions))# 导出决策树
dot_data = tree.export_graphviz(DTree_model, out_file=None, feature_names=feature_names, class_names=lb.classes_,filled=True, rounded=True, special_characters=True)graph = graphviz.Source(dot_data)
graph.render('computer')

·结果展示: (文件会保存在运行目录下)
在这里插入图片描述

4.C4.5算法

ID3算法存在的缺陷:信息增益的方法倾向于首先选择因子数较多的变量。C4.5算法是ID3算法的优化版本。

1).信息增益的改进-增益率:

在这里插入图片描述

http://www.hkea.cn/news/10927/

相关文章:

  • 郑州专业做网站的百度免费推广平台
  • wordpress作者页面广东百度seo关键词排名
  • 手机资讯网站源码站长之家查询域名
  • 江苏省昆山市网站制作网络公司有哪些
  • php在网站开发中的作用搜索引擎平台有哪些软件
  • wap手机网站建设制作开发百度关键字推广费用
  • 河南企起网站建设成都私人做网站建设
  • 杭州互联网网站公司东莞做网站的公司吗
  • 企业网页建设公司运营团队免费seo网站诊断
  • 网站备案流程2016网址关键词查询
  • 广州市用工备案在哪个网站做输入关键词搜索
  • 杭州网站维护外包潍坊seo网络推广
  • 北京南站到北京西站六盘水seo
  • 建设工程包括哪几类工程seo排名优化方式方法
  • 自己做的网站怎么接入银联支付搜索引擎推广渠道
  • 11网站建设waocc口碑营销推广
  • 做歌厅广告在哪个网站做好搜狐综合小时报2022113011
  • 做网站软件 wordpage优化绿松石什么意思
  • 美国人做的古文字网站网站收录提交入口
  • 新闻类的网站有哪些类型seo查询优化
  • 网站设计排行百度关键词自然排名优化公司
  • 做网站小程序的客户是怎么找的服装营销方式和手段
  • 2019年建设银行安徽招聘网站网络销售怎么找客源
  • 郴州365网企业seo的措施有哪些
  • 网站建设明薇通网络售后好西地那非片
  • 南宫做网站互联网营销方案
  • 网络维护是什么专业专业关键词优化平台
  • 帮别人设计网站的网站网络营销方法有什么
  • 重庆微网站制作兰州seo优化公司
  • c做网站教程互联网广告代理