安装网站出现dir,程序员用来做笔记的网站,做网站找外包好吗,聊天app开发需要多少钱#x1f308; 个人主页#xff1a;十二月的猫-CSDN博客 #x1f525; 系列专栏#xff1a; #x1f3c0;软件开发必备知识_十二月的猫的博客-CSDN博客 #x1f4aa;#x1f3fb; 十二月的寒冬阻挡不了春天的脚步#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录
1. 前… 个人主页十二月的猫-CSDN博客 系列专栏 软件开发必备知识_十二月的猫的博客-CSDN博客 十二月的寒冬阻挡不了春天的脚步十二点的黑夜遮蔽不住黎明的曙光 目录
1. 前言
2. 数据变换
2.1 数据规范化
编辑 2.2 数据离散化
2.2.1 非监督离散化
2.2.2 监督离散化 1. 前言
在进入这一篇文章之前我希望大家看看另外两篇文章
【数据处理】数据预处理·数据清理-CSDN博客
【数据处理】数据预处理·数据集成-CSDN博客 核心思想 1、大数据中最重要的部分就是数据处理 2、数据处理中第一步就是数据预处理 3、数据预处理目的是提高数据的质量使得我们能使用更高质量的数据进行后续处理 4、数据预处理包括数据清洗、数据集成、数据变换、数据规约 数据清洗 1、缺失值处理 2、噪声处理 数据集成 1、数据集成中最大的问题就是数据冗余 2、冗余数据包括冗余样本、冗余属性 3、数据冗余中最重要的部分是冗余检测 4、冗余检测包括有序数据检测、无序数据检测 5、检测方式有两个角度a. 将数据看成向量空间的点b. 将数据看成向量 接下来我们进入数据预处理的下一部分数据变换
2. 数据变换
定义由于数据量之间的量纲、连续性等不同导致不同数据之间不能比较因此需要通过数据变换使他们具有可比性。
数据变换包括 数据规范化、数据离散化
2.1 数据规范化
目的将不同数据属性按一定规则进行缩放使它们具有可比性 举个例子体重和身高两个数据量之间不能比较因为量纲不同因此需要规范化 最小-最大规范化对原始数据进行线性变换。把数据A的观察值v从原始的 区间[minAmaxA]映 射到新区间 [new_minAnew_maxA]【0-1规范化又称为归一化】
0-1规范化 [minAmaxA] - [new_minAnew_maxA]规范化 用处能够调节两个属性的量纲让两者可以比较 缺点噪声影响非常大对离群值很敏感 因此提出z-score规范化
z-score规范化 小数定标规范化 2.2 数据离散化
连续数据过于细致数据之间的关系难以分析划分为离散化的区间发现数据之间的关联便于算法处理。 思考什么是离散化离散化本质就是限制类的数量限制类的数量其核心思想和平滑是相同的平滑也就是我们进行数据清洗缺失、噪声处理的核心思想 2.2.1 非监督离散化
分箱聚类 2.2.2 监督离散化
熵的计算 熵的本质思想信息不确定性越大价值越大 例如 1、“太阳从东边升起来”这个信息没有不确定性这是一个必然事实。那么这个信息对于我们来说是没有价值的。 2、“特朗普将赢得大选”这个信息不确定性相当大特朗普不一定赢。因此我们听到这个信息会很好奇为什么特朗普将赢因此这个信息价值很大。 那么如何利用熵来对数据进行离散化呢
离散化就是把数据的类别减少限制类别数量。
因此利用熵来实现离散化的关键在于为连续的数据进行有限的分类。
问题的关键就转化为如何利用熵有效的对数据进行分类
分类方法 D待分类数据集a数据集的特征属性V数据集特征属性a的不同分类集合V是我们找max过程中需要改变的
举个例子 如果想要学习更多深度学习知识大家可以点个关注并订阅持续学习、天天进步
你的点赞就是我更新的动力如果觉得对你有帮助辛苦友友点个赞收个藏呀~~~