公司网站域名注册流程,制作开发app的公司,wordpress img相对路径,wordpress dux主题设置首页什么是类别不平衡问题
分类学习方法都有一个共同的基本假设#xff0c;即不同类别的训练样例数目相当。如果不同类别的训练样例数目稍有差别#xff0c;通常影响不大#xff0c;但若差别很大#xff0c;则会对学习过程造成困扰。例如有998个反例#xff0c;但正例只有2个…什么是类别不平衡问题
分类学习方法都有一个共同的基本假设即不同类别的训练样例数目相当。如果不同类别的训练样例数目稍有差别通常影响不大但若差别很大则会对学习过程造成困扰。例如有998个反例但正例只有2个那么学习方法只需返回一个永远将新样本预测为反例的学习器就能达到99.8%的精度然而这样的学习器往往没有价值因为它不能预测出任何正例。
数学解释
以下是分类策略 然而当训练集中正、反例的数目不同时令m表示正例数目m-表示反例数目此时分类策略应该是 如何解释呢可以反方向解释如果m大于m-那么学习到的模型就会偏向于预测正例这对反例不公平因此只有当以上左边式子大于右边式子也就是大于1时预测为正例才公平这就是对训练集正例较多的惩罚。
然后可以稍作调整这就是再平衡也就是再缩放策略 如何解释呢和上面的解释类似如果m大于m-那么学习到的模型就会偏向于预测正例这对反例不公平因此右式乘以了m-/m相当于将 y/1-y缩放了这样要大于1就更加困难了也相当于对正例的惩罚。
最后看一下人工智能的回答