当前位置：首页 > news >正文

弹窗广告最多的网站有网站源码如何搭建自己的网站

news 2026/4/14 4:13:33

弹窗广告最多的网站,有网站源码如何搭建自己的网站,医疗行业网站备案,怎样进入医院公众号C3-1.3.1 无监督学习——异常检测 1、举例#xff1a;异常值检测示例——密度评估法 1.1 举一个例子这里做的是查看飞机发动机异常检测#xff1a; 左侧#xff1a;X1 ,X2 … 是可能会影响发动机状态的特征右侧#xff1a; Dataset#xff1a;训练数据集New engine…C3-1.3.1 无监督学习——异常检测 1、举例异常值检测示例——密度评估法 1.1 举一个例子这里做的是查看飞机发动机异常检测左侧X1 ,X2 … 是可能会影响发动机状态的特征右侧 Dataset训练数据集New engine 利用新发动机的数据来检测新建造出的发动机是否异常这里只拿出来两个特征值X1 , X2来举例为了可视化让我们了解的更加方便实际应用中特征的数量可能达到上百 / 上千最外层蓝色圈内的说明的大概率的是正常的最外层蓝色圈外的是小概率发生的事件要进行进一步的检查 **PX**这里通过训练集建立完成模型 P(X)后用训练集数据 X-test 来判断结果 PX-test是否是状态异常的发动机 **ε的值**即最外圈蓝色框的概率的值 1.2 构建过程 Step1 **特征的提取**找出能够判断是否异常状态的特征——这里用的特征是飞机发动机的热度X1,发动机震动频率X2 Step2 通过训练集的数据拟合出一个模型——P(X)。 Step3 通过输入的数据 X X可能是一组向量得出概率值 y P (X)。如果P(X) ε (设定好的门槛值这个值通常很小)就说明发生异常 2、应用的算法高斯正态分布 ※※ 【核心】高斯正态分布——很好的解释了上图中三个蓝色圈的由来 / 代表什么 /为什么要画这三个圈不是四个P(x) Model 怎么拟合出来的ε的值的也由来 2.1、正态分布函数 / 高斯正态分布 3个蓝圈在异常举例中我们给出了3个蓝圈其实每一个圈分别代表下面的三个分布的范围**u± δ、u± 2δ、u± 3δ** **Px**也就是对应的高斯正态分布函数 **ε的值的也由来**为什么在 PX超过了 u - 3δ P(X) u 3δ 的范围就认为他是异常值因为在 u - 3δ P(X) u 3δ 的范围达到了99.7%之外的概率确实太小了。 ε u± 3δ u - δ P(X) u δ u - 2δ P(X) u 2δ u - 3δ P(X) u 3δ 均值u 的算法方差δ的算法这个 “钟形”的概率分布的面积是 1。也就是说标准差δ越小意味着大多数变量值离均数的距离越短因此大多数值都紧密地聚集在均数周围图形呈现**“瘦高型”**相反标准差δ越大数据跨度就比较大分散程度大所覆盖的变量值就越多比如1±0.5涵盖[0.51.5]图形呈现**“矮胖型”** ——如图四 2.2 高斯分布的应用 Step1 :通过训练集数据进行散点分布在X轴上这是训练其中的一个特征 Step 2 正态分布的使用进行X - f(x)的映射 Step 3 利用高斯分布进行异常值的检测 3、实现流程异常检测算法实现流程 3.1、算法实现步骤 Step1 选择可能影响最终结果——是否异常的特征的选择 Step 2 **拟合模型**训练每个特征向量对应的参数 —— u δ Step 3 通过输入测试集数据x-i计算最终结果 P(x) ※PX是连乘得出的结果是不同特征的特征值X 对应的P(X-i) 连乘的结果是每个特征对结果——异常检测的共同的影响 ※PX-i中一旦有一个结果是不正常的——导致P(X-i)是特别小的数值——导致最终结果P(X)是特别小的数值——导致P(X) u± 3δ ——得出结果是异常点 ra%5Ctypora-user-images%5Cimage-20231101205906650.pngpos_idimg-QDV3Mm35-1704850973901) 【补充】均值 u的算法方差δ的算法 3.2 异常值检测实例 Step1 选择可能影响最终结果——是否异常的特征的选择这里是做飞机发动机异常检测保留了两个特征X1:发动机热度X2发动机震动频率 Step 2 **拟合模型**训练每个特征向量对应的参数 —— u δ 计算得出阀值 u± 3δ ε 0.02把 X1 ,X2 概率P 画在了三维图像上 Step 3 通过输入测试集数据x-i计算最终结果 P(x) 从图中可以看出X1-test 是正常值的状态X2-test 是异常状态发生概率 P(X) ε 需要进一步对发动机做检测 4、模型微调运用少量标签数据改进算法的必要性 4.1、文章核心思想【本节核心句子】 it’s turns out to be **very userful for turning(调整) the algorithm if you have a small number of anomalous examples so that you can create a cross validation set and a test set **,which i’m going to denote (x-cv(1),y-cv(1)) 、(x-cv(2),y-cv(2))and have a test set of some number example where both the cross validation and test sets hopefully includes a few anomalous examples 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 4.2、应用的例子给出了 10000个正常的数据和 20个异常 / 瑕疵数据给出两种方法去进行模型的训练方法一测试集用6000个好的交叉验证集用2000个好的和 10 个异常数据——进行模型的微调调整ε的值和特征的选择测试集用2000个好的和10个异常数据——来判断模型的泛化能力方法二当数据及其不平衡的时候使用最好这时是有10000个好的2个坏的测试集用6000个好的交叉验证集用4000个好的和 2 个异常数据——进行模型的微调调整ε的值和特征的选择。缺点不能测试模型的泛化能力无法评估【注释】这不是监督学习因为没有进行数据的标记这里的好数据6000 和瑕疵数据 20 都是我们假设原文是 Assume labeled的 —— 引出了下文那你都是认为是假设标记了,那为什么直接标记所以为什么不使用监督学习呢 5、什么时候使用监督学习什么时候使用异常检测 5.1 监督学习 VS 异常值检测异常值检测 ※※※应用于检测目标的异常值可能是以前没有学到的不像任何一个训练集给出的异常值例子适合具有少量异常值和大量正常值数据量监督学习 ※※※测试集中的异常值和我们以前学习的样本有些相似之处适合具有大量异常值和大量正常值的数据量 5.2 举一个例子异常值检测的例子比如说电信诈骗诈骗手法层出不穷我们模型学习完以前的诈骗方法但是他三天 / 几个月之后又出现了新的咋骗手法总是和出新的和以前不同——这个时候就要使用**“异常值检测”** 监督学习的例子比如说垃圾邮件检测经历了30多年垃圾邮件无非是那几类钓鱼网站推销产品诱导消费… 我们可以学习以前的一些例子然后通过检测测试集的例子总会发现有一些相似之处——这是就要使用**“监督学习”**法 6、选择使用什么样的特征在监督学习中就算我们选择了一些额外不相关的特征我们也不受影响因为有——特征放缩在异常值检测中对于未标记的数据这就显得比监督学习尤其的重要了 6.1 如何选择【※※※核心】选择的特征或多或少符合高斯分布/正态分布如果要不符合高斯分布就把他改成高斯分布一些异常的数据可能也会有较高的()值因而被算法认为是正常的——需要进一步分析并找出特征选择方法一符合高斯分布的特征情况以特征X举例在画布上画出X特征的分布这里的X特征就比较符合 “高斯分布”——这就是一个很好的候选特征不符合高斯分布的特征的情况——变成符合首先是判断我们是否真的需要这个特征变量如果真的需要那我们进行进一步的转变变成符合高斯分布的特征通过 logx函数变成了符合正态分布的情况。其实还有许多变化的方法常用的将数据转换成符合高斯分布的方法包括对数变换log transformation、平方根变换square root transformation、Box-Cox变换等。这些变换可以使数据更加接近正态分布的形态。如果数据中存在明显的异常值那么将其转换成符合高斯分布的形式可能会使得异常值更加明显从而更容易被检测到。 [^]: (注在python 中通常用np.log1p()函数1就是 ( 1)可以避免出现负数结果反向函数就是np.expm1()) 实例实施过程选择方法二从学习不好的结果中进行进一步选择特征【核心】一个常见的问题是一些异常的数据可能也会有较高的()值因而被算法认为是正常的。这种情况下误差分析能够帮助我们 ——我们可以分析那些被算法错误预测为正常的数据观察能否找出一些问题。正常我们选择完成交叉验证集验证发现有一些数据这里对应的X蓝色坐标点看起来很正常有较高的Px但是是异常数据——怎么才能解决这个问题呢这时候就需要找出其他特征根据其他特征一起来进行判断会更容易——他虽然在X1(这里指发动机温度)的特征上表现得正常但是在我们没有选中的X2 这里指发动机震动频率的特征上表现得异常。所以还需要选择特征X2然后结合X1 X2把X1 X2他们组合起来进行一起来判断。这也是交叉验集微调的过程 6.2 举例

查看全文

http://www.hkea.cn/news/14256381/