网站终端制作,建单页网站,网站建设市场拓展岗位,WordPress用quic协议大家好#xff0c;这里是好评笔记#xff0c;公主号#xff1a;Goodnote#xff0c;专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。 文章目录 特征工程#xff08;Fzeature Engineering#xff09;1. 特征提取#xff… 大家好这里是好评笔记公主号Goodnote专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。 文章目录 特征工程Fzeature Engineering1. 特征提取Feature Extraction手工特征提取Manual Feature Extraction自动特征提取Automated Feature Extraction 2. 特征选择Feature Selection1. 过滤法Filter Methods2. 包裹法Wrapper Methods3. 嵌入法Embedded Methods4. 其他方法5. 选择方法的应用场景总结 3. 特征构造Feature Construction4. 特征缩放4.1 归一化Normalization4.2 标准化StandardizationBN、LN、IN、GN 历史文章回顾 特征工程Fzeature Engineering
1. 特征提取Feature Extraction
特征提取从原始数据中提取能够有效表征数据特征的过程。它将原始数据转换为适合模型输入的特征表示。
手工特征提取Manual Feature Extraction
文本数据 词袋模型Bag of Words将文本数据转化为词频向量每个单词是一个维度值为该单词在文本中出现的次数。TF-IDF为词袋模型加入词频-逆文档频率Term Frequency-Inverse Document Frequency降低常见词语的权重提升重要词语的权重。N-gram将连续的 N 个词作为一个特征捕捉词语间的局部依赖关系。 图像数据 边缘检测使用 Sobel 算子、Canny 边缘检测等方法提取图像边缘信息。SIFT尺度不变特征变换提取图像的关键点和局部特征具有尺度不变性和旋转不变性。HOG方向梯度直方图将图像分块并统计每块的梯度方向直方图用于描述局部形状和纹理特征。 时间序列数据 移动平均对时间序列进行平滑消除短期波动。傅里叶变换将时间域的信号转化为频域信号分析数据的周期性。窗口函数将时间序列分为若干窗口分别计算每个窗口的统计特征如均值、方差等。
自动特征提取Automated Feature Extraction
使用卷积神经网络CNN从图像中自动提取高级特征如边缘、纹理、形状等。使用循环神经网络RNN处理时间序列数据捕捉长时间依赖关系。使用BERTTransformer通过自监督学习自动提取上下文敏感的文本特征。自动编码器Autoencoder使用无监督学习从数据中提取低维特征表示捕捉数据的潜在结构和模式。
2. 特征选择Feature Selection
特征选择Feature Selection是指从原始特征集中挑选出与目标任务最相关的特征以提高模型的性能、减少训练时间以及降低过拟合的风险。特征选择方法主要分为三类过滤法Filter Methods、包裹法Wrapper Methods 和 嵌入法Embedded Methods。
1. 过滤法Filter Methods
原理独立于模型训练前首先根据某些统计指标对特征进行评分然后选择得分较高的特征。这种方法不依赖于特定的学习算法只是基于数据本身的特性进行筛选。常见方法 方差选择法剔除方差较小的特征认为方差小的特征对目标值影响小。皮尔森相关系数计算特征与目标变量之间的线性相关性选择线性相关性较高的特征。互信息衡量特征与目标变量之间的信息增益选择信息量大的特征。 优点计算效率高易于实现。缺点未考虑特征之间的相互作用可能遗漏组合特征的重要性。
2. 包裹法Wrapper Methods
原理在训练中通过训练模型评估特征子集的表现使用搜索策略找到对目标任务最优的特征组合。包裹法直接根据模型的性能进行选择通常通过交叉验证来评估特征子集的好坏。常见方法 前向选择Forward Selection从空集开始逐步添加对模型性能提升最大的特征。后向消除Backward Elimination从所有特征开始逐步移除对模型性能影响最小的特征。 优点能够考虑特征之间的相互作用适合复杂的特征选择任务。缺点计算开销大尤其是当特征数目较多时训练多个模型的过程会非常耗时。
3. 嵌入法Embedded Methods
原理嵌入法结合了过滤法和包裹法的优点直接在模型训练过程中自动选择特征。它通过学习算法自动选择最重要的特征使特征选择与模型训练同时进行。常见方法 L1正则化Lasso回归通过在损失函数中添加L1正则化项使**部分特征的系数变为零从而进行特征选择。决策树及其变体如随机森林、XGBoost树模型的特征重要性得分可以用于选择重要特征。Elastic Net结合L1和L2正则化的优势在保持模型稀疏性的同时减少了多重共线性的影响进行特征选择和模型优化。 优点特征选择与模型训练同时完成考虑特征间的相互作用效率较高。缺点需要根据特定算法来进行选择不具有模型无关性。
4. 其他方法
PCA主成分分析虽然PCA是降维方法但在某些场景下可以间接用于特征选择。通过对数据进行线性变换将多个原始特征组合成少数几个主成分。LDA线性判别分析常用于分类问题的降维也可以视作一种特征选择方法。基于稳定性选择Stability Selection通过在多次子样本集上重复训练模型并选择那些在多个子集上都表现重要的特征从而增强选择的鲁棒性。
5. 选择方法的应用场景
过滤法适用于快速预筛选大量特征的情况计算效率高但可能丢失特征之间的组合信息。包裹法在特征数不多时例如几十个或上百个效果较好能找到最佳的特征组合但计算开销较大。嵌入法通常适用于大多数场景尤其是使用线性模型Lasso或树模型时既能训练模型又能自动选择特征。
总结
下面是特征选择方法的总结表格保留了原有的描述信息
方法类别原理常见方法优点缺点适用场景过滤法Filter Methods独立于模型基于统计指标对特征评分并选择得分较高的特征。- 方差选择法剔除方差较小的特征- 皮尔森相关系数选择线性相关性高的特征- 互信息选择信息增益大的特征计算效率高易于实现未考虑特征间相互作用可能遗漏重要的组合特征快速预筛选大量特征的情况适合初步筛选特征包裹法Wrapper Methods通过训练模型评估特征子集表现使用搜索策略找到最优特征组合。- 递归特征消除RFE删除不重要的特征- 前向选择逐步添加性能提升最大的特征- 后向消除逐步移除对模型性能影响小的特征能考虑特征间的相互作用适合复杂任务计算开销大训练多个模型耗时长特征数较少几十到上百个适合需要精确特征选择的任务嵌入法Embedded Methods结合过滤法和包裹法的优点在模型训练过程中选择特征。- L1正则化Lasso回归通过L1正则化项使部分特征系数为零- 决策树及其变体随机森林、XGBoost根据特征重要性评分选择特征- Elastic Net结合L1和L2正则化特征选择与模型训练同时进行考虑特征间相互作用效率高需要根据特定算法选择不具有模型无关性适合使用线性模型如Lasso或树模型的场景大多数现代复杂模型都适用其他方法PCA、LDA等方法虽然是降维方法但可间接用于特征选择。- PCA通过线性变换将多个特征组合成少数几个主成分- LDA常用于分类问题的降维方法- 稳定性选择Stability Selection通过在子样本集上选择表现稳定的特征能够进行有效降维有时可以间接用于特征选择降维后特征解释性较弱数据维度较高的情况下可以用作降维手段间接提高特征选择效果
过滤法速度快适合预处理大量特征但可能丢失特征间的组合信息。包裹法精度高适合特征数较少且精度要求高的任务但计算成本大。嵌入法性能和效率兼顾适合大多数场景尤其是使用线性模型Lasso或树模型时。其他方法如PCA、LDA等可以作为降维手段间接用于特征选择适合高维数据的场景。
选择合适的特征选择方法能够有效提升模型性能降低训练时间避免过拟合。
3. 特征构造Feature Construction
特征构造是通过对已有特征进行组合、变换或生成新特征来增强模型表达能力的过程。它可以将隐含的关系显式化提高模型的拟合能力。
类别主要方法适用场景数值特征构造变换、分箱处理数值特征、非线性关系类别特征构造编码、组合处理类别特征、捕捉特征间关系时间特征构造时间提取、周期特征、时间差时间序列数据、周期性特征文本特征构造词袋、TF-IDF、词向量、N-grams文本数据、自然语言处理特征交互与组合特征交互、多项式特征捕捉特征间的复杂关系适合增强线性模型的非线性拟合能力聚合与统计特征聚合、统计、窗口聚合大规模表格数据、时间序列数据生成模型特征降维、聚类、自编码器生成特征复杂高维数据、需要特征压缩的场景特征选择与构造结合筛选后构造、嵌入法生成特征大规模数据集、特征选择与构造结合的场景
特征构造是一项创造性和技术性并重的任务需要结合领域知识、数据分析技巧以及机器学习经验来挖掘出更有利于模型训练的特征从而提升模型的表现。
4. 特征缩放
归一化通常是指将数据缩放到一个特定的范围如[0, 1]。目的是让不同特征的值处于相同的尺度上【同时也有消除不同特征量纲的影响的作用】大范围的特征值可能会导致梯度更新过慢或不稳定。标准化是指对数据进行均值0、标准差1的变换更关注数据的分布形态。目的是消除不同特征的物理单位和量纲如重量、温度、距离等差异同时保持特征间的相对比例关系。
4.1 归一化Normalization
归一化将特征值缩放到 [0, 1] 之间常用于以下算法中
K 近邻算法KNN归一化后减少不同特征尺度对距离计算的影响。能够避免特征量纲不同带来的距离计算问题。【与数据的分布无关】神经网络将输入特征值缩放至 [0, 1]有助于加快模型收敛。聚类算法如 K-Means归一化避免特征尺度不同造成聚类结果偏差。
Min - Max归一化将特征缩放到指定范围通常为[0, 1]公式为 x ′ x − x min x max − x min x \frac{x - x_{\min}}{x_{\max} - x_{\min}} x′xmax−xminx−xmin
4.2 标准化Standardization
标准化将特征值转化为均值为 0、方差为 1 的标准正态分布常用于以下算法中
线性回归标准化能够提升参数解释性并避免部分特征影响过大。逻辑回归标准化能够使梯度下降更快地收敛。支持向量机SVM标准化后距离计算更稳定。主成分分析PCA标准化防止某些方差大的特征主导主成分的计算。
Z - score标准化 将数据转换为均值为0方差为1的标准正态分布公式为 x ′ x − μ σ x \frac{x - \mu}{\sigma} x′σx−μ
BN、LN、IN、GN
以下是归一化方法对比总结其中加入了每种归一化方法的原理
归一化方法原理适用场景优点缺点批归一化BN对一个批量中的所有样本的同一通道进行归一化基于批次的均值和方差调整卷积网络、全连接网络加快收敛正则化适应大批量训练对小批次敏感序列任务效果差层归一化LN对单个样本的所有通道进行归一化不依赖批量计算层内均值和方差RNN、Transformer、序列任务适应小批次训练不依赖批次大小计算量较大收敛可能稍慢实例归一化IN对单张图像的每个通道分别独立进行归一化计算每个样本的通道内均值和方差图像生成、风格迁移对风格敏感适用于生成任务不适合分类任务无法捕捉全局信息组归一化GN将单个样本的特征通道分组对每一组进行归一化计算组内均值和方差小批次训练卷积网络适合小批次不依赖批次大小对卷积核大小和通道数较敏感权重归一化WN对神经元的权重向量进行归一化将方向和长度分开重新参数化卷积网络、全连接网络、生成模型加速收敛提高稳定性效果不一定显著某些任务中不如BN 注意虽然他们是叫做归一化批归一化、层归一化、实例归一化是将多个输入特征归一化为均值为 0、方差为 1 的分布使得网络的各层输入保持在较为稳定的范围内。本质上是进行标准化。再进行引入两个可学习参数 γ 和 分别表示缩放和平移操作。 BN、LN、IN、GN 等归一化方法都包含了标准化的步骤即它们都会将激活值调整为均值为 0、方差为 1 的分布关键区别在于这些方法在不同的范围内计算均值和方差以适应不同的训练场景和模型结构 注意 虽然它们方法名字中带“归一化”批归一化、层归一化、实例归一化、组归一化但它们的核心操作本质上是标准化将多个输入特征归一化为均值为 0、方差为 1 的分布使得网络的各层输入保持在较为稳定的范围内。本质上是进行标准化。再进行引入两个可学习参数 γ 和 分别表示缩放和平移操作。
历史文章回顾
机器学习笔记——损失函数、代价函数和KL散度