当前位置：首页 > news >正文

沈阳网站开发培训多少钱建设工程教育网论坛官网

news 2026/5/1 0:28:38

沈阳网站开发培训多少钱,建设工程教育网论坛官网,网站关键字搜索功能,讯代理网站有效的数据准备对于构建强大的机器学习模型至关重要。本文档总结并阐述了为监督和非监督学习任务准备数据的关键技术。 1. 理解数据类型有两种数据类型。定性数据描述对象的特征#xff0c;而定量数据描述对象的数量。定性#xff08;分类#xff09;数据名义#x…有效的数据准备对于构建强大的机器学习模型至关重要。本文档总结并阐述了为监督和非监督学习任务准备数据的关键技术。 1. 理解数据类型有两种数据类型。定性数据描述对象的特征而定量数据描述对象的数量。定性分类数据名义无序的命名类别例如性别国家。无法执行算术运算。使用独热编码或标签编码。有序具有自然顺序的类别例如满意度低中高。通常用整数映射编码保留顺序。定量数值数据区间具有有意义差异的数值数据但无真实零点例如摄氏温度。可以计算均值、中位数、标准差。比率具有真实零点的数值数据例如收入年龄。所有算术运算有效。离散与连续属性离散可计数的值例如子女数量。连续范围内无限值例如身高体重。 2. 探索与总结数据一旦从现实世界获取数据数据收集我们需要探索和总结数据数据分析。在这个阶段通常使用可视化来理解数据分布数据分散度量。中心趋势度量均值对异常值敏感。中位数对异常值鲁棒适用于偏态数据。众数出现频率最高的值。分布度量方差与标准差显示数据如何围绕均值分布。范围、四分位数、四分位距帮助检测异常值和数据偏态。 3. 数据可视化可视化数据有很多方法。以下是一些常见的方法。在示例中我们将使用 matplotlib 库来绘制它们。箱线图可视化五数概括最小值Q1中位数Q3最大值。突出显示超出 1.5 × 四分位距的异常值。直方图显示频率分布。帮助识别偏态、模态和分布范围。散点图用于双变量关系。揭示两个变量之间的相关性和模式。交叉表用于探索分类变量之间的关系。在矩阵中显示频率分布。 4. 数据质量问题与修复处理缺失值和异常值是数据准备的重要步骤。现实世界的数据往往不完美。缺失数据、异常值和其他问题需要在此步骤中解决以实现有效的机器学习。缺失值原因调查未响应、手动输入错误、数据损坏。修复方法删除移除缺失数据的行/列仅在安全的情况下。插补均值/中位数数值众数分类基于组的插补例如按相似行基于模型的估计使用预测建模或相似性函数。删除通常在删除一些数据行不会损失太多信息时应用。这通常与 dropna() 方法相关。另一方面插补可能是一种更实际的方法通过为缺失数据提供人工值来保留重要数据属性同时不影响数据分布。什么是插补插补是用替代值替换缺失数据的过程。这很关键因为大多数机器学习算法无法直接处理缺失值。常见的插补方法均值/中位数插补用列的均值或中位数替换缺失值。适用于无异常值的正态分布数据使用场景数据完全随机缺失时基于组的插补用组的均值/中位数替换缺失值适用于数据有意义的组示例根据汽车气缸数填充缺失的马力 KNN插补使用k近邻插补缺失值适用于数据存在模式最准确但计算成本高任意值插补用-999等值替换适用于基于树的模型使用场景希望缺失值突出时异常值异常值是与其他观测值显著不同的数据点。可能由测量错误、数据输入错误或自然变异引起。异常值的影响可能使统计度量偏斜可能影响模型性能可能导致模型受极端值影响过大检测方法四分位距方法计算Q125th百分位和Q375th百分位四分位距 Q3 - Q1下限 Q1 - 1.5*四分位距上限 Q3 1.5*四分位距超出这些界限的点被视为异常值 Z分数方法计算Z分数z (x - 均值) / 标准差|z| 3 的点通常被视为异常值处理技术封顶Winsorization将异常值替换为最近的非异常值转换应用对数、平方根或其他转换移除如果异常值是错误或不具代表性单独建模为异常值创建单独的模型 5. 特征缩放许多机器学习算法在特征具有相似尺度时表现更好或收敛更快。缩放还确保不同量级的特征不会主导模型学习。标准化Z分数 x ′ x − μ σ x \frac{x - \mu}{\sigma} x′σx−μ 将数据中心化到均值为0单位方差。用于数据有异常值或正态分布时。归一化最小-最大缩放 x ′ x − x min x max − x min x \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} x′xmax−xminx−xmin 将特征缩放到[0, 1]范围。对异常值敏感。鲁棒缩放使用中位数和四分位距公式(x - 中位数) / 四分位距适用于有异常值的数据何时缩放需要缩放的场景基于距离的算法KNN、K均值、带RBF核的SVM神经网络正则化模型Ridge、Lasso主成分分析PCA 无需缩放的场景基于树的模型决策树、随机森林、XGBoost朴素贝叶斯 6. 降维减少特征数量同时保留重要信息。为什么降维维度灾难随着维度增加数据变得稀疏减少过拟合更少的特征意味着更少的参数需要学习加速训练减少计算需求改进可视化更容易可视化2D或3D数据主成分分析PCA 将数据投影到最大化方差的主成分上步骤标准化数据计算协方差矩阵计算特征向量和特征值选择前k个特征向量将数据转换到新空间何时使用当特征相关时用于可视化在训练具有许多特征的模型之前用于噪声减少奇异值分解SVD 矩阵分解方法用于识别潜在特征。 7. 特征选择选择最相关的特征子集以减少过拟合提高模型可解释性降低计算成本特征类型无关无预测能力。冗余与其他特征重复信息。方法过滤方法根据统计测试选择特征示例相关系数、卡方检验快速但不考虑特征交互包装方法使用特征子集训练模型示例递归特征消除RFE计算成本高但更准确嵌入方法特征选择作为模型训练的一部分示例Lasso回归、决策树高效且准确但特定于模型总结表任务技术识别变量类型名义、有序、区间、比率总结数值数据均值、中位数、标准差、四分位距可视化数据直方图、箱线图、散点图处理缺失值删除、插补、预测处理异常值移除、封顶、调查缩放特征标准化、归一化降维主成分分析、奇异值分解选择特征过滤、包装、嵌入方法此笔记本使用关于汽车属性和燃油效率的假数据集说明数据准备的关键技术点。示例数据集 # 导入所需库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler from sklearn.impute import SimpleImputer, KNNImputer from sklearn.decomposition import PCA from sklearn.feature_selection import SelectKBest, f_regression, RFE from sklearn.linear_model import LinearRegression# 假数据集 data {car_name: [car_a, car_b, car_c, car_d, car_e, car_f],cylinders: [4, 6, 8, 4, 4, 8],displacement: [140, 200, 360, 150, 130, 3700],horsepower: [90, 105, 215, 92, np.nan, 220], # np (numpy - 数字Python - 用于科学计算的库。nan: 非数字/空值)weight: [2400, 3000, 4300, 2500, 2200, 4400],acceleration: [15.5, 14.0, 12.5, 16.0, 15.0, 11.0],model_year: [80, 78, 76, 82, 81, 77],origin: [1, 1, 1, 2, 3, 1],mpg: [30.5, 24.0, 13.0, 29.5, 32.0, 10.0] } df pd.DataFrame(data) dfcar_namecylindersdisplacementhorsepowerweightaccelerationmodel_yearoriginmpg0car_a414090.0240015.580130.51car_b6200105.0300014.078124.02car_c8360215.0430012.576113.03car_d415092.0250016.082229.54car_e4130NaN220015.081332.05car_f83700220.0440011.077110.0 数据类型 car_name名义分类cylinders, origin有序/分类displacement, horsepower, weight, acceleration, mpg比率数值model_year区间处理缺失值 # 1. 处理缺失值示例 print( 插补前的缺失值 ) print(df.isna().sum())# 均值插补 mean_imputer SimpleImputer(strategymean) df[horsepower_mean] mean_imputer.fit_transform(df[[horsepower]])# 基于组的插补 group_means df.groupby(cylinders)[horsepower].transform(mean) df[horsepower_group] df[horsepower].fillna(group_means)# KNN插补 knn_imputer KNNImputer(n_neighbors2) df[horsepower_knn] knn_imputer.fit_transform(df[[horsepower]])print(\n 插补后 ) df[[horsepower, horsepower_mean, horsepower_group, horsepower_knn]]插补前的缺失值 car_name 0 cylinders 0 displacement 0 horsepower 1 weight 0 acceleration 0 model_year 0 origin 0 mpg 0 dtype: int64 插补后 horsepowerhorsepower_meanhorsepower_grouphorsepower_knn090.090.090.090.01105.0105.0105.0105.02215.0215.0215.0215.0392.092.092.092.04NaN144.491.0144.45220.0220.0220.0220.0 处理异常值 # 2. 处理异常值示例 def detect_and_handle_outliers(df, column):# 计算四分位距Q1 df[column].quantile(0.25)Q3 df[column].quantile(0.75)IQR Q3 - Q1lower_bound Q1 - 1.5 * IQRupper_bound Q3 1.5 * IQR# 检测异常值outliers df[(df[column] lower_bound) | (df[column] upper_bound)]print(f在 {column} 中检测到 {len(outliers)} 个异常值)# 可视化前后对比plt.figure(figsize(12, 4))plt.subplot(1, 2, 1)sns.boxplot(ydf[column])plt.title(f原始 {column})# 封顶异常值df[f{column}_capped] np.where(df[column] upper_bound, upper_bound,np.where(df[column] lower_bound, lower_bound, df[column]))plt.subplot(1, 2, 2)sns.boxplot(ydf[f{column}_capped])plt.title(f封顶后的 {column})plt.tight_layout()plt.show()return dfdf detect_and_handle_outliers(df, displacement)在 displacement 中检测到 1 个异常值特征缩放标准化 # 3. 特征缩放示例 # 原始数据 numeric_cols [weight, acceleration, displacement] print(原始数据:) print(df[numeric_cols].head())# 标准化 scaler StandardScaler() df_std df.copy() df_std[numeric_cols] scaler.fit_transform(df[numeric_cols])# 最小-最大缩放 minmax MinMaxScaler() df_minmax df.copy() df_minmax[numeric_cols] minmax.fit_transform(df[numeric_cols])print(\n标准化数据 (均值0, 标准差1):) print(df_std[numeric_cols].head())print(最小-最大缩放数据 (范围 [0,1]):) print(df_minmax[numeric_cols].head())原始数据:weight acceleration displacement 0 2400 15.5 140 1 3000 14.0 200 2 4300 12.5 360 3 2500 16.0 150 4 2200 15.0 130标准化数据 (均值0, 标准差1):weight acceleration displacement 0 -0.820462 0.854242 -0.489225 1 -0.149175 0.000000 -0.443360 2 1.305280 -0.854242 -0.321054 3 -0.708580 1.138990 -0.481581 4 -1.044224 0.569495 -0.496869 最小-最大缩放数据 (范围 [0,1]):weight acceleration displacement 0 0.090909 0.9 0.002801 1 0.363636 0.6 0.019608 2 0.954545 0.3 0.064426 3 0.136364 1.0 0.005602 4 0.000000 0.8 0.000000箱线图可视化 import matplotlib.pyplot as plt import seaborn as snsplt.figure(figsize(8, 5)) sns.boxplot(datadf[[mpg, weight, acceleration]]) plt.title(数值特征的箱线图) plt.show()直方图 df[[acceleration]].hist(bins5, figsize(6, 4)) plt.title(加速直方图) plt.show()散点图 sns.scatterplot(xweight, ympg, datadf) plt.title(散点图重量 vs 每加仑英里数) plt.show()交叉表 pd.crosstab(df[origin], df[cylinders])cylinders468origin111221003100 降维主成分分析 # 4. 降维示例 # 准备PCA数据 X df[[weight, acceleration, displacement_capped]] y df[mpg]# 首先标准化数据 X_scaled StandardScaler().fit_transform(X)# 应用PCA pca PCA(n_components2) X_pca pca.fit_transform(X_scaled)# 创建主成分的新数据框 df_pca pd.DataFrame(dataX_pca, columns[PC1, PC2]) df_pca[mpg] y.values# 绘制结果 plt.figure(figsize(8, 6)) scatter plt.scatter(df_pca[PC1], df_pca[PC2], cdf_pca[mpg], cmapviridis) plt.xlabel(第一主成分) plt.ylabel(第二主成分) plt.colorbar(scatter, label每加仑英里数) plt.title(汽车特征的PCA) plt.show()print(f解释方差比例: {pca.explained_variance_ratio_}) print(f总解释方差: {sum(pca.explained_variance_ratio_):.2f}%)解释方差比例: [0.95929265 0.02632386] 总解释方差: 0.99%特征选择如果通过特征重要性技术发现 car_name 或 model_year 无关我们可能会删除它们。

查看全文

http://www.hkea.cn/news/14481587/