当前位置: 首页 > news >正文

沈阳网站开发培训多少钱建设工程教育网论坛官网

沈阳网站开发培训多少钱,建设工程教育网论坛官网,网站关键字搜索功能,讯代理网站有效的数据准备对于构建强大的机器学习模型至关重要。本文档总结并阐述了为监督和非监督学习任务准备数据的关键技术。 1. 理解数据类型 有两种数据类型。定性数据描述对象的特征#xff0c;而定量数据描述对象的数量。 定性#xff08;分类#xff09;数据 名义#x…有效的数据准备对于构建强大的机器学习模型至关重要。本文档总结并阐述了为监督和非监督学习任务准备数据的关键技术。 1. 理解数据类型 有两种数据类型。定性数据描述对象的特征而定量数据描述对象的数量。 定性分类数据 名义无序的命名类别例如性别国家。 无法执行算术运算。使用独热编码或标签编码。 有序具有自然顺序的类别例如满意度低中高。 通常用整数映射编码保留顺序。 定量数值数据 区间具有有意义差异的数值数据但无真实零点例如摄氏温度。 可以计算均值、中位数、标准差。 比率具有真实零点的数值数据例如收入年龄。 所有算术运算有效。 离散与连续属性 离散可计数的值例如子女数量。连续范围内无限值例如身高体重。 2. 探索与总结数据 一旦从现实世界获取数据数据收集我们需要探索和总结数据数据分析。在这个阶段通常使用可视化来理解数据分布数据分散度量。 中心趋势度量 均值对异常值敏感。中位数对异常值鲁棒适用于偏态数据。众数出现频率最高的值。 分布度量 方差与标准差显示数据如何围绕均值分布。范围、四分位数、四分位距帮助检测异常值和数据偏态。 3. 数据可视化 可视化数据有很多方法。以下是一些常见的方法。 在示例中我们将使用 matplotlib 库来绘制它们。 箱线图 可视化五数概括最小值Q1中位数Q3最大值。突出显示超出 1.5 × 四分位距的异常值。 直方图 显示频率分布。帮助识别偏态、模态和分布范围。 散点图 用于双变量关系。揭示两个变量之间的相关性和模式。 交叉表 用于探索分类变量之间的关系。在矩阵中显示频率分布。 4. 数据质量问题与修复 处理缺失值和异常值是数据准备的重要步骤。现实世界的数据往往不完美。缺失数据、异常值和其他问题需要在此步骤中解决以实现有效的机器学习。 缺失值 原因调查未响应、手动输入错误、数据损坏。修复方法 删除移除缺失数据的行/列仅在安全的情况下。插补 均值/中位数数值众数分类基于组的插补例如按相似行 基于模型的估计使用预测建模或相似性函数。 删除通常在删除一些数据行不会损失太多信息时应用。这通常与 dropna() 方法相关。另一方面插补可能是一种更实际的方法通过为缺失数据提供人工值来保留重要数据属性同时不影响数据分布。 什么是插补 插补是用替代值替换缺失数据的过程。这很关键因为大多数机器学习算法无法直接处理缺失值。 常见的插补方法 均值/中位数插补用列的均值或中位数替换缺失值。 适用于无异常值的正态分布数据使用场景数据完全随机缺失时 基于组的插补用组的均值/中位数替换缺失值 适用于数据有意义的组示例根据汽车气缸数填充缺失的马力 KNN插补使用k近邻插补缺失值 适用于数据存在模式最准确但计算成本高 任意值插补用-999等值替换 适用于基于树的模型使用场景希望缺失值突出时 异常值 异常值是与其他观测值显著不同的数据点。可能由测量错误、数据输入错误或自然变异引起。 异常值的影响 可能使统计度量偏斜可能影响模型性能可能导致模型受极端值影响过大 检测方法 四分位距方法 计算Q125th百分位和Q375th百分位四分位距 Q3 - Q1下限 Q1 - 1.5*四分位距上限 Q3 1.5*四分位距超出这些界限的点被视为异常值 Z分数方法 计算Z分数z (x - 均值) / 标准差|z| 3 的点通常被视为异常值 处理技术 封顶Winsorization将异常值替换为最近的非异常值转换应用对数、平方根或其他转换移除如果异常值是错误或不具代表性单独建模为异常值创建单独的模型 5. 特征缩放 许多机器学习算法在特征具有相似尺度时表现更好或收敛更快。缩放还确保不同量级的特征不会主导模型学习。 标准化Z分数 x ′ x − μ σ x \frac{x - \mu}{\sigma} x′σx−μ​ 将数据中心化到均值为0单位方差。用于数据有异常值或正态分布时。 归一化最小-最大缩放 x ′ x − x min x max − x min x \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} x′xmax​−xmin​x−xmin​​ 将特征缩放到[0, 1]范围。对异常值敏感。 鲁棒缩放 使用中位数和四分位距公式(x - 中位数) / 四分位距适用于有异常值的数据 何时缩放 需要缩放的场景 基于距离的算法KNN、K均值、带RBF核的SVM神经网络正则化模型Ridge、Lasso主成分分析PCA 无需缩放的场景 基于树的模型决策树、随机森林、XGBoost朴素贝叶斯 6. 降维 减少特征数量同时保留重要信息。 为什么降维 维度灾难随着维度增加数据变得稀疏减少过拟合更少的特征意味着更少的参数需要学习加速训练减少计算需求改进可视化更容易可视化2D或3D数据 主成分分析PCA 将数据投影到最大化方差的主成分上步骤 标准化数据计算协方差矩阵计算特征向量和特征值选择前k个特征向量将数据转换到新空间 何时使用 当特征相关时用于可视化在训练具有许多特征的模型之前用于噪声减少 奇异值分解SVD 矩阵分解方法用于识别潜在特征。 7. 特征选择 选择最相关的特征子集以 减少过拟合提高模型可解释性降低计算成本 特征类型 无关无预测能力。冗余与其他特征重复信息。 方法 过滤方法 根据统计测试选择特征示例相关系数、卡方检验快速但不考虑特征交互 包装方法 使用特征子集训练模型示例递归特征消除RFE计算成本高但更准确 嵌入方法 特征选择作为模型训练的一部分示例Lasso回归、决策树高效且准确但特定于模型 总结表 任务技术识别变量类型名义、有序、区间、比率总结数值数据均值、中位数、标准差、四分位距可视化数据直方图、箱线图、散点图处理缺失值删除、插补、预测处理异常值移除、封顶、调查缩放特征标准化、归一化降维主成分分析、奇异值分解选择特征过滤、包装、嵌入方法 此笔记本使用关于汽车属性和燃油效率的假数据集说明数据准备的关键技术点。 示例数据集 # 导入所需库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler from sklearn.impute import SimpleImputer, KNNImputer from sklearn.decomposition import PCA from sklearn.feature_selection import SelectKBest, f_regression, RFE from sklearn.linear_model import LinearRegression# 假数据集 data {car_name: [car_a, car_b, car_c, car_d, car_e, car_f],cylinders: [4, 6, 8, 4, 4, 8],displacement: [140, 200, 360, 150, 130, 3700],horsepower: [90, 105, 215, 92, np.nan, 220], # np (numpy - 数字Python - 用于科学计算的库。nan: 非数字/空值)weight: [2400, 3000, 4300, 2500, 2200, 4400],acceleration: [15.5, 14.0, 12.5, 16.0, 15.0, 11.0],model_year: [80, 78, 76, 82, 81, 77],origin: [1, 1, 1, 2, 3, 1],mpg: [30.5, 24.0, 13.0, 29.5, 32.0, 10.0] } df pd.DataFrame(data) dfcar_namecylindersdisplacementhorsepowerweightaccelerationmodel_yearoriginmpg0car_a414090.0240015.580130.51car_b6200105.0300014.078124.02car_c8360215.0430012.576113.03car_d415092.0250016.082229.54car_e4130NaN220015.081332.05car_f83700220.0440011.077110.0 数据类型 car_name名义分类cylinders, origin有序/分类displacement, horsepower, weight, acceleration, mpg比率数值model_year区间 处理缺失值 # 1. 处理缺失值示例 print( 插补前的缺失值 ) print(df.isna().sum())# 均值插补 mean_imputer SimpleImputer(strategymean) df[horsepower_mean] mean_imputer.fit_transform(df[[horsepower]])# 基于组的插补 group_means df.groupby(cylinders)[horsepower].transform(mean) df[horsepower_group] df[horsepower].fillna(group_means)# KNN插补 knn_imputer KNNImputer(n_neighbors2) df[horsepower_knn] knn_imputer.fit_transform(df[[horsepower]])print(\n 插补后 ) df[[horsepower, horsepower_mean, horsepower_group, horsepower_knn]]插补前的缺失值 car_name 0 cylinders 0 displacement 0 horsepower 1 weight 0 acceleration 0 model_year 0 origin 0 mpg 0 dtype: int64 插补后 horsepowerhorsepower_meanhorsepower_grouphorsepower_knn090.090.090.090.01105.0105.0105.0105.02215.0215.0215.0215.0392.092.092.092.04NaN144.491.0144.45220.0220.0220.0220.0 处理异常值 # 2. 处理异常值示例 def detect_and_handle_outliers(df, column):# 计算四分位距Q1 df[column].quantile(0.25)Q3 df[column].quantile(0.75)IQR Q3 - Q1lower_bound Q1 - 1.5 * IQRupper_bound Q3 1.5 * IQR# 检测异常值outliers df[(df[column] lower_bound) | (df[column] upper_bound)]print(f在 {column} 中检测到 {len(outliers)} 个异常值)# 可视化前后对比plt.figure(figsize(12, 4))plt.subplot(1, 2, 1)sns.boxplot(ydf[column])plt.title(f原始 {column})# 封顶异常值df[f{column}_capped] np.where(df[column] upper_bound, upper_bound,np.where(df[column] lower_bound, lower_bound, df[column]))plt.subplot(1, 2, 2)sns.boxplot(ydf[f{column}_capped])plt.title(f封顶后的 {column})plt.tight_layout()plt.show()return dfdf detect_and_handle_outliers(df, displacement)在 displacement 中检测到 1 个异常值特征缩放标准化 # 3. 特征缩放示例 # 原始数据 numeric_cols [weight, acceleration, displacement] print(原始数据:) print(df[numeric_cols].head())# 标准化 scaler StandardScaler() df_std df.copy() df_std[numeric_cols] scaler.fit_transform(df[numeric_cols])# 最小-最大缩放 minmax MinMaxScaler() df_minmax df.copy() df_minmax[numeric_cols] minmax.fit_transform(df[numeric_cols])print(\n标准化数据 (均值0, 标准差1):) print(df_std[numeric_cols].head())print(最小-最大缩放数据 (范围 [0,1]):) print(df_minmax[numeric_cols].head())原始数据:weight acceleration displacement 0 2400 15.5 140 1 3000 14.0 200 2 4300 12.5 360 3 2500 16.0 150 4 2200 15.0 130标准化数据 (均值0, 标准差1):weight acceleration displacement 0 -0.820462 0.854242 -0.489225 1 -0.149175 0.000000 -0.443360 2 1.305280 -0.854242 -0.321054 3 -0.708580 1.138990 -0.481581 4 -1.044224 0.569495 -0.496869 最小-最大缩放数据 (范围 [0,1]):weight acceleration displacement 0 0.090909 0.9 0.002801 1 0.363636 0.6 0.019608 2 0.954545 0.3 0.064426 3 0.136364 1.0 0.005602 4 0.000000 0.8 0.000000箱线图可视化 import matplotlib.pyplot as plt import seaborn as snsplt.figure(figsize(8, 5)) sns.boxplot(datadf[[mpg, weight, acceleration]]) plt.title(数值特征的箱线图) plt.show()直方图 df[[acceleration]].hist(bins5, figsize(6, 4)) plt.title(加速直方图) plt.show()散点图 sns.scatterplot(xweight, ympg, datadf) plt.title(散点图重量 vs 每加仑英里数) plt.show()交叉表 pd.crosstab(df[origin], df[cylinders])cylinders468origin111221003100 降维主成分分析 # 4. 降维示例 # 准备PCA数据 X df[[weight, acceleration, displacement_capped]] y df[mpg]# 首先标准化数据 X_scaled StandardScaler().fit_transform(X)# 应用PCA pca PCA(n_components2) X_pca pca.fit_transform(X_scaled)# 创建主成分的新数据框 df_pca pd.DataFrame(dataX_pca, columns[PC1, PC2]) df_pca[mpg] y.values# 绘制结果 plt.figure(figsize(8, 6)) scatter plt.scatter(df_pca[PC1], df_pca[PC2], cdf_pca[mpg], cmapviridis) plt.xlabel(第一主成分) plt.ylabel(第二主成分) plt.colorbar(scatter, label每加仑英里数) plt.title(汽车特征的PCA) plt.show()print(f解释方差比例: {pca.explained_variance_ratio_}) print(f总解释方差: {sum(pca.explained_variance_ratio_):.2f}%)解释方差比例: [0.95929265 0.02632386] 总解释方差: 0.99%特征选择 如果通过特征重要性技术发现 car_name 或 model_year 无关我们可能会删除它们。
http://www.hkea.cn/news/14481587/

相关文章:

  • 个人网站有哪些平台做网上商城网站
  • 做网站是不是要有数据库旅游网络推广怎么做
  • 江苏广泽建设有限公司网站vip影视网站如何做app
  • 装饰公司怎么做网站做网站的电脑自带软件是什么
  • aspcms网站地图模板长沙建企聘企业管理有限公司
  • 公司做网站自己注册域名工程项目建设程序
  • 外贸网站图片素材线上推销的方法
  • 计算机网站开发职业定位安阳市建设工程招标投标协会网站
  • 福建省网站建设方案书烟台卓通网络科技有限公司
  • 国外精品成品网站1688天津网站建设的公司哪家好
  • 继续接入备案 增加网站 区别中小企业融资服务平台
  • 什么网站可以做线上小游戏网站费用多少钱一年
  • 广东高端网站设计公司单机多wordpress
  • 中国建设银行培训网站徐州企业建站
  • 佛山网站维护个人网站有什么缺点
  • 网站seo综合诊断六安马启兵胡冰倩婚礼
  • 建立企业网站的技能郑州网站建设定制开发
  • 驻马店营销型网站建设优化推广怎样加强文化建设
  • 黄页网站大全免费网上开店卖货流程
  • 做网站多少钱_西宁君博优选大埔建设工程交易中心网站
  • 网站引流是什么意思wordpress博客增加音乐页面
  • 建站网址做学术用的网站
  • 上海市门户网站怎么创建自己的网址
  • 简约的网站设计做网站推广有用吗
  • 怎么用ps做静态网站上线后wordpress后台无法登陆
  • jsp做网站前端实例在本地做改版如何替换旧网站会影响百度收录吗
  • 怎么免费建商城网站吗网站建设的想法和意见
  • 杭州网站建设浙江网站推广软件工具
  • 网站设计案例欣赏网站建设内容保障制度
  • 杭州精品网站建设公司上海野猪seo