当前位置：首页 > news >正文

建设计公司网站要多少钱wordpress提交表单

news 2026/4/18 21:52:54

建设计公司网站要多少钱,wordpress提交表单,网站建立目录出错,广州知名网站建设公司赛题介绍建立站点充电量预测模型#xff0c;根据充电站的相关信息和历史电量数据#xff0c;准确预测未来某段时间内充电站的充电量需求。在赛题数据中#xff0c;我们提供了电动汽车充电站的场站编号、位置信息、历史电量等基本信息。我们鼓励参赛选手在已有数据的基础上…赛题介绍建立站点充电量预测模型根据充电站的相关信息和历史电量数据准确预测未来某段时间内充电站的充电量需求。在赛题数据中我们提供了电动汽车充电站的场站编号、位置信息、历史电量等基本信息。我们鼓励参赛选手在已有数据的基础上补充或构造额外的特征以获得更好的预测性能赛题任务根据赛题提供的电动汽车充电站多维度脱敏数据构造合理特征及算法模型预估站点未来一周每日的充电量。以天为单位属于典型的回归问题。数据集本赛题提供的数据集包含三张数据表。其中power_forecast_history.csv 为站点运营数据power.csv为站点充电量数据stub_info.csv为站点静态数据训练集为历史一年的数据测试集为未来一周的数据。以下是本次赛题数据集的字段说明数据集下载评估指标评估指标RMSE均方根误差均方根误差是预测值与真实值偏差的平方与观测次数n比值的平方根。衡量的是预测值与真实值之间的偏差并且对数据中的异常值较为敏感受异常值的影响更大所以要想好如何处理异常值上分。常用于评测回归任务常用来作为机器学习模型预测结果衡量的标准。与MSE的区别 MSE是真实值与预测值的差值的平方然后求和平均。通过平方的形式便于求导所以常被用作线性回归的损失函数。 MAE对异常值不敏感但它不能反映预测误差的分布情况。 RMSE放大了较大误差之间的差距此外RMSE计算后的结果与实际值的单位相同而MSE的结果是实际值单位的平方。因此如果我们要直观地了解模型的预测误差通常会使用RMSE作为指标。提交示例过拟合与欠拟合第一个欠拟合第二个正常第三个过拟合欠拟合欠拟合是指模型不能在训练集上获得足够低的误差。换句换说就是模型复杂度低模型在训练集上就表现很差没法学习到数据背后的规律。如何解决欠拟合欠拟合基本上都会发生在训练刚开始的时候经过不断训练之后欠拟合应该不怎么考虑了。但是如果真的还是存在的话可以通过增加网络复杂度或者在模型中增加特征这些都是很好解决欠拟合的方法。过拟合过拟合是指训练误差和测试误差之间的差距太大。换句换说就是模型复杂度高于实际问题模型在训练集上表现很好但在测试集上却表现很差。模型对训练集死记硬背记住了不适用于测试集的训练集性质或特点没有理解数据背后的规律泛化能力差为什么会出现过拟合现象造成原因主要有以下几种训练数据集样本单一样本不足。如果训练样本只有负样本然后那生成的模型去预测正样本这肯定预测不准。所以训练样本要尽可能的全面覆盖所有的数据类型。训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征忽略了真实输入和输出之间的关系。模型过于复杂。模型太复杂已经能够“死记硬背”记下了训练数据的信息但是遇到没有见过的数据的时候不能够变通泛化能力太差。我们希望模型对不同的模型都有稳定的输出。模型太复杂是过拟合的重要因素。如何解决过拟合要想解决过拟合问题就要显著减少测试误差而不过度增加训练误差从而提高模型的泛化能力。我们可以使用正则化Regularization方法。常用的正则化方法根据具体的使用策略不同可分为1直接提供正则化约束的参数正则化方法如L1/L2正则化2通过工程上的技巧来实现更低泛化误差的方法如提前终止(Early stopping)和Dropout3不直接提供约束的隐式正则化方法如数据增强等。正常拟合模型的正常拟合是指训练得到的模型可以从训练数据集上学习得到了泛化能力强、预测误差小的模型同时该模型还可以针对待测试的数据进行良好的预测获得令人满意的预测效果。三种情况在训练数据集上的预测误差的表现形式为欠拟合正常拟合过拟合而在测试集上的预测误差形式为欠拟合过拟合正常拟合。所以下面这张也是第一个欠拟合第二个正常拟合第三个过拟合在机器学习中以下哪些技术是数据清洗的相关技术 A去除重复数据 B处理缺失数据 C异常值处理 D数据标准化/归一化数据清洗是将重复、多余的数据筛选清除将缺失的数据补充完整将错误的数据纠正或者删除最后整理成为我们可以进一步加工、使用的数据。数据清洗的一般步骤分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理。在大数据生态圈有很多来源的数据ETL工具但是对于公司内部来说稳定性、安全性和成本都是必须考虑的。 baseline解读对于常见的时序问题我们可以采用历史平移、滑窗统计尽可能的提取时间特征等方法进行特征工程。增加工作日非工作日特征 df[weekday] df_copy[col].dt.weekday df[is_weekend] df[weekday].isin([5, 6]).astype(int) df[is_workday] (df[weekday] 5).astype(int)增加小时分钟特征 df_copy[prefix hour] df_copy[col].dt.hour df_copy[prefix minute] df_copy[col].dt.minute相对时间差特征 df[diff_from_start] (df_copy[col] - df_copy[col].iloc[0]).dt.days df[diff_to_end] (df_copy[col].iloc[-1] - df_copy[col]).dt.days构建了历史平移特征、差分特征、和窗口统计特征 1历史平移特征通过历史平移获取上个阶段的信息 2差分特征可以帮助获取相邻阶段的增长差异描述数据的涨减变化情况。在此基础上还可以构建相邻数据比值变化、二阶差分等 3窗口统计特征窗口统计可以构建不同的窗口大小然后基于窗口范围进统计均值、最大值、最小值、中位数、方差的信息可以反映最近阶段数据的变化情况。 # 合并训练数据和测试数据 df pd.concat([train_df, test_df], axis0).reset_index(dropTrue)# 历史平移 for i in range(7,36):df[fpower_shift{i}] df.groupby(id_encode)[power].shift(i)window_size 7# 历史平移差分特征 for i in range(1,4):df[fpower_shift7_diff{i}] df.groupby(id_encode)[power_shift7].diff(i)# 窗口统计 for win in [7,14,28,35,50,70]:df[fpower_win{win}_mean] df.groupby(id_encode)[power].rolling(windowwin, min_periods3, closedleft).mean().valuesdf[fpower_win{win}_median] df.groupby(id_encode)[power].rolling(windowwin, min_periods3, closedleft).median().valuesdf[fpower_win{win}_max] df.groupby(id_encode)[power].rolling(windowwin, min_periods3, closedleft).max().valuesdf[fpower_win{win}_min] df.groupby(id_encode)[power].rolling(windowwin, min_periods3, closedleft).min().valuesdf[fpower_win{win}_std] df.groupby(id_encode)[power].rolling(windowwin, min_periods3, closedleft).std().values# 历史平移窗口统计 for win in [7,14,28,35,50,70]:df[fpower_shift7_win{win}_mean] df.groupby(id_encode)[power_shift7].rolling(windowwin, min_periods3, closedleft).mean().valuesdf[fpower_win{win}_median] df.groupby(id_encode)[power].rolling(windowwin, min_periods3, closedleft).median().valuesdf[fpower_shift7_win{win}_max] df.groupby(id_encode)[power_shift7].rolling(windowwin, min_periods3, closedleft).max().valuesdf[fpower_shift7_win{win}_min] df.groupby(id_encode)[power_shift7].rolling(windowwin, min_periods3, closedleft).min().valuesdf[fpower_shift7_win{win}_sum] df.groupby(id_encode)[power_shift7].rolling(windowwin, min_periods3, closedleft).sum().valuesdf[fpower_shift7_win{win}_std] df.groupby(id_encode)[power_shift7].rolling(windowwin, min_periods3, closedleft).std().valueslgbm参数详解 # 定义lightgbm参数params {boosting_type: gbdt,#提升树的类型。值为 gbdt 表示梯度提升决策树objective: regression,#损失函数。这里是回归问题所以选用回归损失函数即 regression。metric: rmse,#评价指标。衡量模型性能的指标这里使用均方根误差RMSE作为评价指标。min_child_weight: 5,#一个叶子节点最小的样本权重和。用来控制过拟合。如果这个值过高则会导致欠拟合反之则会导致过拟合。num_leaves: 2 ** 5,#决策树上的叶子节点数。这个参数通常比较敏感其值越大模型越复杂容易过拟合。lambda_l2: 10,#L2 正则化系数。增加这个值可以减少模型的复杂度防止过拟合。feature_fraction: 0.8,#训练每棵树时使用的特征比例。设置该参数可以防止过拟合提高模型的泛化能力。bagging_fraction: 0.8,#构造每棵树所使用的数据比例通常选取比较小的值和 feature_fraction 一起使用可以控制模型的复杂度。bagging_freq: 4,#执行 bagging 操作的频率。设置为 0 表示不使用 bagging 操作。learning_rate: 0.05,#学习率。控制每次迭代调整的步长。如果设置的学习率过大则可能无法收敛如果设置的学习率过小则可能需要较长时间才能得到最终结果。seed: 2023,#随机种子。设定一个随机种子可以保证结果的可重复性。nthread : 16,#线程数。LGBM 中多线程并行计算提高了训练速度该参数用来指定线程数。verbose : -1,#是否打印调试信息。设置为 -1 时不打印任何信息。# device:gpu} lgbm参数详解 pandas_profiling简介 python库pandas_profiling这个库只需要一行代码就可以生成数据EDA报告。基于pandas的DataFrame数据类型可以简单快速地进行探索性数据分析对于数据集的每一列pandas_profiling会提供以下统计信息 1、概要数据类型唯一值缺失值内存大小 2、分位数统计最小值、最大值、中位数、Q1、Q3、最大值值域四分位 3、描述性统计均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数 4、最频繁出现的值直方图/柱状图 5、相关性分析可视化突出强相关的变量Spearman, Pearson矩阵相关性色阶图并且这个报告可以导出为HTML非常方便查看。对不太熟悉python数据分析的新手来说十分友好。安装 pip install pandas-profiling使用pandas_profiling生成数据探索报告 report pp.ProfileReport(data) report导出为html文件 report.to_file(report.html)“H3” 是一个用于地理空间索引和网格系统的开源库。它将地球表面划分为一系列分辨率逐渐变粗的六边形单元格每个单元格都有唯一的标识符称为 H3 地址。H3 地址可以表示不同级别的地理区域例如国家、城市、街区等。要将 H3 地址转换为地理坐标经度和纬度可以使用 H3 库中的函数安装 pip install h3-python示例代码 import h3h3_address 8928308280fffff # 示例 H3 地址coordinates h3.h3_to_geo(h3_address)latitude coordinates[0] longitude coordinates[1]print(Latitude:, latitude) print(Longitude:, longitude)数据探索 fromDatawhale直播一禧助教 df[new_date] pd.to_datetime(df[ds]* 100 df[ds_hour].astype(int), format%Y%m%d%H) df[ds_date] df[new_date].dt.date############################ 绘图函数 def my_plot(df, id_encode, start_date, end_date, groupby, predictFalse): # 绘制折线图fig plt.figure(figsize(20,10))df df.loc[(df[ds] start_date) (df[ds] end_date)]if id_encode -1:df df.loc[df[id_encode] id_encode]else:passif groupby hour:plt.plot(df[new_date], df[power], color blue)if predict True:plt.plot(df[new_date], df[power_pre], color red)try:plt.plot(df[new_date], df[temp_max], color brown)plt.plot(df[new_date], df[temp_min], color green)except:passelif groupby day:df_power df.groupby(by ds_date)[power].sum().reset_index()plt.plot(df_power[ds_date], df_power[power], color blue)if predict True:df_power_pre df.groupby(by ds_date)[power_pre].sum().reset_index()plt.plot(df_power_pre[ds_date], df_power_pre[power_pre], color red)# 添加标题和轴标签plt.title(Power vs Date)plt.xlabel(Date)plt.ylabel(Power)# 显示图形plt.show()我这里按照助教说的画了两个图 my_plot(df, id_encode-1, start_date20220401, end_date20230610, groupbyday)202301应该是春节期间大年30大家都回乡下城市的充电量下降 my_plot(df, id_encode-1, start_date20230301, end_date20230610, groupbyday)20230322是因为寒潮所以有所下降然后助教还说了可以将h3转换为经纬度但因为我这边不太懂暂时还没有尝试这种方法我这边使用sklearn库中的LabelEncoder类来对数据进行标签编码Label Encoding操作 from sklearn.preprocessing import LabelEncoder le LabelEncoder() train_df[h3] le.fit_transform(train_df[h3]) test_df[h3] le.fit_transform(test_df[h3])但是似乎效果不是特别好

查看全文

http://www.hkea.cn/news/14319661/