公司注册网站需要什么条件,建筑工人找活正规平台,小荷特卖的网站谁做的,沈阳seo哪家公司1: 问题描述与要求
《纽约时报》要求您对本文件中的结果进行分析#xff0c;以回答几个问题。
问题1#xff1a;报告结果的数量每天都在变化。开发一个模型来解释这种变化#xff0c;并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。这个词的任何属性是否会…1: 问题描述与要求
《纽约时报》要求您对本文件中的结果进行分析以回答几个问题。
问题1报告结果的数量每天都在变化。开发一个模型来解释这种变化并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。这个词的任何属性是否会影响报告的在困难模式下播放的分数的百分比如果是这样如何如果不是为什么不呢
问题2对于未来日期的给定未来解决方案词开发一个模型使您能够预测报告结果的分布。换句话说预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。哪些不确定性与您的模型和预测相关举一个你对2023年3月1日EERIE这个词的预测的具体例子。你对你的模型的预测有多自信
问题3开发并总结一个模型来按难度对解决方案单词进行分类。识别与每个分类关联的给定词的属性。使用您的模型EERIE这个词有多难讨论分类模型的准确性。
问题4列出并描述这个数据集的其他一些有趣的特征。
2: 解题思路和分析结果详解版
针对问题1
思路该问题主要是预测一个序列的变化趋势而且该数据的变化趋势是统计的每天的数据所以可认为是一个时间序列。数据的波动如下 待预测数据的波动情况
分析该数据的随时间的变化趋势可以发现是先上升、然后在下降的趋势比较符合一个热点产生后迅速得到关注然后在逐渐降低热度最后关注度保持稳定的情况。
针对该数据中末尾的最低点如何处理该点可能是正确的数据也可能是错误的比如录入错误。所以可以做处理也可以不错处理。处理方法最简单的方法是使用最低点前后Nn1,2,...个数值的均值进性改进。
针对序列的预测方法
1时间序列累预测方法建议忽略到前半段对下降的趋势进行时间序列建模与分析也可用群不数据可能效果较好。模型可以是ARIMA、prophet等预测算法prophet效果会好于ARIMA。 prophet算法预测
2考虑非线性回归方程可以使用全部的数据建立也可以使用数据下降趋势的后半段。 非线性回归方程
对于分析词的任何属性是否会影响报告的在困难模式下播放的分数的百分比的情况。主要的检验方法就是单因素方差分析而且也要对词语一行清洗与与处理的改正操作。
针对问题2
目的1: 预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。
目的2: 对2023年3月1日EERIE这个词进行预测。
该问题是一个典型的有监督的数据回归问题可以使用的方法有很多而且针对数据的情况可以先对数据进行特征工程可以使用的特征例如时间信息、每个位置的字母信息、词的属性信息等。可使用的预测算法也很多例如决策树、随机森林、GBDT、SVM、神经网络等。经过我的验证使用随机森林或者GBDT的预测效果较好。
在数据与处理操作阶段可以剔除一个累计正确率较离谱的样本入下面的图所示 累计正确率
对2023年3月1日EERIE这个词一个可以参考的预测结果为
(1, 2, 3, 4, 5, 6, X) 的相关百分比预测值分别为 (1, 5, 17, 32, 27, 12, 3)
针对问题3
目的1: 按难度对解决方案单词进行分类并且根据单词的相关特征为分类结果进行定级。
目的2: 对2023年3月1日EERIE这个词进行预测。
该问题属于一个无监督的聚类问题。而且针对该问题进行聚类是使用的特征很关键。可以使用(1, 2, 3, 4, 5, 6, X) 的相关百分比作为特征建立聚类模型而且聚类的算法有很多例如K均值、K中值、模糊聚类、系统聚类等。而且聚类的数量也有讲究。经过我的详细研究聚类为3类可能效果跟好一些。 聚了i结果可视化
聚类模型确定好后对EERIE这个词进行预测即可。
针对问题4
该问题是一个开放性的问题可以进行一些数据可视化分析等便于发现数据的关系。并且可以结合前面三问的到的结果进行分析。例如使用关联规则可以发现单词中有哪些字母的情况下属于哪个难度类别等。 发现的一些规则
总结
前面的一些分析都是本人使用Python对数据一步步分析得出的一些经验供大家参考并不能完全保证是正确的。数学建模本身就是开放性问题这里知识抛砖引玉。