建设带数据搜索的网站,免费 成品模板网站,mufen wordpress,app案例网站以下为2023美国大学生数学建模竞赛C题思路解析#xff08;含代码数据可视化#xff09;规则#xff1a;猜词#xff0c;字母猜对#xff0c;位置不对为黄色#xff0c;位置对为绿色#xff0c;两者皆不对为灰色。困难模式下的要求#xff1a;对于猜对的字母#xff08…以下为2023美国大学生数学建模竞赛C题思路解析含代码数据可视化规则猜词字母猜对位置不对为黄色位置对为绿色两者皆不对为灰色。困难模式下的要求对于猜对的字母绿色和灰色下一步必须使用要求报告结果的数量每天都在变化。开发一个模型来解释这种变化并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。单词的任何属性是否会影响在硬模式下播放的报告分数百分比如果是怎么办如果没有为什么不呢对于给定的未来解决方案单词在未来的日期开发一个模型使您能够预测报告结果的分布。换句话说预测未来日期123456X的相关百分比。你的模型和预测有哪些不确定性举一个具体的例子说明你对2023年3月1日EERIE一词的预测。你对模型的预测有多自信 开发并总结一个模型根据难度对解决方案单词进行分类。识别与每个分类相关的给定单词的属性。使用你的模型EERIE这个词有多难讨论分类模型的准确性。 列出并描述此数据集的一些其他有趣的功能。 最后在给《纽约时报》拼图编辑的一到两页信中总结你的结果。结果每天都在变化的原因是否工作日人们尝试的意愿有多大新增一列为是否为工作日或者判断为周几 昨天或者前几天的难度对于游玩心态的影响虽然尝试次数这里使用的是百分比但是总分数与困难模式下的分数为具体的值尝试的人的数量不同则总分不同。单词的难度包括长度重复字母的数量词性等 长度是固定的不需要考虑存在的问题对于同一个字母的多次使用他是怎么进行显示的比如我输入了全是A的情况他显示的是除了对的位置是绿色其他全是黄色还是其他的什么情况 单词是否为常见词或者和常见词的相似度在此基础上就需要常见词库以及单词相似度度量 需要预测的东西 不同尝试次数的百分比分布分数区间困难的分数import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetimeplt.rcParams[font.sans-serif][SimHei] #设置字体
plt.rcParams[axes.unicode_minus]False #该语句解决图像中的“-”负号的乱码问题df pd.read_excel(Problem_C_Data_Wordle.xlsx, header1)
dfdf[df.columns[1:]]
df.head()预处理百分比之和可能不等于1所以对其进行归一化 按照Contest Number对整个表进行升序排列 判断当前日期是否为周末为周几 统计单词中字母个数重复出现的字母算一次 对单词进行词性标注df pd.read_excel(Problem_C_Data_Wordle.xlsx, header1)
dfdf[df.columns[1:]]
# 对尝试次数进行归一化使其结果和等于100
df df.sort_values(byContest number, ignore_indexTrue)
percent df[df.columns[5:]].sum(axis1)
for column in df.columns[5:]:df[column]df[column]/percent*100
# 判断当前日期为周几周一为0依次增加
df[week]df[Date].apply(lambda x:x.weekday())
df[is_weekend] df[week].apply(lambda x:x4)
# 统计单词中字母的个数
df[word_len] df[Word].apply(lambda x:len(set(x)))
# 对单词进行词性标注
df[tag] df[Word].apply(lambda x:nltk.pos_tag(nltk.word_tokenize(x))[0][1])
df.head() 1 第一题第一小问Q报告结果的数量每天都在变化。开发一个模型来解释这种变化并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。首先判断是否与周几有关如果有则将该参数加入模型中如果没有则不加入使用时间预测模型或者二次函数训练使用留一法等交叉验证方法得到关于模型准确率的描述。第二小问Q单词的任何属性是否会影响在硬模式下播放的报告分数百分比如果是怎么办如果没有为什么不呢A 任何属性可以包括唯一字母的数量单词的词性常见度字母的词频差异度分析相关性分析 分析整体的星期几对得分均值的影响plt.scatter(df[Contest number], df[Number of reported results])
plt.title(得分数-编号分布图)
plt.show()weeks []
for week in range(7):df1 df[df[week]week]weeks.append(df1[Number of reported results].mean())
plt.scatter([i1 for i in range(7)], weeks)
plt.plot([i1 for i in range(7)], [df[Number of reported results].mean() for i in range(7)])
plt.title(周一到周日每天得分均值与总均值图)
# 其中直线为总均值图散点图为每天的
plt.show()# 整体得分与星期几之间的相关性
np.corrcoef(df[week], df[Number of reported results])可以看到在整个时间段中星期几与得分情况的相关性不大甚至可以说不相关。取得分总体趋于稳定后的区域判断星期几对得分的影响以上仅为第一问小部分思路后续完善剩余部分思路和其他全网具体配套代码、参考论文以及其他题目思路可以点击文末群名片获取