个人网站主机的配置,启东网站建设,电子商务网站建设实训 报告,网站建设企业谁家好我用AI做数据分析之四种堆叠聚合模型的比较
这里AI数据分析不仅仅是指AI生成代码的能力#xff0c;我想是测试AI数据分析方面的四个能力#xff0c;理解人类指令的能力、撰写代码的能力、执行代码的能力和解释结果的能力。如果这四个能力都达到了相当的水准#xff0c;才可…我用AI做数据分析之四种堆叠聚合模型的比较
这里AI数据分析不仅仅是指AI生成代码的能力我想是测试AI数据分析方面的四个能力理解人类指令的能力、撰写代码的能力、执行代码的能力和解释结果的能力。如果这四个能力都达到了相当的水准才可以说真正实现了AI数据分析。而目前AI作为IDE插件的形式只能说是半自动的AI数据分析。
之前测试过程中AI在数据清洗方面包括更改列名、寻找录入错误等方面体现出了优于一般工具的表现展现了良好地对任务的理解能力和对表格的处理能力没有涉及撰写代码等能力。
目的
既然有了AI的辅助我们需要做一些自己能力之上的事情之前自己对堆叠聚合模型有了解但是了解不多且没有用Python进行过编码在相关知识和编码能力上都不能完成对各种堆叠聚合模型的测试和比较所以这次定的目标是对“常见堆叠聚合模型的测试比较”。
背景
堆叠聚合模型Stacking Aggregation Model也被简称为 Stacking 模型是一种高级的集成学习技术。它的核心思想是将多个不同的基础模型如决策树、逻辑回归、神经网络等的预测结果进行二次建模组合 。在这个过程中第一层由多个不同的基础模型组成这些基础模型在训练数据上进行训练然后对测试数据做出预测。这些预测结果会被当作新的特征输入到第二层的模型通常称为元模型中进行训练和预测。通过这种方式Stacking 模型能够综合利用各个基础模型的优势挖掘出数据中更复杂的模式从而有可能获得比单个模型更好的预测性能。
基础模型选择策略尽量选择多样化的基础模型比如线性模型如线性回归、逻辑回归与非线性模型如决策树、支持向量机相结合。不同类型的模型对数据的理解和捕捉模式的能力不同组合在一起可以覆盖更广泛的特征空间。例如在一个房价预测任务中线性回归可以捕捉房价与房屋面积等简单线性关系而决策树则能发现不同区域、房屋类型等复杂条件下的房价规律。 交叉验证策略在训练 Stacking 模型时为了避免过拟合和更有效地利用数据常使用交叉验证。以 k 折交叉验证为例将训练数据分成 k 份每次用 k - 1 份数据训练基础模型然后对剩下的 1 份数据进行预测。这样重复 k 次就可以得到所有训练数据的预测结果这些结果作为元模型的训练数据。这种方式确保了基础模型的预测结果是基于未见过的数据提高了模型的泛化能力。 元模型选择策略元模型的选择很关键它需要能够有效整合基础模型的预测信息。常用的元模型有逻辑回归、决策树、神经网络等。如果基础模型的预测结果之间存在复杂的非线性关系神经网络可能是更好的选择若希望模型有较好的可解释性逻辑回归或决策树可能更合适。比如在一个信用风险评估中如果只需要简单判断风险高低逻辑回归作为元模型就可以清晰地展示各基础模型预测结果对最终风险判断的影响权重。
结果
AI推荐了四种常见的堆叠聚合模型的组合分别是 组合1 logisticbase decision treebase logistic(meta) 组合2logisticbase decision treebase neural network(meta) 组合3 SVCbase KNNbase logistic(meta) 组合4 SVCbase KNNbase neural network(meta) 另外使用AI形成了分析的基础代码代码质量还是可以用到的库比较单一主要是用scikit-learn中的代码
但是AI在执行代码方面遇到问题显示内核读取失败“kernel iopub read failed ”看来AI在数据执行方面有一定的局限性之前还遇到一个执行问题是没有相应的库。
结果是在给定的数据集上组合1的效果最佳但是在不同的数据集上可能有不同的表现。 用AI解释结果是没问题的解释仔细也都对。
最后
AI数据分析需要的四个能力中代码执行部分是短板但是借助AI我们已经能做一些能力之上的事情基础的事情AI已经能做了把AI这些基础的能力整合起来规划一些多步骤的任务说明一定的问题可能更有意义。 项目代码https://www.heywhale.com/mw/project/67abfca747828d409e8090ea