外贸一般在哪些网站,阿里云服务器租用价格表,杭州市建设银行网站,个人网页制作软件【Mowst 2024 ICLR】论文提出了一种新的图神经网络架构#xff0c;称为Mixture of weak and strong experts#xff08;Mowst#xff09;#xff0c;通过将轻量级的多层感知机#xff08;MLP#xff09;作为弱专家和现成的GNN作为强专家相结合#xff0c;以处理图中的节…【Mowst 2024 ICLR】论文提出了一种新的图神经网络架构称为Mixture of weak and strong expertsMowst通过将轻量级的多层感知机MLP作为弱专家和现成的GNN作为强专家相结合以处理图中的节点特征和邻域结构。引入了基于弱专家预测结果离散度的“置信度”机制以适应不同目标节点的专家协作。论文分析了置信函数对损失的影响并揭示了训练动态表明训练算法通过软分割图来鼓励专家的专门化。Mowst易于优化表达能力强计算成本与单一GNN相当在多个节点分类基准测试中显示出显著的准确性提升。
发表在2024年ICLR会议上作者学校Meta AI和University of Rochester引用量2。
ICLR会议简介全称International Conference on Learning Representations国际学习表征会议深度学习顶会。
查询会议 会伴https://www.myhuiban.com/ CCF deadlinehttps://ccfddl.github.io/
原文和开源代码链接
paper原文https://openreview.net/forum?idwYvuY60SdD开源代码https://github.com/facebookresearch/mowst-gnn 0、核心内容
现实的图包含(1)丰富的节点自特征和(2)邻域的信息结构在典型的设置中由GNN共同处理。
我们建议通过弱专家和强专家的混合Mowst来解耦这两种模式其中弱专家是一个轻量级的多层感知机MLP而强专家是一个现成的GNN。
为了使专家的协作适用于不同的目标节点我们提出了一种基于弱专家预测日志的离散度base on the dispersion of the weak expert’s prediction logits的“置信度”机制“confidence” mechanism。当节点的分类依赖于邻域信息或弱专家的模型质量较低时强专家在低置信度区域被有条件地激活。通过分析置信函数对损失的影响我们揭示了有趣的训练动力学我们的训练算法通过有效地生成图的软分裂来鼓励每个专家的专门化。此外我们的“confidence”设计对强专家施加了一个可取的偏好以受益于GNN更好的泛化能力。
Mowst易于优化并实现了强大的表达能力其计算成本与单一GNN相当。根据经验Mowst在4个主干GNN架构上在6个标准节点分类基准上显示了显著的精度提高包括同配图和异配图。
引自摘要 图Mowst模型的总体设计框架
整个系统由一个弱专家weak expert、一个强专家strong expert和一个门控模块组成gating module。由于门控模块的协调强弱专家之前出现了不同的协作行为。门控函数可以手动定义也可以自动学习通过一个额外的紧凑的MLP根据弱专家预测日志的离散度计算置信分数base on the dispersion of only the weak expert’s prediction logits。置信度得分在不同的目标节点上根据专家在局部图区域上的相对强度而不同。分数还直接控制了每个专家自己的日志如何组合到系统的最终预测中。 1、先验知识
① base on the dispersion of only the weak expert’s prediction logits是什么
base on the dispersion of only the weak expert’s prediction logits指的是基于弱专家在这个模型中是一个轻量级的多层感知器MLP的预测结果的分散程度。这里的“分散程度”dispersion是一个统计学术语用于衡量一组数值的分布范围或离散程度。在机器学习模型的上下文中它可以用来衡量模型预测的不确定性或信心水平。
具体来说在Mowst模型中弱专家MLP首先对节点进行预测生成一组预测结果logits这些结果可以被视为一个概率分布表示模型对不同类别的置信度。然后模型计算这个概率分布的分散度这通常可以通过方差或熵等统计量来衡量。
如果分散度较高意味着模型对其预测不是很有信心因为概率分布比较分散。如果分散度较低意味着模型对其预测非常有信心因为概率分布比较集中。
这个分散度被用来计算置信度confidence分数该分数决定了在最终预测中弱专家的预测结果应该被赋予多少权重。如果置信度分数较高表示弱专家的预测被信任那么它的预测结果将在最终的模型输出中占据较大比重如果置信度分数较低则表示强专家GNN的预测将被更多地依赖。
这种方法允许模型动态地根据每个节点的特定情况来调整不同专家的协作方式从而提高整体模型的性能和泛化能力。
② The training should minimize the expected loss incurred in inference训练节点应该尽量减少推理过程中产生的预期损失如何理解这句话
这句话的意思是在训练机器学习模型时应该尽量减少在推理Inference阶段预期会发生的损失loss。这里的“损失”通常指的是模型预测值与实际值之间的差异这种差异可以通过特定的损失函数来量化。在机器学习中模型训练的目标就是通过优化算法调整模型的参数使得这个损失函数的值最小化。
简单来说这句话强调了模型训练的一个重要目标确保模型在实际应用中即在推理阶段能够尽可能准确地预测或分类从而减少预测错误或分类错误带来的损失。
③ L M o w s t L_{Mowst} LMowst is fully differentiable L M o w s t L_{Mowst} LMowst是完全可微分的如何理解这句话
在数学和机器学习领域如果一个函数在某点可微分那么它在该点的导数存在这意味着函数在该点的局部可以用切线来近似。当一个函数是“完全可微分”的这通常意味着它不仅在某个点可微分而且在整个定义域内都可微分并且其导数也是连续的。
在深度学习的上下文中如果一个模型或其组成部分是完全可微分的这意味着可以通过反向传播算法来计算模型参数的梯度这是训练过程中优化模型的关键步骤。完全可微分的模型允许使用标准的梯度下降方法来更新参数从而最小化损失函数。
④ 什么是standard (n-1)-simplex, S n − 1 S_{n-1} Sn−1
在机器学习和统计学中标准(n-1)单纯形standard (n-1)-simplex经常用来表示概率分布因为概率分布的和必须为1且每个概率值必须是非负的。在这种情况下 S n − 1 S_{n-1} Sn−1可以用来表示一个n类分类问题中的概率分布其中 p i p_i pi表示第i类的预测概率且所有概率之和为1。 2、引言
① 研究发现图的不同部分可能出现不同的模式——同配模式和异配模式。
参考论文
局部同配和局部异配区域可能在一个图中共存《Graph Neural Networks with Heterophily》根据局部连通性图信号可以以不同的方式混合通过节点级分类进行量化《Breaking the Limit of Graph Neural Networks by Improving the Assortativity of Graphs with Local Mixing Patterns》图卷积迭代的次数应该根据每个目标节点周围邻域的拓扑结构进行调整《Node Dependent Local Smoothing for Scalable Graph Learning》
② 现有GNN的局限性许多被广泛使用的GNNs都有一个基本的局限性因为它们是基于图的全局属性而设计的。
例如
GCN和SGC使用全局拉普拉斯算子进行信号平滑GIN在所有目标节点上模拟具有相同k的k-hop子图同质检验GraphSAGE和GAT聚集了来自k跳邻居的特征同样具有全局k。
③ 结论通过在每个节点的基础上进行多样化对待来提高GNN的能力有很大的潜力。
④ 模型能力可以通过两种方式得到增强
1为单个GNN开发更高级的层架构目的是使模型能够自动适应不同目标节点的独特特征。
《How Attentive are Graph Attention Networks》《Finding the missing-halfGraph complementary learning for homophily-prone and heterophily-prone graphs》《On the expressive power of geometric graph neural networks》
2将现有的GNN模型纳入专家混合Mixture-of-ExpertsMoE系统考虑到MoE有效地改进了许多领域的模型能力。
《Adaptive mixtures of local experts》《GraphdiveGraph classification by mixture of diverse experts》《Mixture of expertsa literature survey》《GLaMEfficient scaling of language models with mixture-of-experts》《GShardScaling giant models with conditional computation and automatic sharding》
⑤ 本文的研究
在这项研究中我们遵循MoE的设计理念但后退一步混合了一个简单的多层感知机MLP和一个现成的GNN——这是传统MoE中看到的故意不平衡的组合。
其主要动机是MLP和GNN模型可以专门解决图中两种最基本的模态节点本身的特征及其邻域的结构。
MLP虽然比GNN弱得多但是在各种情况下都可以发挥重要作用。
例如在节点特征相似的同型区域利用MLP关注单个节点的丰富特征可能比通过GNN层聚合邻域特征更有效。相反在高度异配的区域信息传递可能会引入噪声可能造成的危害大于利。refer to《Beyond homophily in graph neural networksCurrent limitations and effective designs》
MLP专家可以帮助“清理”GNN的数据集使强大的专家能够专注于更复杂的节点这些节点的邻域结构为学习任务提供了有用的信息。 3、Mowst模型
① 整体模型
关键的挑战是设计混合模块考虑到不平衡专家之间的微妙互动。
一方面弱专家应谨慎激活以避免准确性下降。另一方面对于能够真正被MLP掌握的节点弱专家应该做出有意义的贡献而不是被其更强的对应专家所掩盖。 算法1是模型的推理预测阶段算法2是模型的训练阶段。在训练阶段训练节点应该尽量减少推理过程中产生的预期损失。
损失函数 训练策略
交替优化通过交替固定一个专家的参数并优化另一个专家的参数可以确保每个专家都能在不影响对方的情况下充分优化自己。置信度学习如果置信度函数C是可学习的那么在训练过程中也会更新它的参数。
总的来说Mowst的训练过程是一个迭代的、交替优化的过程旨在最小化整体损失同时通过置信度机制来平衡两个专家的贡献从而提高模型在节点分类任务中的性能。
② 协作行为
当优化公式1中的训练损失时置信度C会在一些节点上积累而在其他节点上减少。C的不同分布对应于两位专家可以专门化和协作的不同方式。
下面我们从理论上揭示了控制C值的三个因素自我特征信息的丰富度、两位专家之间的相对强度以及置信函数的形状。对专家的相对强度的分析也揭示了为什么基于confidence的门是有偏差的。由于C和MLP的损失都是MLP预测 p p p的函数我们分析了在给定一个固定GNN专家的情况下最小化 L M o w s t L_{Mowst} LMowst的最优 p p p。 定理2.4 定理2.4是论文中提出的一个理论结果它描述了在特定的优化问题中如何根据置信度函数C和损失函数L的性质来确定模型参数的最优值。
这个定理是关于Mowst模型中专家MLP和GNN的协作行为和训练动态的分析。
这个定理的直观理解是
当MLP的预测损失大于GNN的平均预测损失时MLP应该完全不参与预测这意味着我们完全信任GNN的预测。当MLP的预测损失等于GNN的平均预测损失时MLP可以参与预测但最终的预测可能完全由MLP或GNN决定。当MLP的预测损失小于GNN的平均预测损失时MLP应该参与预测并且其预测应该接近最优预测或者在置信度函数C的约束下足够接近 L μ α L_μ^α Lμα的水平集。
这个定理为Mowst模型的训练提供了理论支持说明了如何通过调整MLP和GNN的协作来优化整体模型的性能。它揭示了置信度函数C如何影响模型在不同情况下的预测行为以及如何通过训练动态来调整这种协作。
③ Mowst的一种变体 4、实验部分 5、参考资料
kimihttps://kimi.moonshot.cn/作者主页https://hanqingzeng.com/