网站建设应当注意,泰安 网站建设公司,西安网站推广慧创,2345网址大全设首页MLP-mixer是最近很流行的一种网络结构#xff0c;比起Transformer和CNN的节构笨重#xff0c;MLP-mixer不仅节构简单#xff0c;而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳#xff0c;PointMixer就是在保留了MLP-mixer优点的同时#xff0c;还可以…MLP-mixer是最近很流行的一种网络结构比起Transformer和CNN的节构笨重MLP-mixer不仅节构简单而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳PointMixer就是在保留了MLP-mixer优点的同时还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set, hierarchical-set的点云。PointMixer这偏论文还很好的证明了chanel-mixing MLP是比token-mixing MLP效果更好对称encoder和decoder结构能够更好的处理点云问题。
为了方便论文阐述做以下规定 P是点云的总和 X是点云特性的总和 Y是output特性的总和 pi是i点云的位置 xi是i点云相关的特性 yi是i点云output的特性 Mi是pi点周围邻居点的集合常表示为Mi kNN(P, pi)
PointNet: 使用kNN和最远点sampling算法使用不对称的encoder和decoder。PointNet网络不对整个点云直接分析而是locally的处理然后再整合在一起。 yi maxpooling(MLP(concat(xi, pi - pj)))j是Mi的成员
PointTransformer: 也是使用了kNN的方法 yi sum(softmax(MLP(W1(xi) - W2(xj) δ(pi - pj)))(W3(xj) δ(pi - pj))) W为linear transformer metricδ为positional encoding vector。
MLP-Mixer: MLP-mixer分为token-mix MLP和channel-mix MLP, MLP-Mixer使用K个tokens有C维features, tokens是将图片分割成小块。 第一步是token-mixing MLPs, 第二步时channel-mixing MLP, token mixing是混合空间轴和维度轴到空间轴channel-mixing是将空间信息转为维度和空间信息。 MLP-Mixer将CNN的两个任务切割开来不同位置的mix叫token-mixing同一位置不同channel的mix叫做channel-mixing。 X’ X (W2ρ(W1(Layernorm(X))T))T Y X’ W4ρ(W3Layernorm(X’)) W是MLPρ是GELU token-mix MLPs具有转置同变性所以点云的输入顺序特别重要。需要在token-mix前再加一层转置不变的网络。 并且MLP-mixer只能处理inter-set的点云还有很大的提升空间。 https://zhuanlan.zhihu.com/p/372692759
PointMixer: sj g2(concat(g1(xj); δ(pi - pj))); j属于Mi, g是channel-mix MLP δ是positional encoding vector yi sum(softmax(sj) * g(xj)); 这里的乘法的element-wise PointMixer的主要创新点是使用了positional embedding, 使用了softmax不使用token-mix MLP
为什么不使用token-mix token-mix MLP具有转置同变性的缺点而且token-mix只能使用固定数量的输入但是对于点云来说neighbor不是固定的要用聚类算法。
intra-set mixing 使用最传统的kNN
inter-set mixing 使用变种的query-kNN
hierarchical-set mixing 使用变种的hierarchical-kNN
对称性也表现在kNN的集合里面encoder和decoder的M集是完全颠倒的。