泉州教育平台网站建设,酒店电子商务网站策划书,网站建设3要素,建立子目录网站前面用五篇文章陆续学了HiPPO框架。 这里再进行一下总结。
总结
HiPPO#xff0c;高阶多项式投影#xff0c;high-order polynomial projection operators
为了解决从序列数据中建模和学习的问题#xff0c;尤其是长序列#xff0c;十万甚至百万长度的序列#xff0c;使…前面用五篇文章陆续学了HiPPO框架。 这里再进行一下总结。
总结
HiPPO高阶多项式投影high-order polynomial projection operators
为了解决从序列数据中建模和学习的问题尤其是长序列十万甚至百万长度的序列使用有界存储来学习整个累积历史的表示需要一种在线更新的方式。 HiPPO给出了一个通用的框架解决这个问题。作者将序列记忆视为在线函数近似的技术问题通过将序列投影到正交多项式OP的方法实现在线近似。论文提出了LegT、LagT、LegS三种时间度量方式分别表达对整个序列历史的学习权重。 框架HiPPO高阶多项式投影算子提供了将到在给定时间度量的正交多项式空间上的算子。通过分析几种时间度量函数以及不同的多项式基作者都推导获得了闭式常微分方程或线性递归允许在输入函数随时间变化时快速增量更新最优多项式近似值。而HiPPO框架推导的在线学习方程恰好符合动力学的SSM方程于是可以利用动力学方程的已有理论。
很多文章说“Mamba的发展是从SSM-HiPPO-S4-Mamba 演化过来”这种说法是不准确的。HiPPO论文在问题设置与方法定义中并未提及SSM。正如苏神所说“HiPPO 并没有一开始就假设系统必须是线性的而是从正交基逼近的角度反过来推出其系数的动力学满足一个线性 ODE 系统这样一来我们就可以确信只要认可所做的假设那么线性 ODE 系统的能力就是足够的而不用去担心线性系统的能力限制了你的发挥。”
个人总结针对序列数据的建模和学习HiPPO框架是一种序列记忆的统一框架通过投影到正交多项式进行序列学习同时用时间度量函数表达对序列历史的学习权重在给定时间度量下的正交多项式投影的推导最终推导出线性常微分方程的闭式解实现在线近似学习。 将SSM方程的矩阵A从随机矩阵A修改为上述HiPPO矩阵可以有效提升SSM在实践中的性能。
补充
《Mamba学习七HiPPO通用框架介绍》给出了傅里叶基的推导案例。 傅里叶级数在通信中经常使用作为一种时频变换手段主要用于信号的频域处理但是另一方面傅里叶级数展开也是一种有效的压缩方式。 因为在时域上连续的信号在频域必然是一个有限带宽的信号。从物理角度来说时域上连续意味着频率变化慢频域必然是有限的。既然是有限带宽就可以通过只关注变化的频率上的数值实现信号压缩。 而HiPPO的做法是针对正交多项式投影的系数取N个系数这个N是一个足够大的整数。我想或许更好的做法可能是只取变化的系数自适应的取系数而不是简单的取N个系数。