用别人家网站做跳转,网站如果实现微信支付,网站开发需要哪些工程师,怎么查百度竞价关键词价格目录 一、概述
二、相关工作
1、新视角合成
2、优化3D表示
3、可泛化的前馈方法
三、LVSM
1、总体结构
2、encoder-decoder
3、decoder-only
4、Loss 一、概述 该论文提出大视角合成模型LVSM#xff0c;基于Transformer方法#xff0c;用于场景中或对象级层次从稀…
目录 一、概述
二、相关工作
1、新视角合成
2、优化3D表示
3、可泛化的前馈方法
三、LVSM
1、总体结构
2、encoder-decoder
3、decoder-only
4、Loss 一、概述 该论文提出大视角合成模型LVSM基于Transformer方法用于场景中或对象级层次从稀疏视角或单视角作为输入进行可扩展和泛化的新视角合成。 提出了两种新颖的LVSM架构encoder-decoder LVSMdecoder-only LVSM。 encoder-decoder LVSM将输入图像编码到固定长度的潜在表示并从中解码新视角图像。 decoder-only LVSM直接将输入图像映射到新视角输出完全消除了中间场景表示减少了3D归纳偏差decoder-only的方法也实现了更高的质量、可扩展性和零样本泛化能力在PSNR指标上优于之前的SOTAGS-LRM1.5到3.5dB PSNR。 我觉得LVSM的最大特点在于依赖Transformer架构完全数据驱动的方法实现高质量新视角合成不需要再考虑几何纹理等问题这也需要进一步的思考。
二、相关工作
1、新视角合成 基于图像的渲染IBR早期一般使用基于图像的渲染使用代理几何并通过输入参考图像进行加权混合的方式Modeling and rendering architecture from photographs。光场方法从密集视图输入中建立4D多视函数切片Light field rendering。 上面两个方法属于20年前老祖级别近期随着卷积神经网络的发展将逐渐转变为基于学习的IBR方法来预测深度图或者渲染权重比如NeRF参数。另外由于要做更大的场景渲染所以考虑多视角立体重建。 而该论文做的事基于大场景真实数据的可泛化的先验来实现新视角合成。
2、优化3D表示 NeRF提出可微分的神经辐射场3D表示通过最小化渲染损失来重建场景。后续工作逐渐在渲染质量、优化速度、放宽输入条件等多方式来提升NeRF的性能。 DVGO通过将NeRF于体素信息相结合Point-NeRF提出基于点的NeRF表示Gaussian Splatting将3D点引入3DGS来提升渲染速度。 另外也有一些论文考虑使用稀疏体素体积分解哈希技术来降低空间复杂度。 我们的论文提出不需要3D先验和任何单一场景的优化过程的归纳偏差来实现LRM的新视角生成。
3、可泛化的前馈方法 3D归纳偏差3D Inductive Bias指在设计前馈网络时引入一些预定义的3D结构或渲染方程从而限制了模型的灵活性和泛化能力无法很好地适应更加复杂多样的场景。3D归纳偏差包括极线约束、平面扫描体积等3D特定先验尽管这些方法会在某些特定场景取得了一些进展但是限制了模型的潜在泛化能力和可扩展性。 可泛化的方法考虑通过NVS推理并使用神经网络训练场景来生成3D表示和新视角图像。 PixelNeRF、MVSNeRF、IBRNet网络考虑使用3D先验来实现可微分的3D渲染。另外考虑直接学习渲染函数的方法但被证实是不可扩展的且缺乏模型容量无法捕捉高频细节。SRT方法移除手工设计的3D表示而学习潜在表示但他采用的是一个不可扩展的模型Cross Att.而我们的模型使用完全基于Transformer的模型有效的学习新视角合成和最小化归纳偏差不需要学习潜在表示。 对于以往的方法通过引入3D归纳偏差而该论文的LVSM考虑完全消除3D归纳偏差直接从数据中学习渲染函数提高了模型的可扩展性和渲染质量。
三、LVSM LVSM分为两个部分encoder-decoder部分和decoder-only部分。 1、总体结构 首先对于输入图像使用Plucker射线对于每一个像素进行嵌入最后在分解为不重叠的patch中p个patch。之后将这组输入引入线性层得到输入token。 对于目标视图的Plucker光线通过相机内参和外参计算而来并且通过一个线性层得到目标视图的每一个patch的Plucker射线嵌入。 经过一个full-transformer来计算LVSM的输出。 之后通过线性层加unpatchify来恢复输出空间结构的新视角生成。 2、encoder-decoder
特殊字母含义 x输入图像token序列 x编码器处理后的输入token序列 y最终合成目标视图 z编码器处理后的中间潜在表示 z解码器更新后的潜在表示 e用于聚合输入token信息的可学习的潜在token是人为给定的 q目标视图中的plucker射线嵌入 对于encoder-decoder模型是需要潜在表示存在的而decoder-only不再需要潜在token序列。 3、decoder-only 4、Loss 损失函数由两部分组成MSE和权重的光感损失 参考项目LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias