客户评价 网站建设,梵客家装,快站wordpress,丹阳网站建设公司TextCraft: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Text 论文原文#xff1a; https://arxiv.org/abs/2211.01427
论文的研究动机
DALL2已经在文本控制的图像生成上取得很好的效果#xff0c;但是基于文本控制的3d点云生成的研究还不太成熟#…TextCraft: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Text 论文原文 https://arxiv.org/abs/2211.01427
论文的研究动机
DALL2已经在文本控制的图像生成上取得很好的效果但是基于文本控制的3d点云生成的研究还不太成熟于是本文作者想要研究这个方向内容但是这时候作者发现了新的问题没有成熟的数据集因此作者想要利用clip的预训练模型来解决这个问题。
论文的具体思路
其实这个思路不困难就是整理本身有的东西本身有的东西包括
3d点云数据和视图对利用视图控制生成3d点云的网络
现在想要获得
利用文字控制生成3d点云的网络
想到clip
提供了一个提取出文字和图片的共用特征
所以只需要利用这个共用特征控制生成3d点云就可以在训练的阶段用“视图和3d模型对”训练在预测阶段用文字输入生成3d点云。
论文网络结构
总体网络图 第一部分训练这部分主要是找出来两个东西隐层表达、读入隐层表达输出3d模型的网络这样在之后只需要获得这个隐层表达就可以获得相对应的3d点云。 第二部分训练主要是用“视图和3d点云对”训练由视图生成隐层特征 第三部分增强隐层特征感觉这里就是丰富一下隐层特征增加生成的多样性生成网络类型的东西一般在低维度生成大方向高维度则是小细节这里应该就是在大方向确定的情况下丰富小细节。 接下来是预测阶段主要是把控制信息换成由文字产生的共有特征。