目录
一、概述
二、相关工作
1、3D表示
2、3D生成
3、三维基础模型
三、NeurCF
四、MeshXL
1、流程
2、损失
五、数据集
六、实验
1、模型参数量
2、 不同模型对比
3、Mesh生成的多样性
4、文本或图像到网格的生成
5、纹理生成
一、概述
该论文介绍了一个生成式预训练的自回归模型家族MeshXL,利用大语言模型方法解决3D网格生成过程,并且可以作为下游任务的基础模型。(NIPS 2024)
(1)验证了显式神经坐标场NeurCF加上隐式神经嵌入的方式,是一种简答有效的大规模3D网格建模表示方式。
(2)提出一系列MeshXL,可以使用大语言模型来进行高保真三维网格生成,无需中间3D表示。
二、相关工作
1、3D表示
点云:多传感器限制,捕捉离散点空间位置
Mesh:三维空间中的一组多边形,点与边相连构成
3DGS:表示三维空间中的离散空间分布,易于三维重建,渲染速度快。
NeRF:多视图训练神经辐射场,灵活可扩展且渲染质量较高
NeurCF:显式的3D坐标值域隐式神经嵌入的组合,可以直接用于3D网格的自回归生成,无需其他中间表示,相较于点云,体素表示来说更加高效,紧凑。
2、3D生成
GAN网络->扩散模型->自回归方法
AutoSDF和MeshGPT考虑学习离散的tokens,并使用VQVAE来重构一个3D表示。PolyGen考虑两个仅解码器的Transformer来预测多边形的顶点位置和连通性。
该论文考虑提出一类预训练的Transformer来生成高保真三维Mesh。
3、三维基础模型
该论文可以在大规模三维数据情况下,用于下游任务的基础模型,生成高保真的3D资产。
三、NeurCF
NeurCF(Neural Coordinate Field,神经坐标场)是一个带有隐式嵌入的显式的三维表示方法。首先我们对于每一个离散的点的坐标
都输入到坐标嵌入层
中,得到新的嵌入坐标
,之后对于每一个k边构成的多边形面
都可以定义为顶点嵌入坐标的集合:
。而每一个3D几何模型又是由多个多边形面构成,所以Mesh定义为若干多边形面的集合:
,这也就是NeurCF的网格定义。
所以对于一个Mesh的表示就是一个的tokens的flatten。
相比于NeRF,NeurCF由于利用图结构建模,可以更加高效地表示平面表面,而NeRF的复杂度是(O^3)
四、MeshXL
1、流程
首先将3D网格的NeurCF表示为序列,将3D网格生成问题转化为自回归问题,并使用基于OPT的decoder-only的Transformer作为基础模型,通过OPT来预测下一个坐标位置,并使用新的坐标位置和Transformer中的位置嵌入进行微调。
在预测下一个token时,在输入序列前后加上<bos>和<eos>标记,并且推理式使用top-k或top-p采样策略输出
2、损失
MeshXL损失:预测下一个token时的生成损失,目的是最小化下一个坐标的负对数似然损失。其中是一个可学习参数,用来优化网格质量的。
是序列长度。
X-to-mesh损失:表示由图像或文本特征生成3D网格模型的条件损失函数。其中 仍然是可训练参数,
是三维网格序列,
是额外的条件信息(图像或文本)
五、数据集
在论文中,数据集是依赖于ShapeNet,3D-FUTURE,Objaverse,Objaverse-XL的结合。
预处理:包括对于网格面数小于800的模型,确保他们有对应的UV图(用于纹理生成),网格面数800到20000的模型使用平面简化模型降采样,丢弃不居中和占用画面面积小于10%的模型。
另外生成网格-图像对,渲染每个3D网格的多视图图像,并且使用微调的SD模型对渲染图像进行数据增强,突出纹理。
六、实验
1、模型参数量
2、 不同模型对比
性能指标
- Coverage (COV): 用于量化生成的3D网格的多样性,越高越好。
- Minimum Matching Distance (MMD): 计算生成集合和参考集合之间的平均距离,越小越好。
- 1-Nearest Neighbor Accuracy (1-NNA): 直接量化生成集合和参考集合之间的质量和多样性,最优值为50%。
- Jensen-Shannon Divergence (JSD): 直接评估3D网格的质量,越小越好。
- Frechet Inception Distance (FID): 基于特征级别评估渲染图像的质量,越小越好。
- Kernel Inception Distance (KID): 基于特征级别评估渲染图像的质量,越小越好。
3、Mesh生成的多样性
4、文本或图像到网格的生成
5、纹理生成
之前三维模型面数800以内的派上用场了。
参考论文:MeshXL: Neural Coordinate Field forGenerative 3D Foundation Models
参考代码:GitHub - OpenMeshLab/MeshXL: [NeurIPS 2024] MeshXL: Neural Coordinate Field for Generative 3D Foundation Models, a 3D fundamental model for mesh generation