您的位置:首页 > 新闻 > 热点要闻 > 网上赚钱彩票正规平台_广州从化网站制作公司_推广产品的软文怎么写_推广恶意点击软件怎样使用

网上赚钱彩票正规平台_广州从化网站制作公司_推广产品的软文怎么写_推广恶意点击软件怎样使用

2025/5/8 15:06:11 来源:https://blog.csdn.net/m0_60177079/article/details/143023167  浏览:    关键词:网上赚钱彩票正规平台_广州从化网站制作公司_推广产品的软文怎么写_推广恶意点击软件怎样使用
网上赚钱彩票正规平台_广州从化网站制作公司_推广产品的软文怎么写_推广恶意点击软件怎样使用

目录

一、概述

二、相关工作

1、3D表示

2、3D生成

3、三维基础模型

三、NeurCF

四、MeshXL

1、流程

2、损失

五、数据集

六、实验

1、模型参数量

2、 不同模型对比

3、Mesh生成的多样性

4、文本或图像到网格的生成

5、纹理生成


一、概述

        该论文介绍了一个生成式预训练的自回归模型家族MeshXL,利用大语言模型方法解决3D网格生成过程,并且可以作为下游任务的基础模型。(NIPS 2024)

(1)验证了显式神经坐标场NeurCF加上隐式神经嵌入的方式,是一种简答有效的大规模3D网格建模表示方式。

(2)提出一系列MeshXL,可以使用大语言模型来进行高保真三维网格生成,无需中间3D表示。

二、相关工作

1、3D表示

        点云:多传感器限制,捕捉离散点空间位置

        Mesh:三维空间中的一组多边形,点与边相连构成

        3DGS:表示三维空间中的离散空间分布,易于三维重建,渲染速度快。

        NeRF:多视图训练神经辐射场,灵活可扩展且渲染质量较高

        NeurCF:显式的3D坐标值域隐式神经嵌入的组合,可以直接用于3D网格的自回归生成,无需其他中间表示,相较于点云,体素表示来说更加高效,紧凑。

2、3D生成

        GAN网络->扩散模型->自回归方法

        AutoSDF和MeshGPT考虑学习离散的tokens,并使用VQVAE来重构一个3D表示。PolyGen考虑两个仅解码器的Transformer来预测多边形的顶点位置和连通性。

        该论文考虑提出一类预训练的Transformer来生成高保真三维Mesh。

3、三维基础模型

        该论文可以在大规模三维数据情况下,用于下游任务的基础模型,生成高保真的3D资产。

三、NeurCF

        NeurCF(Neural Coordinate Field,神经坐标场)是一个带有隐式嵌入的显式的三维表示方法。首先我们对于每一个离散的点p的坐标(x,y,z)都输入到坐标嵌入层\varepsilon中,得到新的嵌入坐标F(p)=(\varepsilon (x),\varepsilon (y),\varepsilon (z)),之后对于每一个k边构成的多边形面i都可以定义为顶点嵌入坐标的集合:\varepsilon_{face} (f^{i})=(F(p_1^{(i)}),...,F(p_k^{(i)}))。而每一个3D几何模型又是由多个多边形面构成,所以Mesh定义为若干多边形面的集合:\varepsilon _{mesh}(M)=(\varepsilon_{face}(f^{(i)}),...,\varepsilon_{face}(f^{(n)})),这也就是NeurCF的网格定义。

        所以对于一个Mesh的表示就是一个(n \cdot k \cdot 3)的tokens的flatten。

        相比于NeRF,NeurCF由于利用图结构建模,可以更加高效地表示平面表面,而NeRF的复杂度是(O^3)

四、MeshXL

1、流程

        首先将3D网格的NeurCF表示为序列,将3D网格生成问题转化为自回归问题,并使用基于OPT的decoder-only的Transformer作为基础模型,通过OPT来预测下一个坐标位置,并使用新的坐标位置和Transformer中的位置嵌入进行微调。

        在预测下一个token时,在输入序列前后加上<bos>和<eos>标记,并且推理式使用top-k或top-p采样策略输出

2、损失

        MeshXL损失:预测下一个token时的生成损失,目的是最小化下一个坐标的负对数似然损失。其中\theta是一个可学习参数,用来优化网格质量的。s是序列长度。

        X-to-mesh损失:表示由图像或文本特征生成3D网格模型的条件损失函数。其中 \theta仍然是可训练参数,s是三维网格序列,X是额外的条件信息(图像或文本)

五、数据集

        在论文中,数据集是依赖于ShapeNet,3D-FUTURE,Objaverse,Objaverse-XL的结合。

        预处理:包括对于网格面数小于800的模型,确保他们有对应的UV图(用于纹理生成),网格面数800到20000的模型使用平面简化模型降采样,丢弃不居中和占用画面面积小于10%的模型。

        另外生成网格-图像对,渲染每个3D网格的多视图图像,并且使用微调的SD模型对渲染图像进行数据增强,突出纹理。

六、实验

1、模型参数量

2、 不同模型对比

        性能指标

  • Coverage (COV): 用于量化生成的3D网格的多样性,越高越好。
  • Minimum Matching Distance (MMD): 计算生成集合和参考集合之间的平均距离,越小越好。
  • 1-Nearest Neighbor Accuracy (1-NNA): 直接量化生成集合和参考集合之间的质量和多样性,最优值为50%。
  • Jensen-Shannon Divergence (JSD): 直接评估3D网格的质量,越小越好。
  • Frechet Inception Distance (FID): 基于特征级别评估渲染图像的质量,越小越好。
  • Kernel Inception Distance (KID): 基于特征级别评估渲染图像的质量,越小越好。

3、Mesh生成的多样性

4、文本或图像到网格的生成

5、纹理生成

        之前三维模型面数800以内的派上用场了。

参考论文:MeshXL: Neural Coordinate Field forGenerative 3D Foundation Models

参考代码:GitHub - OpenMeshLab/MeshXL: [NeurIPS 2024] MeshXL: Neural Coordinate Field for Generative 3D Foundation Models, a 3D fundamental model for mesh generation

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com