之前一直在捣鼓一些有关点云非刚性配准的问题,现在转换了目标,开始研究网格模型的非刚性配准了。我主要是想要了解如何在保证网格表面平滑以及网格质量(比如说,不能有过于尖细的三角形)的情况下,来对source mesh朝着target mesh的形状进行变形。同时,我也想知道如何定义从source到target的所谓“距离”,也就是损失函数。我找来了一些论文,本篇博客是关于其中一篇发表在CVPR上的论文:3DN: 3D Deformation Network 的阅读笔记。
1. 方法
这篇文章提出的网络,简称为3DN,只改变顶点坐标,而不改变点之间的拓扑关系。输入有两部分,一个是source mesh,用$S=(V,E)$来表示,其中$V$是顶点集合,$E$是三角形的集合。另一个是source变形的参照对象$T$,即target,是一张二维的图像,或一个三维模型。我只想考虑target是三维模型的情况,此时$T$是一个三维点云,其点的数量为$N_T$。网络的输出是$S$中每个顶点的位移$O$。那么变形后的source mesh为$S=(V’,E)$,其中$V’ = V+O$。
3DN有一个source编码器和target编码器,用来学习source和target的全局特征,还有一个位移解码器,采用编码器的输出来求解形变。流程图如下:
编码器
编码器的结构参考了PointNet, 其输入的数据是点云,所以对于source mesh,首先从表面均匀地采样一些点,再将这些点送入编码器中。编码器会输出一个全局特征向量(global feature vector)。source和target的特征向量被拼接在一起之后送入解码器。
解码器
解码器通过学习函数$F(\cdot)$来预测每个点的形变。输入一个三维坐标$v$,$F$能够预测出位移$o$,最终我们可以得到变形后的坐标$v’ = v+o$。解码器的设计同样参照了PointNet,不过与PointNet不同的是,解码器将顶点坐标与特征向量连接到了一起(PointNet里用的是单个点的特征)。
损失函数
我们需要一个损失函数来衡量$S’$和$T$之间的距离(这是我想要了解的重点)。作者提出了一个Differentiable Mesh Sampling Operator(DSMO),用来从网格的表面均匀采样点。
用质心坐标来表示从一个三角面片上采样的点$p = w_1v_1+w_2v_2+w_3v_3$,其中$w_1+w_2+w_3 = 1$,那么变形之后该点对应的偏移量也应该按照同样的权重来算,即$o_p = w_1o_{v_1}+ w_2o_{v_2}+ w_3o_{v_3}$。这样在反向传播的时候,顶点的梯度可以用$g_{o_{v_i}} = w_ig_{o_{v_p}}$来简单计算。
此外,作者采用了chamfer和earth-mover距离来衡量$S’$的采样点云$PC$和$T$的采样点云$PC_T$之间的误差。其中chamfer距离就是$PC$中每个点到$PC_T$的最近距离以及$PC_T$中每个点到$PC$的最近距离的平方之和。而earth-mover距离对我而言是个新的概念,它需要求得一个$PC \rightarrow PC_T$的点到点的映射,使每对点之间的距离之和最小,这个最小的距离即为earth-mover距离。这两种距离对于不同的点密度具有健壮性,分别用$L_{CD}$和$L_{EMD}$来表示。
除了以上这些内容之外,我们还需要一些其他的loss来保证$S’$的质量,因此作者还提出了以下的三个loss:
对称损失 Symmtry loss:
很多人造的物体是有对称性的,但是他的mesh拓扑不一定是对称的,所以在从source mesh上采样点云的同时,作者还对$S$的镜像模型进行了采样,获得镜像点云$M(PC)$,并借助它来计算对称损失:
\[L_{sym}(PC,PC_T) = L_{CD}(M(PC),PC_T)+ L_{EMD}(M(PC),PC_T)\]说白了就是对$M(PC)$和$PC_T$计算chamfer距离和earth-mover距离,以此来保证变形后模型的对称性。然而我对这个地方有点疑惑,这个loss似乎只能应用于严格对称的物体,并且对称轴是已知的才可以。此外,就算原模型$S$是对称的,但是$T$不一定对称,万一$T$就是一侧大另一侧小,那这个loss应该会阻止$S$往正确的方向变形吧?总觉得采用这个loss起作用的前提条件有些许苛刻。
拉普拉斯损失 Mesh Laplacian loss: 这个没啥好讲的,目的是为了保证$S’$表面平滑,其计算方法如下:
\[L_{lap} = \sum_{i} \|Lap(S)-Lap(S')\|_2\]其中$Lap()$是拉普拉斯算子。
局部置换不变损失 Local permutation invariant loss: 这个loss的目的是,让模型在变形过程中不会和自身相交。一些老旧的变形方法,比如自由变形(在之前的博客里探讨过),则无法保证这一特性。为了实现这一特性,对于一个点$p$以及距离它$\delta$的邻居点,需要保证二者的距离不受变形的影响:
\[L_{LPI} = -\min(F(V+\delta) - F(V),0)\]即二者形变程度相同,其中$\delta$是一个很小的三维offset。如果我们将变形前后的模型分成很多很小的部分,可以发现在这些小的局部范围内,点和点之间的相对距离的变动其实很小,因此这个loss也有助于保持表面的平滑性。这个概念在另一篇论文阅读笔记里也有提到过。
以上就是所有的loss的定义。对于$L_{CD}$和$L_{EMD}$,需要分别计算source是网格顶点和采样点云这两种情况下的结果。最后获得七个loss,每个都赋予权重,加起来就获得了最终的损失函数$L$。
2. 实验结果
实验的细节就懒得记笔记了。以下是3DN与其他的网络的实验结果对比。
可以看出3DN的结果更加平滑,对称性更好。
3. 我的一些总结
这篇论文在神经网络结构上并没有花费太多笔墨,主要是借鉴了PointNet。作者对于loss的计算描述很详细,而这也是我最想要了解的部分,看完这篇论文收获还是挺多的。
有些其他论文会把三角面片的规则度(mesh regularity,我也不知道怎么表述,暂且就称之为规则度吧)也放入考虑范围内,比如就是让三角面片的三个角的大小差距不要太大,不要出现特别尖细的三角形等等,不过这篇论文似乎没有考虑到这一点。一个简单计算规则度的方法是,对于一个三角形的三条边,计算如下参数:
\[\gamma = \frac{4\sqrt 3 w}{l^2_1+l^2_2+l^2_3}\]其中$w$是三角形的面积。三角形越不规则,$\gamma$越小。当三角形为等边三角形时,$\gamma$达到最大值,为1。