3d拓扑网格使用方法（一文教会你三维网格物体识别）

雷锋网 AI 科技评论按：本文由「图普科技」编译自Medium - 3D body recognition using VGG16 like network

2017年3月，当时我的老板说自动识别 3D 物体几乎是不可能的，但大家一致反对。

因此，今天我要解决的问题是：如何输入3D 网格物体（原始三角形和顶点），得到分类概率的输出。

我找到了如下几种解决方案：

对物体进行缩放并将其分割成体素。将体素给到神经网络中。
计算大量描述符，将其放入分类器。
从多侧进行物体投射，尝试用单独的分类器进行识别，然后将其放到元分类器中。

在这里我想详细讲述一下一种相对简单有效的方法，即 DeepPano 方法。

数据准备

如今，图像数据集包含大量样本。但就 3D 模型数据集而言，并非如此。3D 模型数据集中没有成千上万的图像，因此 3D 模型识别没有得到深入研究，3D 模型数据集也不均衡。大多数数据集包含有未进行方向对齐的物体。

ModelNet10 是一个相对清晰的 3D 物体数据集。3D 物体在数据集中被存储为包含点线面的 .off 文件。 .off 文件格式不支持显示布料、纹理以及其他材质。

这里是物体种类与样本数量：

3d拓扑网格使用方法（一文教会你三维网格物体识别）(1)

样本总数约为 5000。当然这个数据集也非常不均衡。

首先要做的是选择分类器类型。由于如图像、语音等重要数据的技术解决方案都是基于神经网络（或在 Kaggle 比赛中经常使用的奇特组件），因此训练神经网络是合乎逻辑的。神经网络对数据集的均衡性很敏感。所以第二步需要做的是使数据集更均衡。

我决定使用从 3dWarehouse 中得到的模型获取更多数据并创建扩展数据集。这些模型是以 .skp 文件格式存储的，因此必须进行转换。我使用 SketchUp C Api 创建了 .skp - >.off 转换器来进行转换。

下一步是数据清理，完全相同的图像已被删除。可以这样分配：

3d拓扑网格使用方法（一文教会你三维网格物体识别）(2)

这样数据集看起来就比较均衡了。除马桶外，几乎每个物体类别都包含有近1000个样本。其他物体类型之间的不均衡可通过分类权重进行修正。

数据预处理

在之前的步骤中，我们已经做了几件重要的事情。

阐述问题。
下载我们将要使用的基本数据集（ModelNet10）。
从最初的10类物体中选出了7类。
通过创建.skp - > .off转换器来转换3d warehouse.中的模型，数据集变得更加均衡。

现在开始深入了解数据预处理。

在预处理过程中，数据预处理的最终结果是要用一种新的图像来表示 3D 网格物体。我们将使用圆柱投影来创建图像。

3d拓扑网格使用方法（一文教会你三维网格物体识别）(3)

3D网格物体

此物体的转换结果

首先，我们需要读入3D 网格物体并进行存储。这可以通过功能强大的 trimesh 库来完成。它不仅提供读/写功能，而且有大量其他有用的功能，如网格变换，光线追踪等。

第二步是计算圆柱投影。圆柱投影是什么呢？假设一个立方体位于 XoY 平面的中心，且原点有一条垂直轴。

注意：如果物体的主轴不垂直，则需要在进行物体识别前应用方向对齐算法。这是一个完全不同的领域，因此在这里不对此主题进行探讨。

3d拓扑网格使用方法（一文教会你三维网格物体识别）(4)

立方体和主轴

3d拓扑网格使用方法（一文教会你三维网格物体识别）(5)

现在假设有一个包裹立方体的最小圆柱体。

3d拓扑网格使用方法（一文教会你三维网格物体识别）(6)

现在将圆柱体的侧面切割成M×N的网格。

3d拓扑网格使用方法（一文教会你三维网格物体识别）(7)

现在将每个网格节点垂直投影到主轴上并获取一组投影点。投影点集合由P表示。投影线集合由S表示。

绿色是主轴，红色是网格，黄色是几何投影线。

现在将S集合中的每段与网格体，即该立方体相交。你将从每条射线获得一个交点。将该点分配给相应的网格节点。

其实这是一个特例。一般情况下，S中的一个投影线可以有多个交点，或者根本没有交点。下面就是一个例子。

3d拓扑网格使用方法（一文教会你三维网格物体识别）(8)

因此，通常这个过程的结果是在每个单元中都有一个 M×N 矩阵，其中可能具有交点数组，也可能是空的。对于立方体，每个单元格将包含具有单个元素的数组。

下一步是从每个单元格的交点中选取离对应的M中的点距离最远的点，并将它们之间的距离写入 M×N 矩阵R。矩阵（或图像）R 称为全景图。

我们为什么要选取最远的点？最远的点通常集中于物体的外表面。我们将其用全景图表示，可用于识别模块。当然，有人可能会说：“圆环和高度相同的圆柱体会呈现出完全相同的全景图”或者“中心有一个球形孔的立方体和没有孔的立方体会呈现出完全相同的全景图”，这是正确的。以全景图来呈现3D物体并不完美，但如果是用体素来呈现则没有这样的缺点。幸运的是，像椅子、床、汽车或飞机这些真实存在的物体由于其复杂性，很少有相同的全景图。

最后一步是通过将单元格的值缩放到 [0,1] 区间，对R矩阵进行归一化。如果单元格没有交点，则该单元格的值为零。

现在我们可以将矩阵R视为灰度图像。这里是所描述过程的 python 代码和全景图计算的一个例子。

混凝土床、椅子和马桶的全景图。

我们总结一下到目前为止已经完成的步骤。