车载激光点云道路场景杆状地物分类研究
臧 静,李永强,赵上斌,刘亚坤,杨亚伦
(河南理工大学 测绘与国土信息工程学院,河南 焦作 454000)
摘 要:针对车载激光点云数据中杆状地物分类效果不理想以及单一分类算法具有局限性的问题,该文提出一种基于多重投票方式的改进引导聚集(Bagging)集成学习方法。根据地物点云特征值组成特征向量,利用样本集数据分别对多种机器学习算法进行训练并构建分类模型,获取每个分类器识别能力的先验知识;利用改进的Bagging集成分类算法对识别能力较强且可能存在互补信息的算法进行集成;采用多重投票方法实现杆状地物的自动分类。实验结果表明,该文算法对道路场景中杆状地物的分类精度可达98.58%,高于其他单分类器,对点云自动化分类具有一定的参考。
0 引言
车载LiDAR技术的发展使得快速获取城市道路及附属地物的三维空间信息成为可能,为无人驾驶、高精度地图绘制、道路资产管理、数字城市建设提供了基础技术支撑。与传统测量方法相比,车载激光扫描技术对于城市环境地物的获取具有数据获取速度快、精度高、成本低、不受天气和光照影响等明显优势[1]。由于道路附属物中杆状地物之间相似度较高,精准分类比较困难,如何对道路杆状地物进行快速、高效、准确的分类,是建模分析的基础,也是道路点云分类的研究重点。
针对车载激光点云杆状地物的分类研究,目前有较多学者采用基于机器学习的分类方法,文献[2]利用随机森林(random forest)分类器对杆状地物进行精细分类,验证了此方法的有效性。文献[3]采用支持向量机(support vector machine,SVM)和人工神经网络(artificial neural network,ANN)两种机器学习方法分别对行道树点云进行提取实验,分类精度分别达到99.75%和99.25%。文献[4]通过提取杆状地物的多个特征值并构建特征向量,使用BP(back propagation)神经网络建立分类模型,实现对杆状地物的分类。此外,文献[5]提出一个端到端的基于八叉树数据结构的全卷积神经网络,对城市道路环境下的三维点云进行分类,并验证了此深度学习算法对城市道路环境车载和静态激光三维密集点云进行自动分类的有效性。文献[6]提出一种结合快速点特征直方图(fast point feature histograms,FPFH)特征与低阶几何特征作为特征向量,并基于条件随机场(conditional random field,CRF)模型进行点云上下文分类的方法。文献[7]提出一种基于图像的实例分割PCIS(position and classification information system)的点云分类,并验证了PCIS对点云分类的有效性。由于各分类器的算法和底层逻辑不同,各分类器对不同类别地物的识别能力也不同,这说明分类器之间存在互补信息的可能性。为了更好地利用这类互补信息,人们提出多种分类算法集成的思想[8-10]。多分类器组合方法研究最早在模式识别领域兴起,并在图像处理等多个领域得到广泛应用[11-14]。本文在多种分类算法集成思想的基础上,提出一种基于多重投票的改进引导聚集(Bootstrap aggregating,Bagging)集成分类算法,实现对杆状地物的自动分类,提高分类精度。
1方法流程
本文方法总体技术流程如图1所示。
2点云特征矩阵构建
2.1点云数据特征
车载LiDAR测量系统集成了测距单元、高精度定位定姿系统(position and orientation system,POS)单元、相机单元等,获取的地物点云包括空间三维坐标(X,Y,Z)、GNSS时间、单点回波强度(Intensity)及点云颜色(RGB)等信息。单点信息不能为地物分类与提取提供有效的支持,需要依靠邻近点群共同反映该地物的隐含特征,因此需要对点云进行聚类分析。
2.2特征矩阵构建
车载LiDAR点云中,地面是各类地物联系的纽带,各类地物都与地面相连并成为一个整体,去除地面点云是不同地物进行正确分类的前提,本文采用布料模拟滤波算法滤除地面点[15]。由于树冠体积较大的行道树常与相邻的行道树或其他地物相互交叠,本文在去除地面点数据后,使用基于树木生长模型的距离加权分割方法[16],将相邻的行道树进行分割。
为了提取点云对象在多维空间内的特征,使用欧式聚类分割方法对点云进行聚类。将点云特征归纳为点云聚类的特征向量,包括点云在3个投影面的投影密度、3个方向的特征值、聚类后的点云数量、点云包围盒体积,再由多个地物的特征向量构建特征矩阵。使用主成分分析(principal component analysis,PCA)理论,对聚类后的杆状地物点云数据组成的(X,Y, Z)矩阵进行奇异值分解,变换坐标系方向为主成分方向,计算3个方向的特征值λ1、λ2、λ3,并进行数据归一化处理,归一化后的数据为A1、A2、A3。杆部大多呈圆柱形,不同种类地物的顶部形态、面积有较大差别(见图2),因此将杆状地物顶部特征信息作为分类提取的重要依据,本文利用网格数目增加的方法判断顶部与杆部的分界位置并进行分离[17]。不同类型杆状地物顶部在形状、大小、点云密度等方面存在差异,将杆状地物分别向3个主平面进行投影,通过网格计数法计算出投影面积,并计算出各聚类点云点的数目与投影面积的比值,求得杆状地物在3个主平面的点云密度D1、D2、D3。将A1、A2、A3、D1、D2、D3作为6个特征值归入特征向量F。
车载LiDAR系统在行进过程中,高速旋转的激光雷达发射装置采用侧视方式对道路附属地物进行主动式扫描,侧面积较大的地物获得较多的点,不同杆状地物的体积V也各不相同,因此聚类单元点云数量N和聚类单元体积V也作为不同地物判别的依据,计算聚类单元的包围盒体积作为聚类单元体积V并纳入特征向量F,计算聚类单元点的数量N并纳入特征向量F。共计算出包括8个特征值在内的特征向量,即F= [A1,A2, A3, D1, D2, D3,N,V]。首先,通过计算输出每个聚类单元对应的特征向量,得到对应的特征矩阵;然后在对分类模型进行训练的过程中将路灯、线杆、交通指示牌、行道树的特征向量分别给予0、1、2、3不同的标签,训练后得到分类模型;最后,对未给予标签的测试集数据进行分类,再与真实结果进行比对,判别得出分类模型的优劣。
3 集成分类器构建
3.1 Bagging集成原理
Bagging算法[18],又称装袋法,它基于Bootstrapping思想,用随机抽取的全体数据的子集作为每次训练的训练集,训练出不同的基分类器。每一次迭代前,都采用有放回的随机抽样来获取训练数据,用每次抽到的数据训练分类器得到一个分类模型。这体现了Bagging方法的一大特点:每次迭代不依赖之前建立的模型,即生成的各个弱分类器模型之间没有关联,可彻底实现数据并行训练。在对一个新样本进行预测时,对每个分类器的预测结果采取简单投票法,确定该个体所归属的类[19-20]。Bagging集成模型中单个模型的平均误差平方和为式(1),所有模型的平均误差平方和为式(2),下述公式表明Bagging可以有效地使多个模型误差趋于平均。
采用该方法抽取样本时,会出现一些样本被抽取多次,另一些样本没有被抽到的情况,平均能够抽取到原始样本的63.2%。由于每次都是有放回的随机抽取,每个子样本中噪声点占有的比例较小,能够大幅度减少样本集中噪声点的数量,增加基学习器之间的差异度以及分类模型的泛化能力。但是对于分类问题,Bagging算法通常采用不同的子数据集训练相同的算法模型,在对结果处理方面,使用简单投票法对各个基学习器结果进行处理,无法充分利用不同分类算法之间的互补信息,针对上述问题,本文对Bagging集成方法进行了改进。
3.2改进的Bagging集成原理
多分类器集成是一种通过组合决策,充分利用各基分类器之间存在的互补信息来提高分类精度的简单高效的方法。集成学习算法本身并不算一种单独的机器学习算法,而是使用不同算法或者改变原始训练样本组合得到一个综合能力和泛化能力更强的分类系统。
本文提出了两种改进的Bagging集成方法并进行了对比试验,即基于多种分类算法的单重投票和多重投票Bagging集成方法,均是将若干个不同算法的弱学习器集合成一个强学习器,使用同一样本数据子集对其进行并行训练。二者区别在于,前者首先通过有放回的随机从训练样本中抽选出K个训练子集,然后用每一个训练子集训练存在互补关系的N个弱学习器,得到N个弱分类器模型,经过K轮迭代后产生N×K个弱分类器模型,当对某一地物进行分类时,将地物的特征数据分发给N×K个弱分类模型,得到N×K个分类结果,最后通过计算N×K个预测结果的平均值得到最终的分类结果。而后者首先对每个子样本产生的N个结果进行投票得到K个中间结果,然后将得到的K个结果再次进行投票。与单重投票相比,多重投票方法更加充分地利用了不同基分类器之间的互补信息,其算法流程如图3所示。
4 实验与结果分析
4.1实验数据
选取河南理工大学校园四周的道路作为试验区(见图4),道路全长5.7 km,除AB路段的行道树多为叶片相对较小的柳树外,其余树种均为叶片相对较大的小乔木石楠。利用SSW-3车载LiDAR系统采集,相关参数设置为:扫描转速200转/s,发射脉冲500 kHz。所选样本分为路灯、行道树、交通指示牌和电线杆4类。样本选取原则:保证样本类别属实;样本数据足够且尽量分布均匀。图4(a)为原始点云数据,图4(b)为原始数据经过点云裁剪、去噪、去除地面点以及聚类分割处理后提取的地物数据。
4.2分类器选择
为了找到适合实验数据的基分类器算法,本文先利用相同的训练样本和测试样本分别对支持向量机(SVM)、k-近邻(KNN)、决策树(DT)、逻辑回归(LR)和BP神经网络进行训练和测试,每个分类器通过交叉验证并对相关参数进行调整,最终得到最优分类模型。输出混淆矩阵等分类结果评价信息,通过计算得到各分类器对不同地物的分类准确率和整体分类准确率(见表1)。
表1 不同分类器对不同地物的识别能力
就总体精度而言,决策树分类算法、支持向量机、K近邻算法的准确度较高且相近,BP神经网络和逻辑回归算法的准确度相对较低。从表1分类结果可以得出,对线杆的识别,5种分类器都能准确地识别;对行道树的识别,支持向量机的识别能力最强;对交通指示牌的识别,K近邻方法识别能力最强,且准确率达到100%;而决策树分类算法对路灯的识别能力最强。综上所述,决策树分类算法、支持向量机、K近邻算法不仅准确度较高而且存在着互补的信息,为了充分利用这一信息,本文选取这3个机器学习算法作为改进的Bagging集成学习的基分类器。
4.3基于改进的Bagging集成方法分类
通过对单一分类器分类结果分析,选择存在互补信息且准确度相对较高的决策树分类算法、支持向量机、K近邻算法,作为基分类器进行集成学习和分类。根据单重投票法和多重投票法这两种投票方法,将改进的Bagging集成学习分为两类,其中单重投票方式是直接将所有分类器的结果进行投票得到最终结果,而多重投票方式是对每个子样本数据下的分类器先进行一次投票,然后将投票结果再次进行结合得到最终结果。本文通过对两种改进的Bagging集成学习的试验,分析两种方法的准确度和稳定性。
表2 不同子样本个数和不同投票方式的对比
本实验用于训练的数据集包含2 165个样本,使用图1中4条道路中的杆状地物作为测试样本。通过利用Bootstrsp重抽样方法对训练集抽样,采用不同的子样本集个数构建Bagging集成模型来验证集成分类模型的可靠性。实验采用同一数据集对两种改进方式进行实验验证,根据子样本集的个数将实验分为类,其中子样本集数量分别为5 5、10、20、50和100。用相同的测试样本进行测试,实验结果和相关参数如表2所示。由实验结果可知,基于不同投票方式的集成模型分类精度随子样本集个数的增加均有所提高,且在子样本集数为50时趋于稳定,但是当子样本集数为100时,单重投票分类模型的分类精度出现了下降,而多重投票分类模型依然稳定。就总体精度而言,多重投票分类模型的精度高于单重投票分类模型,可以认为多重投票分类模型在稳定性和准确度上都优于单重投票分类模型。
通过采用相同的子样本个数以及不同的抽样率对多重投票分类模型进行实验,分析模型的鲁棒性,寻找最优抽样率,将实验按Bootstrsp抽样率分为7类,抽样率分别为0.4、0.5、0.6、0.7、0.8、0.9和1。考虑到模型效率和精度问题,取子样本个数为20。实验结果表明,随着抽样率的增加,模型的分类精度有一定提升,当抽样率为0.8时精度达到最高。
由以上实验结果分析可知,当子样本个数为20、抽样率为0.8时,基于多重投票方式的改进Bagging集成学习分类模型达到最优状态。用此模型对试验区杆状地物进行分类,分类结果如图5所示,红色部分为交通指示牌,蓝色部分为路灯,绿色部分为行道树,黑色部分为线杆。图5中1号、3号处路灯被错分成了线杆,原因是此路灯顶部点云缺失;2号处交通指示牌被错分成行道树,原因是该地物在3个方向的投影面积和点云投影密度与行道树相似。
将改进的Bagging集成学习分类结果与单一分类模型进行对比(见表3),分析可得,改进的Bagging分类方法通过利用各分类器之间的互补信息,在原有基础上提高了分类精度,分类模型也有较好的稳定性和包容性。通过对各分类器混淆矩阵对比分析,验证了此方法在城市道路场景中典型杆状地物分类的有效性。表4为Bagging集成学习分类方法中的混淆矩阵,混淆矩阵的对角线数字越大,代表每个类别预测正确的数量越多,从左至右为路灯、交通指示牌、线杆以及行道树的正确分类个数。
表3基于多重投票的改进Bagging方法与单一分类器精度对比
表4文中所使用方法的混淆矩阵
5结束语
本文以道路场景中典型杆状地物的特征值为基础,使用不同的机器学习算法对杆状地物进行分类,找出分类效果相对较好且具有互补信息的决策树分类算法、支持向量机、K近邻算法,作为基分类器进行集成学习和分类;然后在小样本数据集的基础上,分别基于单重投票和多重投票方式的改进Bagging集成学习方法,对点云中的杆状地物进行分类,通过输出混淆矩阵进行计算和评价;最终采用基于多重投票方式的改进Bagging 集成方法作为分类模型。实验结果证明,基于多重投票方式的改进Bagging模型的分类精度可达98.58%,高于其他单分类器,且具有较好的稳定性。本文方法仍存在不足之处:对点云的完整性要求较高,在分类过程中由于点云部分数据缺失导致路灯被错分为线杆;与部分单分类器相比,分类效率有所降低。因此完善点云数据、寻找能够克服点云缺失问题的特征值以及提高分类效率是今后的研究方向。
作者简介:臧静(1996 —),女,河南商丘人,硕士研究生,主要研究方向为车载激光雷达。
E-mail:1018781714@qq.com
基金项目:国家自然科学基金项目(41771491)
,